엔터 시장 겨누는 엔비디아…오디오 AI 공개 > IT/과학기사 | it/science

본문 바로가기
사이트 내 전체검색

IT/과학기사 | it/science

엔터 시장 겨누는 엔비디아…오디오 AI 공개

페이지 정보

profile_image
작성자 수집기
댓글 0건 조회 11회 작성일 24-11-26 17:59

본문

엔터 시장 겨누는 엔비디아…오디오 AI 공개


엔비디아가 25일현지시간 명령어만으로 목소리를 변조하고 세상에 없던 새로운 소리를 만들 수 있는 인공지능AI 오디오 생성 모델인 푸가토Fugatto를 공개했다.

푸가토는 기본 생성형 오디오 변환 작품 1번Foundational Generative Audio Transformer Opus 1의 머리글자를 따서 명명했다. 엔비디아의 설명에 따르면 이 모델은 영화, 비디오게임 등 콘텐츠 제작에 유용하게 쓰일 수 있다. 브라이언 캐턴자로 엔비디아 응용 딥러닝 연구부사장은 "생성형 AI는 음악, 비디오게임, 무언가를 만들고자 하는 일반인들에게 새로운 기능을 제공할 것"이라고 설명했다.


엔비디아에 따르면 푸가토는 사용자가 텍스트와 오디오를 입력하면 생성형 AI 모델을 통해 여러 소리를 합성해 원하는 소리를 만들어준다. 주요 기능으로는 텍스트로 오디오 생성 오디오 변환 및 생성 등이 있다. 텍스트로 오디오 생성 기능은 푸가토에 명령어를 입력하면 소리를 만들어준다.

엔비디아의 AI 음악·오디오 새 모델이 기존 기술과 다른 점은 피아노로 연주된 선율을 사람의 노랫소리로 전환하거나 녹음된 음성의 악센트나 말투, 분위기를 바꿀 수 있는 것이라고 로이터는 전했다.

푸가토는 우선 독립적으로 훈련된 명령을 조합해 실행하며, 생성되는 소리의 억양 강도나 감정 깊이를 세밀하게 조정할 수 있다. 프랑스 억양의 슬픈 감정으로 말하는 음성처럼 복합적인 명령을 AI가 이해하고 작업을 수행할 수 있다는 것이다. 두 번째로 시간 변화에 따른 특정 조건을 적용해 천둥이 치는 폭풍우가 멈추고 점차 새소리가 들리는 새벽 소리와 같은 명령이 가능하다. 마지막으로 훈련 데이터에 없는 완전히 새로운 소리도 만들 수 있다.

엔비디아가 공개한 예시에선 사용자가 거대하고 지각이 있는 기계가 깨어나는 소리처럼 간헐적이고 고음이 높은 디지털음과 결합된 깊고 시끄러운 저음이란 명령어를 입력하자 푸가토는 공상과학 영화에서나 들을 수 있을 법한 윙윙거림으로 시작해 고음의 현악 또는 금속성 소리를 만들어냈다. 이런 추상적인 주문 외에도 좀 더 구체적인 지시를 할 수 있다. 가령 기차가 지나가는 소리를 만들고 이 소리가 현악 오케스트라 소리로 변하게 해줘라는 명령어를 입력하자 푸가토는 경적을 울리며 달리는 기차 소리로 시작해 이를 자연스럽게 현악 소리로 변환해 연결시켰다.

오디오에서 소리를 분할하는 기능도 제공한다. 노래에서 반주를 제거하고 가수의 목소리만을 따로 분리해낸다. 기존 오디오에 새로운 악기를 더하거나 새로운 것으로 바꿀 수도 있다. 피아노 반주를 여성 가수의 목소리로 변환할 수 있으며, 음악 스타일도 오페라에서 팝으로 변경할 수 있다.

엔비디아는 이날 공개한 논문을 통해 푸가토를 교육하는 데 BBC 음향 효과 라이브러리 등 이미 공개된 수많은 데이터를 사용했다고 밝혔다. 공개된 데이터를 사용했다는 점을 강조한 것은 최근 업계에서 논란이 되고 있는 저작권 위반을 의식한 것으로 추정된다.

그럼에도 푸가토의 공식 출시 일정은 미정이다. 엔비디아가 사람의 음성이나 음향을 새롭게 만들거나 수정할 수 있는 푸가토의 기능에 윤리적 부담감을 느끼기 때문이라는 관측이 나온다. 캐턴자로 연구부사장은 "모든 기술 발전에는 사람들이 이를 사용해 우리가 원치 않는 것을 만들 수 있는 위험이 따른다"며 "이에 대해 주의해야 하기 때문에 즉각 제품을 선보이지는 않을 것"이라고 강조했다.

엔비디아는 푸가토 외에도 엔터테인먼트 분야에서 활용할 수 있는 생성형 AI를 선보여왔다. 캐릭터 얼굴 애니메이션을 음성 입력만으로 생성해주는 오디오투페이스, 음성 입력을 기반으로 사실적인 애니메이션을 만들어주는 오디오투제스처, 디지털 아바타 제작용 AI 서비스인 옴니버스 에이스, 음성 인식과 합성을 위한 실시간 대화형 음성 AI를 지원하는 리바 등이 대표적이다.

[이영욱 기자]

국민연금 700만명이 받는다는데…월 100만원 이상 받는 사람은 몇 명?

‘이재명 무죄’ 김동현 판사, 대장동 사건도 맡아

“정우성, 문가비에 양육비 최대 300만원…상속권은 100%”

“2시간 동안 떨어지는 건 처음”…콩알만 한 우박이 우수수 떨어진 ‘이 지역’

오늘의 운세 2024년 11월 26일 火음력 10월 26일

[ⓒ 매일경제 amp; mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

댓글목록

등록된 댓글이 없습니다.

회원로그인

회원가입

사이트 정보

회사명 : 원미디어 / 대표 : 대표자명
주소 : OO도 OO시 OO구 OO동 123-45
사업자 등록번호 : 123-45-67890
전화 : 02-123-4567 팩스 : 02-123-4568
통신판매업신고번호 : 제 OO구 - 123호
개인정보관리책임자 : 정보책임자명

접속자집계

오늘
1,811
어제
1,991
최대
3,806
전체
759,325
Copyright © 소유하신 도메인. All rights reserved.