엔비디아, 새로운 AI 모델과 함께 오디오계"전복": 음악을 창작하고 인성을 수정할수 있다

天道唯 · 发表于 2024-12-8 18:59:59

보도에 따르면 엔비디아 (Nvidia) 는 소리 효과를 창출하고 사람의 발음 방식을 바꾸며 자연어 힌트를 사용하여 음악을 생성할 수 있는 새로운 인공지능(AI) 모델을 개발했다.
이 모델은 Fugatto, 즉 Foundational Generative Audio Transformer Opus 1로 명명된 연구 프로젝트입니다.엔비디아는 이 기술을 발표할 어떠한 계획도 발표하지 않을 것이지만, 음악, 오락, 번역 서비스에 이르기까지 업계에 광범위한 영향을 미칠 수 있다고 밝혔다.
엔비디아의 응용 딥 러닝 연구 부사장 Bryan Catanzaro는 인터뷰에서"Fugatto의 가장 흥미로운 점은 그것이 어떤 방식으로 소리를 내도록 요구할 수 있는 모델을 가지고 있다는 것이다. 이것은 정말 그것의 응용 범위에 대한 상상을 열어준다."
그는 더 나아가 시장의 다른 모델들 중 일부는 음성을 합성할 수 있고 일부는 음악에 사운드를 추가할 수 있지만 Fugatto는 모두 할 수 있다고 설명했다.Catanzaro는 이를 Stability AI의 Stable Video Diffusion 또는 OpenAI의 Sora와 같은 비디오 및 이미지 생성 모델의 보충으로 볼 수 있다고 말했다.
"여기서 가장 기본적인 개선은...우리는 언어를 사용하여 오디오를 합성할 수 있으며, 사람들이 놀라운 오디오를 만드는 데 사용할 수있는 도구에 새로운 전망을 열었다고 생각합니다."라고 그는 덧붙였다.
엔비디아에 따르면 Fugatto는 훈련된 요소를 혼합하고"자유 형태의 명령"을 따를 수있는 새로운 특성을 가진 최초의 기초 모델입니다.
특히, 이 모델은 표준 문자 프롬프트를 통해 오디오를 생성하거나 업로드한 오디오 파일을 처리할 수 있습니다.그래서 누군가가 말하는 파일이 있다면 그 사람의 말을 다른 언어로 번역하면서 그의 목소리처럼 들리게 할 수 있다.당신은 또한 관현악 공연처럼 들리도록 간단한 곡조를 선택하거나 음악에 다른 박자를 추가할 수 있습니다.
또한 모델이 원하는 모든 소리로 읽을 수 있도록 문서를 업로드할 수도 있습니다.더 중요한 것은 모델에게 감정적 무게가 있는 소리를 내라고 말할 수 있다는 것이다.
그러나 Catanzaro는이 모델이 항상 완벽하지는 않다고 덧붙였다.또한 Fugatto는 이미지와 비디오를 생성하는 모델처럼 예술가, 오디오 엔지니어 및 관련 분야 사람들의 우려를 낳습니다.그러나 Catanzaro는 그의 본의는 이 기술이 음악가를 도울 수 있기를 바라는 것이라고 지적했다.
"나는 이것이 예술가들이 탐구하는 새로운 도구이기를 바란다.""나는 오디오가 줄곧 생산적인 탐구 분야라고 생각한다.우리가 새로운 오디오 도구를 얻을 때, 때때로 우리는 새로운 음악 형식을 얻을 수 있다는 것을 당신은 알고 있다."라고 그가 말했다.

		自动登录	找回密码
密码			立即注册

엔비디아, 새로운 AI 모델과 함께 오디오계"전복": 음악을 창작하고 인성을 수정할수 있다

相关帖子