|
북경시간으로 8월 14일 새벽, 구글은"Made by Google"대회에서 지능음성조수 Gemini Live를 정식으로 발표했다.이 기능은 OpenAI의 GPT-4o 음성 모드에 직접 도전하며 인공지능 인터렉션이 더욱 자연스럽고 범용적이며 사용자 친화적인 방향으로 한 걸음 더 나아갔음을 의미한다.
구글에 따르면 사용자는 기존의 입력과 출력 설정이 아닌 Gemini Live와 자유롭고 유창한 대화를 할 수 있다.
대화 도중 사용자는 더 자세한 내용을 묻기 위해 끊거나 잠시 멈춘 후 계속할 수 있습니다.
구글은 대화를 더욱 자연스럽게 하기 위해 사용자가 선택할 수 있도록 10가지 소리도 제공했다.구글은"이것은 주머니에 파트너가 있는 것과 같다. 새로운 아이디어에 대해 이야기하거나 중요한 대화를 연습할 수 있다."
Open AI가 이전에 발표한 GPT-4o 고급 음성 모드도 사용자가 대화 도중 끊을 수 있고 사용자의 정서적 파동을 감지하고 응답할 수 있다.음성 설정의 경우 오픈 AI는 네 가지 사운드를 제공하며 모두 전문 성우와 협업해 제작했다.
또한 Google은 Gemini Live를 다른 응용 프로그램 및 도구와 연결합니다.구글은 앞으로 몇 주 동안 킵, 태스크, 유틸리티, 캘렌다, 유튜브 뮤직 등 확장 기능을 선보일 것이라고 밝혔다.
구글은 이러한 기능의 구체적인 응용 장면을 묘사했다.예를 들어 사용자는 Gemini Live가 특정 식단을 찾을 수 있도록 만찬을 열고 Keep 쇼핑 목록에 식재료를 추가할 수 있으며,"90년대 말을 떠올리게 하는"플레이리스트를 사용자 정의할 수 있습니다.또 례를 들면 음악회 포스터의 사진 한장만 찍으면 Gemini Live는 사용자에게 당일 시간이 있는지 대답하고 표를 사라고 일깨워줄수 있다.
그러나'Made by Google'대회 현장에서 Gemini Live 기능을 시연할 때 약간의 에피소드가 나왔다.Google 임원 Dave Citron은 Gemini Live에 그의 일정표에 활동이 있는지 물었고 Gemini Live를 두 번 연이어 시도했지만 응답하지 않았으며 세 번째로 장치를 바꾸고서야 시연에 성공했습니다.
현재 Google은 Android 휴대폰의 Gemini 고급 구독자에게 영어 버전을 제공하고 있으며 앞으로 몇 주 내에 iOS로 확장하여 더 많은 언어 모드를 제공할 것입니다.구글이 발표한 최신형 픽셀9 시리즈에도 게미니 라이브 기능이 탑재됐다.
업계인사는 Gemini Live의 발표는 인공지능상호작용발전의 중요한 리정표라고 인정했다.음성 중단과 선택 기능을 도입함으로써 구글은 OpenAI와 경쟁하고 있을 뿐만 아니라 인간과 컴퓨터의 인터렉션 방식을 추진하고 있으며, 따라서 인공지능 챗봇 시장의 경쟁 구도를 변화시키고 오히려 다른 회사들이 더 많은 자연스럽고 실용적이며 매력적인 인공지능 조수를 창조하도록 강요하고 있다.
이와 동시에 인간과 컴퓨터의 상호작용의 혁신발전도 새로운 문제와 도전을 가져다주었다.예를 들어, 인공 지능은 컨텍스트의 통일성과 관련성을 유지하면서 주제 변화를 어떻게 빠르게 처리할 것인가?중요한 단서를 잃지 않고 간섭 정보를 처리하려면 어떻게 해야 합니까?더욱 중요한것은 인공지능이 깊이있게 발전함에 따라 현실생활과의 경계는 어디에 있는가?
OpenAI가 이미 3개월 전에 공개적으로 소개한 GPT-4o는 아직 완전히 정착되지 않았다.8월 9일, OpenAI는 안전성에 관한 블로그글을 발표하여 회사가 GPT-4o를 개발할 때 한 안전노력을 상세하게 소개하고 이런 기술이 사회에 가져다줄수 있는 위험을 토론했다.
OpenAI는 이 보고서에서 인공지능의 인간 사회 패턴이 초래할 수 있는 위험을 지적했다.OpenAI는 사용자가 인공 지능과 사회적 관계를 맺고 인간의 상호 작용에 대한 요구를 줄일 수 있다고 생각합니다.이는 고독한 개인에게 유리하지만 건강한 인간관계에 영향을 미친다.
OpenAI는 GPT-4o의 초기 테스트 때 사용자와 모델의 상호 작용 언어에 미묘한 변화가 나타나기 시작했다는 것을 관찰했다고 밝혔다. 예를 들어,"이것은 우리가 함께 있는 마지막 날"등등, 이런 무해해 보이는 표현의 배후에는 더 큰 문제가 숨겨져 있을 수 있다.
또한 OpenAI는 GPT-4o가 때때로 의도치 않게 사용자의 목소리를 모방하는 출력을 생성하는데, 이는 AI 음성 엔진이 사기에 사용될 수 있다는 것을 의미한다고 언급했다.
그리고 이러한 보안 문제는 OpenAI가 GPT-4o 착지 리듬을 제어하는 이유 중 하나입니다.Google Gemini Live가 유사한 보안 위험을 해결했는지는 공개되지 않았습니다.
안전과 관련된 모든 잠재적 위험은 우리가 인식할 수 있는 것이든,"판도라의 상자"에 딸린 더 많은 가능성이든, 모두 인공지능 사업이 더 해결해야 할 문제이다."기술의 진보는 인류에게 봉사하기 위한 것"을 보장하기 위한 것이다. |
|