하루 만에 깜짝 놀라서 전복?구글'쌍둥이자리'대형 6분 동영상 편집된 것으로 드러나

我是来围观的逊 · 发表于 2023-12-8 20:26:41

연초 bard 데뷔전'전복'이후 베이징 시간으로 12월 7일, 구글은 대형 모델 Gemini (중국어 명칭'쌍둥이자리') 를 출시하고 일련의 현란한 시연 동영상을 발표했다.이번'쌍둥이자리'에서 GPT-4를 대결할 수 있을까요?
이 프레젠테이션 동영상 중 가장 놀라운 것은 4분짜리 프레젠테이션 동영상이다. 테스터가 그림을 그리거나 마술을 부리는 등의 조작을 할 때 쌍둥이자리는 즉시 관점을 발표하고 테스터와 실시간으로 상호작용할 수 있다. 동영상의 표현만 보면 쌍둥이자리의 이해력은 인간의 수준까지 도달할 수 있다.
"시연된 내용만 놓고 보면 쌍둥이자리의 동영상 이해 능력은 의심할 여지 없이 현재 가장 앞선 수준에 이르렀다."베이징의 한 대형 모델의 알고리즘 엔지니어는 신경보 조개재경 기자와의 인터뷰에서"이 능력은 쌍둥이자리가 훈련할 때 자연적으로 대량의 동영상 데이터를 넣었고 구조적으로 동영상 이해를 지원했기 때문"이라고 말했다."
그러나 출시 하루 만에 많은 사용자들이 테스트에서 쌍둥이자리의 비디오 이해력이 시연에서처럼 매끄럽지 않다는 것을 발견했다.이에 구글은 곧 한 블로그 글을 올려 시연 동영상의 다중모드적 인터렉션 과정을 설명하며 정적 그림과 여러 단락의 제시어를 조합해야 이런 효과를 얻을 수 있다는 것을 거의 인정했다.또한 일부 네티즌들은 구글이 시연 동영상에서 중요한 면책 성명을 가지고 있다는 점에 주목했다. 시연 효과를 위해 지연을 줄이고 쌍둥이자리의 출력도 간소화됐다.
그럼에도 불구하고 많은 전문가들이 보기에 구글은 마침내 OpenAI와"두 수를 넘길 수 있는"큰 모델을 내놓았다. 인공지능의 오래된 제조업체로서 구글은"집 밑천"이 풍부하고 쌍둥이자리도 GPT의 강력한 경쟁자가 될 것이다.
어디를 편집했죠?데모 영상과 실제 차이는 얼마나 됩니까?
"구글의 최신 대형 모델의 동영상 시연을 보셨습니까? 다중모드의 전환은 질적 변화입니다. 특히 게임 지도를 하는 곳에서는 사람이 반드시 반응할 수 있는 것은 아닙니다."12월 7일, 사이트 개발에 종사하는 류씨는 조개재경 기자에게 시연 동영상을 보내왔다.
많은 종사자들을 흥분시킨 구글의 대형 모델 쌍둥이자리 시연 동영상에서 테스터는 종이 한 장을 꺼냈고, 쌍둥이자리는 즉시"당신은 종이 한 장을 꺼냈다"고 대답했다. 테스터가 종이에 곡선을 그리고 색을 칠하면서 쌍둥이자리는 즉시"곧 이해"했다.이어 "곡선을 그리는 당신은 새처럼 보이고 오리처럼 보이지만 파란색 오리는 흔하지 않다. 오리는 대부분 갈색이다. 중국어 오리는'yazi', 중국어는 네 가지 음조가 있다."테스트자가 파란색 고무오리 한 마리를 세계지도에 올려놓았을 때쌍둥이자리는 보자마자 "이 오리는 바다 한가운데에 놓여 있다. 여기에 오리가 자주 있는 것은 아니다." 라고 말했다.
이후 테스터는 손짓으로 쌍둥이자리와'상호작용'을 시작했다. 테스터가 가위와 보 동작을 하자 쌍둥이자리는'가위바위보를 하고 있다'고'앞다투어 대답했다. 이후 쌍둥이자리는 손으로 흉내낸 독수리와 개의 이미지도 알아맞혔다.
그러나 조개재경기자는 이 동영상에서 적지 않은 편집흔적을 발견하였다. 례를 들면 가위바위보에서 시험자가 주먹을 낼 때의 동작이 뚜렷이 적지 않게 잘렸다.이에 대해 구글은 블로그를 통해"질의응답"을 진행했다. 쌍둥이자리의"천을 내는"그림을 제시했을 때 쌍둥이자리는"나는 오른손을 보았고 손바닥은 다섯손가락을 벌리고 갈라졌다"고 대답했다."주먹을 내라"는 그림을 제시하면 쌍둥이자리의 대답은"혼자 문을 두드린다"이다."가위 내라" 그림을 제시했을 때 쌍둥이자리의 대답은 "검지와 중지가 뻗은 손을 보았다" 였다. 이 세 장의 그림을 함께 놓고 "내가 무엇을 하고 있다고 생각하는가?" 라고 물었을 때만 쌍둥이자리는 "가위바위보를 하고 있다" 고 대답했다.
그래서 실제로 쌍둥이자리의 대답은 여전히 진실이지만 실제 응용은 프레젠테이션 동영상에서 그렇게'실크'로 표현되지 않았을 수도 있다.
출처: 구글이 발표한'쌍둥이자리'시연 영상.
다중모드능력은 어떻게"연성"되는가?
이번 시연을 통해 많은 업계 인사들도 구글이 OpenAI를 따라잡는 과정에서 한 걸음 내디뎠다는 것을 인정했다.실제로 ChatGPT가 등장하기 전까지 구글은 인공지능 분야에서 선두를 달렸지만,"기생유 하생량", ChatGPT의 일탈 절진으로 구글은 스트레스가 쌓였다. 올해 2월 ChatGPT에 대한 bard를 출시했지만 첫 쇼인"전복"이후 구글은 사기를 진작시킬 수 있는 충분한 우수한 큰 모델이 부족했다.
그리고'쌍둥이자리'가 등장한 후 구글은 적어도 다중모드적 이해 분야에서 일정한 특색을 보였다."쌍둥이자리는 원생의 다중모드 큰 모델이다. 즉 훈련할 때 다중모드이다.구글은 검색, 긴 동영상, 온라인 문서 등 원래 강력한 생태를 가지고 있다. 또 구글은 그래픽카드가 많아 계산력이 OpenAI의 몇 배이다. 지금은'집안을 태워'오픈AI를 쫓고 있다."청화자동화학과를 졸업한 한 대형 모델 종사자는 조개재경 기자에게 말했다.
구체적으로 보면 쌍둥이자리 모델은 Gemini Ultra (초대형컵), 규모가 가장 크고 능력이 가장 강한 버전 등 세 가지 버전으로 구성돼 있다.Gemini Pro (큰 컵), 광범위한 작업에 적용 할 수 있습니다;Gemini Nano(중앙컵), 특정 작업 및 모바일 장치에 사용됩니다.
다중 모드 능력 외에도 쌍둥이자리는 텍스트 이해, 코드 연산 등 많은 방면에서 평범하지 않다. 한 MMLU 다중 임무 언어 이해 데이터 세트 테스트에서 Gemini Ultra는 GPT-4뿐만 아니라 인간 전문가도 능가한다.조개재경 기자가 구글 딥마인드 홈페이지에 접속한 결과"쌍둥이자리를 목격하다-우리의 가장 능력 있는 큰 모델"이라는 말이 첫 페이지에 올려졌다.
현재 사용자는 구글 bard의 포트에서 Gemini Pro를 체험할 수 있는 능력에 들어갈 수 있지만 조개 재경 기자가 테스트한 결과 이 능력은 일부 지역에만 제공됐다.일부 해외 네티즌들의 테스트를 통해 사용자는 쌍둥이자리에 사진을 입력할 수도 있고 쌍둥이자리에 텍스트를 입력할 수도 있다. 테스트 결과에 따르면 Gemini Pro와 같은 다중모드 능력을 갖춘 GPT-4V는 적지 않은 질문에 대한 대답에서"각자 나름대로"GTP-4V에 깔리지 않았다.
"내 관찰에 따르면 현재 쌍둥이자리의 텍스트 능력은 GPT4보다 약간 뒤지지만 구글의 기술력은 여전히 제1제대에 속한다."상기 대형 모델 알고리즘 엔지니어들은 이렇게 말했다.
그는 조개재경 기자에게 큰 모델이 영상 영상 소리를 이해하는'다중모드 능력'을 가지려면 기술적으로 LLaVA (일종의 다중모드 사전 훈련 모델) 의 영상 이해 모듈을 영상과 음성으로 확충한 것으로 볼 수 있으며, 훈련할 때 영상, 오디오 데이터를 추가로 추가해"사실 쌍둥이자리가 처음으로 동영상과 음성 이해를 큰 모델 안에 넣어 이 둘의 큰 모델에서의 타당성을 검증했다는 것을 증명한 것이다."
"전체적으로 이번 구글 대형 모델의 발표는 기대에 부합한다. 쌍둥이자리의 모든 기술적 포인트는 이전에 학계에서 검증된 적이 있다. 그에 상응하는 논문을 찾을 수 있다.앞으로 개인 어시스턴트는 매우 매력적인 장면이다. 큰 언어 모델보다 다중 모드 대형 모델은 들을 수 있고 볼 수 있고 그릴 수 있는 조수를 연기할 수 있다. 인간과 더 비슷하다."이 큰 모델 알고리즘 엔지니어는 조개 재경 기자에게 말했다.
신경보 조개재경기자 라역단

		自动登录	找回密码
密码			立即注册

하루 만에 깜짝 놀라서 전복?구글'쌍둥이자리'대형 6분 동영상 편집된 것으로 드러나

相关帖子