구글, OpenAI 기습 반격: 생성식 AI 버전 검색엔진 등 큰 모델"온 가족 통"발표

公道公道诤 · 发表于 2024-5-15 11:15:43

OpenAI는 봄 발표회 둘째 날, 구글은 새로운 I/O 개발자 대회로 맞붙었다.
이 행사는 북경시간으로 5월 15일 새벽 1시부터"화약냄새"가 가득했다.구글은 회의에서"모든 것을 선포한다"를 선택했다. AI 어시스턴트 Astra, 문생도 모델 Imagen3, 소라를 표기한 문생영상 모델 Veo, 주목받는 플래그십 대형 모델 Gemini를 포함한 10여 개의 제품을 연속 발표, 업데이트했다.
OpenAI"비둘기"가 검색에서 떨어져 최신 플래그십 대형 모델인 GPT-4o를 출시하자 오랫동안 검색 최강자의 지위를 차지했던 구글은 AI 검색을 재설계했을 뿐만 아니라 AI 식도 도우미도 함께 선보였다.
Gemini의 새로운 음성 대화 기능인 Live는 OpenAI를 표시하는 GPT-4o에 직접 대응한다. 마찬가지로 휴대폰을 통해 실시간으로 주변 상황을 물어볼 수 있어 대화를 중단해도 다시 제때에 따라갈 수 있다.
또한 Google 브라우저 Chrome에는 Gemini Nano가 추가됩니다.후자는 Gemini 시리즈의 경량 버전으로 주로 모바일 장치를 위해 설계되었습니다.
구글은 또 또 다른 작은 모델인 젬마 2.0이 올 여름 출시될 예정이며, 오픈 소스 모델인 팔리젬마를 포함해 사진을 태그하고 이미지에 제목을 추가하는 데 사용할 수 있다고 밝혔다.Gemma 모델은 Gemini 모델과 동일한 기술 스택을 사용하지만 리소스가 제한된 환경에서 배포하기에 더 작은 크기입니다.
대부분 인공지능 경쟁도 스마트폰을 쟁탈하는 경쟁이다.구글 제품 관리 부사장 Sameer Samat는 구글이 Gemini를 통해 안드로이드 운영 체제를 더욱 최적화할 것이라고 분명히 밝혔다.이런 최적화는 구글 자사 휴대전화인 픽셀에서 먼저 구현될 것으로 보인다.
Gemini는 분명히 이번 발표회의 주인공이며, 이 중 특히 다중 모드와 긴 컨텍스트 기술로 더 많은 먹칠을 받았다.
지난 몇 달 동안 구글은 긴 컨텍스트 미리보기를 할 수 있는 Gemini 1.5 Pro를 출시하여 번역, 코딩, 추리 방면에서 일련의 개선을 진행하였다.현재 Gemini 1.5 Pro의 컨텍스트 길이는 100 만 token (텍스트 처리의 기본 단위) 에서 200 만 token으로 3 개월 만에 두 배로 증가하여 회사가 외부에"근육을 과시하는 것"을 서두르고 있음을 보여줍니다.
Gemini가 출시된 지 1년이 지난 지금, 이 다중 모드 대형 모델은 이미 텍스트, 이미지, 비디오, 코드 등에 걸쳐 추리할 수 있다.구글에 따르면 20억 명의 사용자와 150만 명 이상의 개발자가 지미니 모델을 사용하고 있으며, 이 모델은 코드를 디버깅하고 새로운 견해를 얻으며 차세대 인공지능 앱을 구축하는 데 사용될 수 있다.
구글은 이 모델의 다양한 특성을 더 보여줄 수 있도록 검색, 사진, 안드로이드 등 다양한 장면에 대해 더욱 세밀하게 소개했다.
예를 들어 검색 측면에서 Gemini는 포괄적인 AI화 개조를 가져왔다.사용자는 업데이트, 더 길고 복잡한 질문을 제기하여 조회할 수 있으며 심지어 사진을 이용하여 검색할 수도 있다.구글은 이번 주부터 미국 지역에'AI 개요'검색을 시작해 추후 다른 나라에서도 오픈할 계획이다.
구글은 현장에서'사진 문의'라는 기능을 선보였다.사용자가 주차장에서 비용을 지불하고도 차량번호를 잊어버렸을 때 일반적으로 휴대폰사진에서 키워드를 검색하고 대량의 과거사진을 찾아 차량번호를 찾을수 있다.하지만 이제는 사진만 물어보면 자주 등장하는 자동차를 정확히 알려주고 차량을 삼각 측정해 차량 번호를 알려준다.
또 례를 들면 사진에 자신의 아이가 언제 수영을 배웠는가고 질문할수 있으며 심지어 아예 사진에 아이의 수영이 어떻게 진행되였는가를 알려줄수도 있다.
Gemini는 단순한 채팅 로봇이 아니라 사용자가 복잡한 작업을 처리하고 조치를 취할 수 있도록 돕는 개인 도우미입니다.Gemini 1.5 Pro는 Google 클라우드 컴퓨팅 서비스인 Google Work space에도 도입되었습니다.Google은 Gemini가 모든 작업에 필요한 단계를 완료 할 수 있다고 주장합니다.반품의 경우 AI는 우편에서 영수증을 검색해 해당 주문번호를 찾아 반품 양식을 자동으로 작성하고 수거를 주선할 수 있다.
큰 모형은 바로 계산력경기로서 가장 선진적인 모형을 훈련하려면 대량의 계산력이 수요된다.지난 6 년 동안 기계 학습 컴퓨팅에 대한 업계의 수요는 1 백만 배 증가했으며 매년 10 배 증가했습니다.AI 시대의 중요한 참여자인 구글도 인프라에 많은 힘을 쏟고 있다.
이날 밤 구글은 6세대 TPU (구글이 기계학습 워크로드를 가속화하기 위해 설계한 특정 집적회로를 응용한 것) 인'Trillium'을 발표하면서 Trillium은 지금까지 성능이 가장 높고 효율이 가장 높은 TPU로 이전 세대 TPU v5e에 비해 칩당 4.7배 향상된 컴퓨팅 성능을 올해 말 고객에게 제공할 계획이라고 밝혔다.
Gemini는 Google이 자체 개발한 4 세대 및 5 세대 TPU에서 완전히 훈련 및 서비스를 받았으며 Anthropic을 포함한 다른 선도적 인 인공 지능 회사들도 TPU에서 모델을 훈련했습니다.
그러나 구글이 자사의 각종 제품에 AI 기능을'주입'하는 동시에 사용자가 개인 프라이버시 데이터에 대해 더 많은 양보를 해야 한다는 것을 의미한다.이에 대해 구글은 자사 플랫폼의 사용자 파일을 사용해 Gemini나 다른 인공지능 모델을 훈련시키지 않겠다고 약속했다.
피차이 구글 CEO는 이날 발표회가 구글에 대한 AI의 중요성을 보여주기에 충분한'AI'를 121차례 언급했다고 밝혔다.그러나 중요성을 강조하는 것 외에 외부에서 기대했던 OpenAI에 대한 이 반격은 더 큰 놀라움을 안겨주지 못했다.

		自动登录	找回密码
密码			立即注册

구글, OpenAI 기습 반격: 생성식 AI 버전 검색엔진 등 큰 모델"온 가족 통"발표

相关帖子

浏览过的版块