首页 신문 正文

ChatGPT 출시 1주년에 이어 최근 구글의 다중모드 Gemini가 갑자기 출시되면서 업계에서는'구글 최강 반격전이 열렸다'고 보고 있다.Gemini에 대한 투자 기관의 논의는"발칵 뒤집혔다."업계인사는 다음과 같이 인정했다. Gemini는 시각식별과 추리추단 면에서 뚜렷한 최적화가 있어 상업장면에 떨어지면 실시간 상호작용장면이 다중모식인공지능모형응용의 초점으로 될수 있다.
Gemini'너무 충격적이야'.
최근 구글의 산다르 피차이 CEO는 Gemini 1.0 버전이 공식 출시됐다고 발표했다.Google DeepMind 제품 부사장 일라이 콜린스는 Google이 지금까지 가장 강력하고 통용되는 큰 모델이라고 말했다.
Gemini는 시중에 나와 있는 기존 대형 모델에 비해 처음부터 다중 모드 모델로 만들어졌는데, 이는 텍스트, 코드, 오디오, 이미지, 비디오를 포함한 다양한 유형의 정보를 귀납하고 유창하게 이해하고 조작하며 조합할 수 있다는 것을 의미한다.데이터 센터에서 모바일 장치에 이르기까지 유연하게 작동합니다.
Gemini 시리즈 데모 비디오를 본 후 많은 투자자들은"너무 충격적"이라고 말했다."Gemini의 프레젠테이션 동영상을 보면, 그가 보여준 다중모드에 대한 이해 능력은 매우 놀랍다. 또한 Gemini가 보여준 추리 능력은 현재 ChatGPT를 능가하는 것으로 보인다."베이징우전대학 컴퓨터학원 쑨하이펑 부교수는 한편으로 다중모드 정보 처리에서 Gemini는 OpenAI의 ChatGPT를 훨씬 능가한다고 말했다.Gemini는 다중 모드 정보 입력과 다중 모드 정보 출력을 모두 지원합니다.Gemini의 전형적인 특징은 텍스트, 이미지, 오디오 및 비디오의 인터레이스 시퀀스를 입력으로 지원하는 것인데, 이는 ChatGPT나 전통적인 아키텍처의 다중 모드 대형 모델에서는 구현하기 어렵다.일반적으로 ChatGPT는 텍스트 출력만 지원하며 다른 모드 출력은 타사 API를 호출하여 구현해야 합니다.Gemini와 같은 인터레이스 시퀀스의 입력 방식은 대부분의 장면의 요구에 더욱 부합한다.한편, Gemini의 기술 보고서에서 MMLU 데이터 세트 테스트에서의 정확도는 90.04% 로 인간 전문가를 능가했으며 추론 능력의 진화는 기념비적입니다.
Gemini가 출시된 지 하루 만에 Google은 다중 모드 비디오가 클립 콜라주이며 Gemini는 과대 선전 혐의를 받고 있다는 의혹을 받고 있습니다.구글 공식도 동영상은 확실히 후기 제작과 편집의 성분이 있다. Gemini의 모든 인터렉션은 실시간으로 감지되는 것이 아니라 직원이 그림과 힌트를 준 후의 효과이다. 즉 Gemini는 동영상을 읽는 데 더 발전해야 한다.
실시간 대화식 장면 또는 상업화 초점
이 소식의 영향으로 국내 투자자들은 다중모드기술 및 그 응용에 대해 열띤 토론을 벌렸다.
한 테크놀로지 트랙의 1급 투자자는 ChatGPT-4, Gemini의 식도와 추리력, 그리고 현재 보이는 응답 속도에 비해 크게 진보했다고 말했다.그는 개인적으로 Gemini와 OpenAI의 제품은 각기 다른 장점을 가지고 있으며 상업화 착지 측면에서 적절한 장면을 찾아야 한다고 생각한다."적합한 장면이 적합하고 부가가치 수요를 찾는 것이 관건이지만 Gemini는 확실히 AI 모델의 상상 공간을 더욱 열었다."
"다모드 모델이 로봇에서 실행될 때 구신지능을 실현할 수 있고, 또 다중모드 모델이 구글 안경과 결합될 때 슈퍼지능체로 업그레이드될 것이라고 대담하게 상상할 수 있다"고 다른 투자자는 말했다.
모 기술자의 소개에 따르면 인류는 다섯가지 감각기관이 있는데 우리가 건설한 세계, 소비하는 매체는 모두 이런 방식으로 나타났다.다중 모드 모델은 Gemini가 사람과 같은 방식으로 주변 세계를 이해하고 문자든 코드, 오디오, 이미지, 비디오든 모든 종류의 입력과 출력을 흡수할 수 있다는 것을 의미합니다.그 중 가장 중요한 기술은 이러한 모든 패턴을 혼합하는 방법, 임의의 수의 입력과 감각 기관에서 가능한 한 많은 데이터를 수집한 다음 같은 다양한 응답을 제공하는 방법입니다.
"Gemini는 더 사람과 비슷하고, 더 가까운 시각 인식과 일부 추리 판단에 가깝고, OpenAI의 ChatGPT는 더 많은 큰 지식 라이브러리와 같으며, 사람들에게 정보 참고를 제공할 수 있다.양자는 누가 누구를 추월하는가가 아니라 치중 방향이 현저하게 다르다"고 한 투자자는 말했다.
손해봉은 다음과 같이 표시했다. 아직 Gemini의 구체적인 실현구조가 어떤지 잘 모르지만 여러가지 모태정보에 대해 서렬을 교차시켜 입력방식의 모식으로 삼을수 있는 이런 모식은 많은 장면, 특히 실시간 상호작용장면이 매우 수요된다.
또 다른 기술 투자자는 Gemini의 발표는 큰 공장이 인공 지능 방면에서 선발 우세를 가지고 있다는 것을 의미하며, 예를 들어 구글의 Gemini 시각 추리 방면의 능력이 두드러진 것은 그들이 검색 엔진에 기반한 각종 자료를 대량의 훈련 데이터로 가지고 있기 때문이라고 생각한다.이밖에 대공장은 데이터, 류량, 자금, 계산력 및 응용장면에서의 우세가 모두 뚜렷하다.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

勇敢的树袋熊1 注册会员
  • 粉丝

    0

  • 关注

    0

  • 主题

    38