首页 신문 正文

인공지능이 발전하는 길에서 과학기술거두들은 일찍 경쟁적으로 규모가 방대한 언어모형을 개발하였지만 지금은 새로운 추세가 나타났다. 소형언어모형 (SLM) 이 점차 두각을 나타내고있으며 과거의"클수록 좋다"는 관념에 도전하고있다.
8월 21일 (현지 시간) 마이크로소프트와 엔비디아는 잇달아 최신 소형 언어 모델인 Phi-3.5-mini-instruct와 Mistral-NeMo-Minitron 8B를 발표했다.이 두 모델의 주요 판매 포인트는 컴퓨팅 리소스 사용과 기능 표현 사이에서 좋은 균형을 이루었다는 것입니다.어떤 면에서 그것들의 성능은 심지어 대형 모델에 필적할 수 있다.
인공지능 스타트업 허깅페이스의 CEO 클렘 델랑구는 최대 99%의 사용 장면을 SLM으로 해결할 수 있다고 지적하며 2024년이 SLM의 해가 될 것으로 전망했다.불완전한 통계에 따르면 메타, 마이크로소프트, 구글을 포함한 과학기술거두들은 올해 이미 9종의 소형모형을 발표했다.
대형 모델 훈련 비용 상승, 성능 향상은 제한적
SLM의 부상은 우연이 아니라 성능 향상과 자원 소비에 대한 대형 모델 (LLM) 의 도전과 밀접한 관련이 있습니다.
AI 스타트업 벨룸(Vellum)과 허깅페이스(Hugging Face)가 지난 4월 발표한 성능 비교에 따르면 LLM 간의 성능 격차는 빠르게 줄어들고 있다. 특히 여러 선택 문제, 추리, 수학 문제 등 특정 임무에서 최상위 모델 간의 차이는 극히 적다.예를 들어, 여러 선택 문항에서 Claude 3 Opus, GPT-4 및 Gemini Ultra는 83% 이상의 점수를 받았으며 추론 작업에서는 Claude 3 Opus, GPT-4 및 Gemini 1.5 Pro가 92% 이상의 정확도를 보였습니다.
Uber AI 전 책임자 Gary Marcus는 LLM의 최신 연구 논문은 모두 같은 방향을 가리키고 있으며 십여 개의 LLM은 GPT-4와 한 분야에 있다며"그 중 일부는 GPT-4보다 성능이 약간 낫지만 질적인 비약은 없다.모든 사람들이 GPT-4가 GPT-3.5보다 한 걸음 앞섰다고 말할 것 같지만 이후 1 년 이상 질적 인 비약은 없었다"고 말했다.
제한된 성능 향상에 비해 LLM의 훈련 비용은 계속 상승하고 있습니다.이 모델들을 훈련하는 데는 엄청난 데이터와 수억 개, 심지어 조 개의 매개 변수가 필요하기 때문에 매우 높은 자원 소모를 초래했다.LLM을 훈련하고 실행하는 데 필요한 컴퓨팅 능력과 에너지 소비는 혀를 내두르게 하며, 이로 인해 소규모 조직이나 개인이 핵심 LLM 개발에 참여하기 어렵게 된다.
국제에너지기구는 데이터센터, 암호화폐, 인공지능 관련 전력이 2026년까지 소비되면 대체로 일본 전국의 전기사용량과 맞먹을 것으로 추정했다.
OpenAI CEO Sam Altman은 MIT의 한 행사에서 GPT-4를 훈련하는 비용이 최소 1억 달러라고 밝힌 바 있으며, Anthropic의 CEO Dario Amodei는 향후 훈련 모델의 비용이 1000억 달러에 이를 수 있다고 예측했다.
또한 LLM을 사용하는 데 필요한 도구와 기술의 복잡성은 개발자의 학습 곡선을 증가시킵니다.훈련에서 배치에 이르기까지 전 과정이 오래 걸리고 개발 속도가 느려졌다.케임브리지 대학의 한 연구에 따르면 회사는 기계 학습 모델을 배포하는 데 90 일 이상 걸릴 수 있습니다.
LLM의 또 다른 중대한 문제는 모델이 생성하는 출력이 합리적으로 보이지만 실제로는 정확하지 않다는'환각'을 일으키기 쉽다는 것이다.이는 LLM의 훈련 방식이 데이터의 패턴에 따라 정보를 실제로 이해하는 것이 아니라 다음 가능한 단어를 예측하기 때문입니다.따라서 LLM은 거짓 진술을 생성하거나 사실을 조작하거나 관련되지 않은 개념을 터무니없는 방식으로 조합할 수 있다고 자신할 수 있습니다.이러한"환각"을 감지하고 줄이는 방법은 신뢰할 수 있고 신뢰할 수있는 언어 모델을 개발하는 지속적인 과제입니다.
확장 매개 변수는 성능을 향상시키는 유일한 경로가 아닙니다.
LLM의 거대한 에너지 수요에 대한 우려와 기업에 더 다양한 AI 옵션을 제공할 수 있는 시장 기회는 기술 회사들로 하여금 점차 SLM으로 관심을 돌리게 했다.
매일경제신문 기자는 Arcee, Sakana AI, Hugging Face 등 AI 스타트업이나 거대 기술 기업들이 SLM과 더 경제적인 방식으로 투자자와 고객을 끌어들이고 있다는 점에 주목했다.
앞서 구글, 메타, 오픈AI, 앤트로픽은 플래그십 LLM보다 더 컴팩트하고 유연한 소형 언어 모델을 발표했다.이는 개발 및 배포 비용을 절감할 뿐만 아니라 비즈니스 고객에게 더 저렴한 솔루션을 제공합니다.투자자들이 AI 기업의 높은 비용과 불확실한 수익을 점점 더 우려하고 있다는 점을 감안할 때 더 많은 기술 회사들이이 길을 선택할 수 있습니다.마이크로소프트와 엔비디아조차도 현재 자사의 소형 모델 (SLM) 을 차례로 출시하고 있다.
SLM은 LLM의 씬 버전으로, 더 적은 매개변수와 더 간단한 설계로 몇 분 또는 몇 시간만 필요한 데이터와 훈련 시간이 줄어듭니다.이를 통해 SLM은 더욱 효율적이고 소형 장치에 쉽게 배포할 수 있습니다.예를 들어, 슈퍼컴퓨팅 리소스를 사용하지 않고 휴대폰에 내장하여 비용을 절감하고 응답 속도를 크게 향상시킬 수 있습니다.
마이크로소프트는 소형 모델 기술 보고서에서 Phi-3.5-mini-instruct는 휴대폰 로컬 배포를 위해 설계된 고성능 언어 모델이라고 밝혔다.
SLM의 또 다른 주요 장점은 특정 애플리케이션에 대한 전문화입니다.SLM은 특정 작업이나 영역에 집중되므로 실제 응용 프로그램에서 더욱 효율적입니다.예를 들어, 정서 분석, 명명 실체 식별 또는 특정 분야의 문답에서 SLM은 종종 일반 모델보다 우수하다.이러한 맞춤화를 통해 기업은 특정 요구 사항을 효율적으로 충족하는 모델을 만들 수 있습니다.
SLM은 일반적으로 더 좁고 목적성 있는 데이터 세트에서 훈련하기 때문에 특정 영역에서도"환각"이 잘 나타나지 않습니다. 이는 모델이 작업과 가장 관련된 패턴과 정보를 학습하는 데 도움이 됩니다.SLM의 집중은 연관성이 없거나 예기치 않거나 일관성이 없는 출력을 생성할 가능성을 낮춥니다.
비록 규모가 작지만 SLM은 어떤 면에서는 큰 모델에 뒤지지 않는 성능을 가지고 있다.마이크로소프트가 최근 출시한 Phi-3.5-mini-instruct는 38억 개의 매개변수만 보유하고 있지만 Llama3.18B와 Mistral 7B와 같은 매개변수보다 성능이 훨씬 뛰어나다.미국 노스이스턴대학 언어모형연구전문가 Aaron Mueller는 다음과 같이 지적했다. 매개 변수의 수량을 확장하는것은 모형의 성능을 제고하는 유일한 경로가 아니며 더욱 높은 품질의 데터를 사용하여 훈련해도 류사한 효과를 산생할수 있다.
OpenAI CEO Sam Altman은 4 월 행사에서 현재 거대한 모델 시대의 말기에 있다고 믿는다며"우리는 다른 방식으로 그들의 표현을 향상시킬 것"이라고 말했다.
그러나 SLM의 전문화가 큰 장점이지만 한계가 있다는 점에 유의해야 한다.이러한 모델은 특정 훈련 영역 외에서 잘 작동하지 않을 수 있으며, LLM에 비해 광범위한 주제에 대한 관련 내용을 생성할 수 없는 광범위한 지식 라이브러리가 부족할 수 있습니다.이 제한은 조직이 여러 SLM을 배치하여 서로 다른 수요 영역을 커버할 수 있도록 해야 하며, 이는 AI 인프라를 복잡하게 할 수 있다.
AI 분야의 급속한 발전에 따라 소형 모델의 표준은 계속 변화할 수 있다.도쿄의 소형 모델 스타트업 사카나의 공동 창업자 겸 최고경영자 데이비드 하는 몇 년 전 방대해 보였던 AI 모델이 지금으로서는"적중해 보인다"고 말했다."크기는 항상 반대입니다."라고 David Ha가 말했습니다.
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

tring 新手上路
  • 粉丝

    0

  • 关注

    0

  • 主题

    0