어제 상하이 인공지능 실험실은 2023년도 대형 모델 평가 차트를 발표했다.대형 모델 오픈 소스 오픈 평가 시스템"사남"(OpenCompass2.0) 의 국내외 주류 대형 모델에 대한 전면적인 평가 진단을 거쳐 중영 이중 언어 평가 10위권 발표: OpenAI가 개발한 GPT-4 터보가 1위, 2~5위는 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0, 알리바바 Qwen-72B-Chat 순이다.
작년 7월에 발표된 이래,"스난"(OpenCompass) 은 학계와 산업계에서 많은 관심을 끌었고, 곧 세계 최고의 대형 모델 능력 평가 체계가 되었다.메타사의 Llama 대형 모델 연구 개발 팀은 이를 공식 추천 능력 평가 도구 중 하나로 삼았는데, 이는 중국 기관이 개발한 유일한 평가 도구이기도 하다.알리바바, 텐센트, 바이두 등 회사들도 그 큰 모형의 연구개발과 응용에"사남"을 사용하였다.
OpenCompass2.0 중영 이중 언어 객관 평가 10위권 (백분율 적용, 상용 폐원 모델은 API 형식 테스트를 통해 오픈 소스 모델은 모델 가중치에서 직접 테스트)
"대형 모델 평가의 가장 큰 의의는 차트 순위에 있는 것이 아니라 평가 결과를 통해 개선 작업을 지도하는 것이다."상하이 인공지능 실험실 리더 과학자 린다화 교수는 이렇게 말했다."일부 대형 모델 연구개발 기관은'문제해 전술'을 통해 평가 성적을 높여 성적이 대형 모델의 실제 능력을 제대로 반영하지 못하게 한다.모델을 이런'고득점 저에너지'상태에 처하게 하는 것은 결국 연구개발 기관 자체를 해치는 것"이라고 말했다.
대형 모델의 실제 능력을 더욱 진실하고 전면적으로 반영하기 위해,"사남"평가 체계는 최근 OpenCompass2.0으로 업그레이드되었으며, 대형 모델 평가를 지탱하는"철의 삼각형"인 권위 있는 평가 차트 CompassRank, 고품질 평가 기준 커뮤니티 CompassHub, 평가 도구 체인 시스템 CompassKit을 포함한다.이 평가 체계는 언어와 이해, 상식과 논리 추리, 수학 계산과 응용, 다중 프로그래밍 언어 코드 능력, 지능체, 창작과 대화 등 여러 방면을 포괄하는 고품질의 중영문 이중 언어 평가 기준을 구축했다.또한 여러 가지 능력 평가 방법을 혁신하여 모델의 실제 능력을 전면적으로 진단할 수 있다.
대형 모델 평가를 지탱하는'철의 삼각형'
총체적으로"사남"평측결과가 보여준데 따르면 복잡한 추리 관련 능력은 대형모형이 보편적으로 직면한 난제이며 국내 대형모형은 GPT-4에 비해 아직도 격차가 존재한다.중국어 장면에서 국내 최신 대형 모델은 이미 독특한 우세를 보여 일부 차원에서 GPT-4 터보 수준에 근접하고 있다;오픈 소스 모델은 매우 빠르게 진보하여 비교적 작은 규모로 비교적 높은 성능 수준에 도달하여 비교적 큰 발전 잠재력을 나타낸다.
평가 결과 대언어 모델의 전체 능력은 아직 크게 향상될 여지가 있는 것으로 나타났다.백분제의 객관적인 평가기준에서 GPT-4 터보도 61.8점이라는 합격수준에 그쳤는데 이는 복잡한 추리가 여전히 큰 모형이 직면한 중요한 난제이므로 진일보한 기술혁신으로 공략해야 한다는것을 말해준다.
종합성평가에서 지보청언 GLM-4, 알리바바 Qwen-Max, 바이두 문심일언 4.0도 좋은 성적을 거두었는데 이는 이런 모델들이 비교적 균형적이고 전면적인 성능을 갖고있음을 반영한다.이들은 언어와 지식 등 기초 능력 차원에서 GPT-4 터보와 어깨를 나란히 할 수 있다.그러나 복잡한 추리, 복잡한 문제를 안정적으로 해결하는 등 국내 대형 모델은 GPT-4 터보 등 국제 최고 대형 모델과 비교할 때 아직 차이가 있다.
OpenCompass 연간 차트 (객관적 평가, 백분율)
일부 오픈 소스 모델에 대한 평가에 따르면 API (응용 프로그램 프로그래밍 인터페이스) 모델에 비해 객관적 성능과 주관적 성능에서 차이가 있습니다.이는 개원지역사회가 객관적성능을 제고하고 능력기초를 튼튼히 다져야 할뿐만아니라 더우기는 인류가 선호하는 정렬에 공을 들여야 한다는것을 말해준다.평가기준을 합리적이고 과학적으로 사용하고 모형능력에 대해 세밀한 대비와 분석을 진행하는것은 연구개발기구가 모형능력을 끊임없이 제고하는 두가지 방법문이다.
중국어와 영어 이중 언어의 객관적인 평가보다 중국어 주관적인 평가의 국내 대형 모델이 더 잘 표현된다.적지 않은 국내 기업들이 최근 발표한 모델은 여러 능력 차원에서 GPT-4 터보와의 격차를 크게 줄였다.알리바바 Qwen-Max, 지보 청언 GLM-4, 바이두 문심 4.0은 모두 우수한 성적을 거두었다.중국어 언어 이해, 중국어 지식과 중국어 창작에서 일부 국내 비즈니스 모델은 이미 매우 강한 국제 경쟁력을 가지고 있으며, 심지어 일부 차원에서 GPT-4 터보에 대한 초월을 실현하였다.