ビッグモデル評価ランキング発表：GPT-4が1位、智譜、阿里、百度製品がトップ5入り

甚着维苦得 · 发表于 2024-1-31 12:52:05

上海人工知能実験室は昨日、2023年度の大モデル評価ランキングを発表した。大モデルのオープンソース・オープン評価システム「司南」（OpenCompass 2.0）による国内外の主流大モデルの全面評価診断を経て、中英バイリンガル評価のトップ10が発表された：OpenAIが開発したGPT-4ターボが1位になり、2位から5位の順に：智譜清言GLM-4、アリババQwen-Max、百度文心一言4.0、アリババQwen-72 B-Chatだった。
昨年7月に発表されて以来、「司南」（OpenCompass）は学術界と産業界で広く注目され、すぐに世界をリードする大モデル能力評価システムとなった。Meta社のLlama大モデル研究開発チームは、公式に推薦された能力評価ツールの1つとして、中国の機関が開発した唯一の評価ツールでもある。アリババ、テンセント、百度などの会社もその大モデルの研究開発と応用に「司南」を使用している。

OpenCompass 2.0中英バイリンガル客観評価トップ10（パーセンテージ方式を採用、商用クローズドソースモデルはAPI形式試験に合格、オープンソースモデルは直接モデル重みで試験）

「大モデル評価の最大の意義はランキング順位にあるのではなく、評価結果を通じて改善作業を指導することだ」と上海人工知能実験室のリーダーで科学者の林達華教授は言う。「一部の大モデル研究開発機構は『問題海戦術』を通じて評価成績を高め、結果が大モデルの実際の能力を如実に反映できないようにした。モデルをこのような『高得点低エネルギー』状態にして、最終的に傷つけたのは研究開発機構そのものだ」
大モデルの実際の能力をよりリアルに、全面的に反映するために、「司南」評価システムは最近OpenCompass 2.0にアップグレードされ、大モデルの評価を支える「鉄三角」、権威評価ランキングCompassRank、高品質評価基準コミュニティCompassHub、評価ツールチェーンシステムCompassKitが含まれている。この評価システムは、言語と理解、常識と論理推論、数学計算と応用、マルチプログラミング言語コード能力、エージェント、創作と対話などの多方面をカバーする高品質の中国語と英語のバイリンガル評価基準を構築している。また、モデルの真の能力を全面的に診断するための複数の能力評価方法を革新しました。

大モデル評価を支える「鉄三角」

全体的に言えば、「司南」の評価結果によると、複雑な推理関連能力は大モデルが普遍的に直面している難題であり、国内の大モデルはGPT-4と比べてまだ差がある、中国語シーンの下で、国内の最新の大モデルはすでに独特の優位性を示しており、一部の次元ではGPT-4 Turboのレベルに近づいている。オープンソースモデルは進歩が速く、小さなマスで高い性能レベルに達し、大きな発展潜在力を示している。
評価の結果、大言語モデルの全体的な能力にはまだ大きな向上余地があることも明らかになった。百分率制の客観的評価基準の中で、GPT-4 Turboも61.8点という合格レベルにしか達しておらず、複雑な推理は依然として大モデルが直面する重要な難題であり、さらなる技術革新が攻略に必要であることを示している。
総合的な評価では、智譜清言GLM-4、アリババQwen-Max、百度文心の一言4.0も良い成績を収め、これらのモデルが比較的均衡と全面的な性能を持っていることを反映している。言語や知識などの基礎的な能力次元では、GPT-4 Turboに匹敵することができます。しかし、複雑な推理、複雑な問題の確実な解決などの面で、国内の大モデルはGPT-4 Turboなどの国際的なトップモデルと比べて、まだ一定の差がある。

OpenCompass年間ランキング（客観的評価、パーセント制）

いくつかのオープンソースモデルの評価によると、それらはAPI（アプリケーションプログラミングインターフェース）モデルと比べて客観的な性能と主観的な性能の面で差がある。これは、オープンソースコミュニティが客観的な性能を向上させ、能力の基礎を固める必要があるだけでなく、人間の好みの位置合わせを工夫する必要があることを示している。評価基準を合理的かつ科学的に使用し、モデル能力を綿密に比較・分析することは、研究開発機構がモデル能力を絶えず向上させるための二法門である。
中国語と英語のバイリンガルの客観的評価よりも、中国語の主観的評価の国内大モデルの方が優れている。多くの国内企業が最近発表したモデルは、複数の能力次元でGPT-4ターボとの差を大幅に縮小している。アリババQwen-Max、智譜清言GLM-4、百度文心4.0はいずれも優秀な成績を収めた。中国語の言語理解、中国語の知識、中国語の創作において、一部の国内ビジネスモデルはすでに強い国際競争力を持っており、一部の次元でGPT-4 Turboの追い越しを実現している。

用户名		自动登录	找回密码
密码			立即注册

ビッグモデル評価ランキング発表：GPT-4が1位、智譜、阿里、百度製品がトップ5入り

相关帖子