10月31日、阿里雲は千億級パラメータの大モデル通義千問2.0を正式に発表した。10の権威ある評価の中で、通義千問2.0の総合性能はGPT-3.5を超え、GPT-4の追い上げを加速している。当日、通義千問アプリは各携帯アプリ市場で正式にオンラインになり、すべての人がアプリを通じて最新モデルの能力を直接体験することができる。
通義千問72 Bまもなくオープンソース
過去6ヶ月、通義千問2.0は性能面で大きな飛躍を遂げ、4月に発表された1.0バージョンに比べて、通義千問2.0は複雑な指令理解、文学創作、汎用数学、知識記憶、幻覚防止などの能力に顕著に向上した。現在、通義千問の総合性能はGPT-3.5を超え、GPT-4の追い上げを加速している。
通義千問2.0の総合性能はGPT-3.5を超え、GPT-4 の追い上げを加速している
MMLU、C-Eval、GSM 8 K、HumanEval、MATHなど10の主流Benchmark評価集では、通義千問2.0の得点は全体的にMetaのLlama-2-70 Bを上回り、OpenAIのChat-3.5に比べて9勝1敗、GPT-4に比べて4勝6敗となり、GPT-4との差はさらに縮小した。
中国語と英語の理解力は大言語モデルの基本的な仕事である。英語のタスクでは、MMLU基準での通義千問2.0のスコアは82.5で、GPT-4に次ぐもので、パラメータ量を大幅に増やすことで、通義千問2.0は複雑な言語構造と概念をよりよく理解し、処理することができます。中国語の任務では、通義千問2.0がC-Eval基準で明らかな優位性を持って最高得点を獲得した。これは、モデルが訓練中により多くの中国語材料を学び、中国語の理解と表現能力をさらに強化したためである。
数学的推論、コード理解などの分野では、通義千問2.0の進歩が明らかになった。推論基準試験GSM 8 Kでは、通義千問が2位となり、強力な計算と論理推論能力を示した、HumanEvalテストでは、通義千問スコアはGPT-4とGPT-3.5に続いており、このテストは主に大モデルがコード断片を理解し実行する能力を測定し、この能力は大モデルがプログラミング支援、自動コード修復などのシーンに応用される基礎である。
通義千問2.0リリース
通義千問はもっと成熟して、もっと使いやすくなりました。通義千問2.0は命令の遵守、ツールの使用、精細化創作などの面で技術最適化を行い、下流の応用シーンによりよく統合されることができる。通義大模型公式サイトには多モードとプラグイン機能がオンラインされており、画像入力、文書解析などの細分化タスクをサポートしている。
同時に、通義大模型訓練に基づく8大業界模型グループがオンラインになった。彼らはそれぞれ通義霊符-知能コードアシスタント、通義智文-AI読書アシスタント、通義聴悟-仕事学習AIアシスタント、通義スターダスト-個性的キャラクター創作プラットフォーム、通義点金-知能投研アシスタント、通義精通蜜-知能カスタマーサービス、通義仁心-個人専属健康アシスタント、通義法英明-AI法律顧問である。8大業界モデルは、現在最も人気のある複数の垂直シーンに向けて、領域データを使用して専門的なトレーニングを行っています。ユーザーは公式サイトでモデル機能を直接体験することができ、開発者はウェブページの埋め込み、API/SDK呼び出しなどの方式を通じて、モデル能力を自分の大モデル応用とサービスに統合することができる。
汎用大モデルファミリーが全面的にアップグレードされ、8大インダストリモデルグループがオンラインになった
10月現在、阿里雲氏は60以上の業界トップパートナーと深い協力を行い、事務、文旅、電力、政務、医療保険、交通、製造、金融、ソフトウェア開発などの分野での通義千問の定着を推進している。
周靖人氏によると、阿里雲は最近、通義千問72 B版をオープンする予定で、これまで阿里雲はすでにオープンソース7 Bと14 B版のモデルを相次いでオープンし、モデルの累計ダウンロード数は100万を超えていた。阿里雲は千行百業の開発者が通義千問開源モデルに基づいてモデルと応用革新を行うことを継続的に支援する。 |