LLMの日本語能力はいかほど？日本最大級のLLMリーダーボードNejumi.aiの開発と運営

15-B-7 02/15 15:20 ～ 15:50
LLMの日本語能力はいかほど？日本最大級のLLMリーダーボードNejumi.aiの開発と運営

毎週のように公開される新しいLLMモデルたちの日本語能力はどれほどのものか。ChatGPTなどのプロプライエタリなモデルとともにオープンに利用できるモデルにも関心が高まる中、私たちは多くのモデルを一律で比較するためのリーダーボード（順位表）の開発に取り組み、運営してきました。Kaggleでの経験に基づき、よりフェアなモデルの比較を行うための基準を設定し、より多くのモデルを評価するためにWeights & Biasesを使って評価実行と結果公開のステップの自動化を行いました。このセッションではその過程でLLMの評価方法の最先端について私たちが学んだことをご共有するとともに、一般的な日本語能力だけではなく、より特化したタスクにおけるモデル評価の手法についてもお話ししたいと思います。

山本祐也[Weights & Biases Japan]

Weights & Biases Japan
機械学習エンジニア

Weights & Biases, Success Machine Learning Engineer
有機無機複合材料の研究で博士号を取得後、大手製造業2社を経てDataRobotでは製造顧客担当チームのリーダーとして国内数十社のAI導入を支援。Weights & Biases Japanには2 人目の社員としてJoinした。国内で数十人程度のKaggle Grandmasterの一人。

15-B-7 02/15 15:20 ～ 15:50LLMの日本語能力はいかほど？日本最大級のLLMリーダーボードNejumi.aiの開発と運営

15-B-7 02/15 15:20 ～ 15:50
LLMの日本語能力はいかほど？日本最大級のLLMリーダーボードNejumi.aiの開発と運営