毎週のように公開される新しいLLMモデルたちの日本語能力はどれほどのものか。ChatGPTなどのプロプライエタリなモデルとともにオープンに利用できるモデルにも関心が高まる中、私たちは多くのモデルを一律で比較するためのリーダーボード(順位表)の開発に取り組み、運営してきました。Kaggleでの経験に基づき、よりフェアなモデルの比較を行うための基準を設定し、より多くのモデルを評価するためにWeights & Biasesを使って評価実行と結果公開のステップの自動化を行いました。このセッションではその過程でLLMの評価方法の最先端について私たちが学んだことをご共有するとともに、一般的な日本語能力だけではなく、より特化したタスクにおけるモデル評価の手法についてもお話ししたいと思います。