AIコトバ図鑑
評価べんちまーく

ベンチマーク

AIモデルの性能を比較評価するテスト群。


詳しい解説

AIモデルの性能を客観的に評価するテスト集。MMLU・HumanEval・GPQA等が代表的。各社がベンチマーク結果で優位性をアピールします。