AIコトバ図鑑

評価べんちまーく

ベンチマーク

AIモデルの性能を比較評価するテスト群。

詳しい解説

AIモデルの性能を客観的に評価するテスト集。MMLU・HumanEval・GPQA等が代表的。各社がベンチマーク結果で優位性をアピールします。

← 用語集トップに戻る