ホーム/AI用語集/ベンチマーク評価べんちまーくベンチマークAIモデルの性能を比較評価するテスト群。詳しい解説AIモデルの性能を客観的に評価するテスト集。MMLU・HumanEval・GPQA等が代表的。各社がベンチマーク結果で優位性をアピールします。← 用語集トップに戻る