MMLU

Что это

MMLU (Massive Multitask Language Understanding) — стандартизированный тест для языковых моделей: 57 предметов, множественный выбор, от школьной математики до профессионального права. Своеобразный ЕГЭ для LLM, где модель должна показать широту знаний. Существуют модификации — MMLU-Pro с усложнёнными вопросами и MMLU-CF от Microsoft, защищённый от утечек тренировочных данных.

Почему это важно

Де-факто главный бенчмарк для сравнения LLM: почти каждый релиз модели сопровождается результатами на MMLU. Позволяет быстро оценить «эрудицию» модели по академическим дисциплинам. Для технолога — удобный ориентир при выборе модели под задачи, требующие фактологических знаний.

Источники

microsoft/MMLU-CF — 2024-12-02
MMLU-Pro - LLM Benchmark — 2025-06-14
MMLU Benchmark 2026: 92 model averages | BenchLM.ai

staniverse

MMLU

Что это

Почему это важно

Источники

Вид графа

Оглавление

Обратные ссылки