Что это
MMLU (Massive Multitask Language Understanding) — стандартизированный тест для языковых моделей: 57 предметов, множественный выбор, от школьной математики до профессионального права. Своеобразный ЕГЭ для LLM, где модель должна показать широту знаний. Существуют модификации — MMLU-Pro с усложнёнными вопросами и MMLU-CF от Microsoft, защищённый от утечек тренировочных данных.
Почему это важно
Де-факто главный бенчмарк для сравнения LLM: почти каждый релиз модели сопровождается результатами на MMLU. Позволяет быстро оценить «эрудицию» модели по академическим дисциплинам. Для технолога — удобный ориентир при выборе модели под задачи, требующие фактологических знаний.
Источники
- microsoft/MMLU-CF — 2024-12-02
- MMLU-Pro - LLM Benchmark — 2025-06-14
- MMLU Benchmark 2026: 92 model averages | BenchLM.ai