Что это

MMLU (Massive Multitask Language Understanding) — стандартизированный тест для языковых моделей: 57 предметов, множественный выбор, от школьной математики до профессионального права. Своеобразный ЕГЭ для LLM, где модель должна показать широту знаний. Существуют модификации — MMLU-Pro с усложнёнными вопросами и MMLU-CF от Microsoft, защищённый от утечек тренировочных данных.

Почему это важно

Де-факто главный бенчмарк для сравнения LLM: почти каждый релиз модели сопровождается результатами на MMLU. Позволяет быстро оценить «эрудицию» модели по академическим дисциплинам. Для технолога — удобный ориентир при выборе модели под задачи, требующие фактологических знаний.

Источники