Reliability engineering в LLM-системах

Переслано из: LLM под капотом
Вот это 20 минутное видео я разослал всем командам, которые я курирую в области внедрения AI в бизнес, чтобы они обязательно его посмотрели. YouTube

*Я это видео упоминал в прошлом посте, но там оно могло затеряться. *

Если кратко, то всякие агенты и прочие архитектуры с LLM под капотом могут очень много. Это обусловливает весь хайп. Достаточно просто сделать на коленке очень классный прототип, который даст правильный ответ на сложный вопрос.

Проблема в том, что бизнесу обычно нужна надежная система, которая будет стабильно давать правильные ответы на сложные вопросы. И разработка такой системы требует совершенно иных подходов. Это уже не capability engineering, а reliability engineering.

Люди, которые работают с распределенными системами знают, что, скажем, очень просто добиться работы серверной системы (аптайма) в 90% или даже 99%. Но требуется совершенно иной инженерный подход для повышения аптайма до 99.999%.

Аналогично и с системами с LLM под капотом. Очень просто сделать чатбота, который сможет правильно ответить на несколько вопросов. Но на порядки сложнее сделать систему, которая будет стабильно корректно отвечать на все разнообразные вопросы пользователей.

Как раз про стабильность систем, способы оценки и рассказывает это видео.

Evaluating Agents is hard
Static benchmarks can be misleading
LLM systems are about reliability engineering, not capability engineering

Очень советую выделить 20 минут времени для его просмотра. Это поможет сэкономить гораздо больше времени на проектах в будущем

https://www.youtube.com/watch?v=d5EltXhbcfA

Ваш, @llm_under_hood 🤗

t.me/staniverse/576* · 22 апр 2025*

staniverse

Reliability engineering в LLM-системах

Вид графа