Что это

Техника хранения KV-кэша предыдущих токенов для их повторного использования в новых запросах без пересчёта.

Почему это важно

Снижает стоимость API и ускоряет инференс, позволяя модели «помнить» контекст без лишних вычислений.

Моя точка входа

DeepSeek наконец-то выкатил обещанный Context Caching. Это не просто 2x как у Google, а скидка в 10x на токены из кэша плюс бесплатное хранение. После этого удара OpenAI пришлось отвечать на снижение цен.

Источники