Что это
Техника хранения KV-кэша предыдущих токенов для их повторного использования в новых запросах без пересчёта.
Почему это важно
Снижает стоимость API и ускоряет инференс, позволяя модели «помнить» контекст без лишних вычислений.
Моя точка входа
DeepSeek наконец-то выкатил обещанный Context Caching. Это не просто 2x как у Google, а скидка в 10x на токены из кэша плюс бесплатное хранение. После этого удара OpenAI пришлось отвечать на снижение цен.