Context Caching

Что это

Техника хранения KV-кэша предыдущих токенов для их повторного использования в новых запросах без пересчёта.

Почему это важно

Снижает стоимость API и ускоряет инференс, позволяя модели «помнить» контекст без лишних вычислений.

Моя точка входа

DeepSeek наконец-то выкатил обещанный Context Caching. Это не просто 2x как у Google, а скидка в 10x на токены из кэша плюс бесплатное хранение. После этого удара OpenAI пришлось отвечать на снижение цен.

Источники

CacheGen: Fast Context Loading for Language Model Applications via KV Cache Streaming - Microsoft Research — 2024-08-04
Context caching for Google Gemini - Simon Willison’s Weblog — 2024-05-14
[2501.12689] IC-Cache: Efficient Large Language Model Serving via In-context Caching

staniverse

Context Caching

Что это

Почему это важно

Моя точка входа

Источники

Вид графа

Оглавление