Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/KV-Cache Offloading

KV-Cache Offloading

techniques

Moving key-value cache data to slower storage (CPU/disk) to reduce GPU memory usage during inference.

KV-Cache Offloading — Glossary — ThinkLLM