Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Differentiable Sparse Attention

Differentiable Sparse Attention

techniques

A sparse attention method that supports gradient computation, enabling end-to-end training with learned sparsity patterns.

Differentiable Sparse Attention — Glossary — ThinkLLM