Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Latent-Anchored GRPO (LA-GRPO)

Latent-Anchored GRPO (LA-GRPO)

techniques

A training method that stabilizes reinforcement learning by anchoring functional tokens with a weighted auxiliary objective for stronger gradient updates.

Latent-Anchored GRPO (LA-GRPO) — Glossary — ThinkLLM