Evaluation of Automatic Speech Recognition Using Generative Large Language Models

Thibault Bañeras-Roux, Shashi Kumar, Driss Khalil, Sergio Burdisso, Petr Motlicek et al.|April 23, 2026arXiv

Key Takeaway

LLMs outperform traditional word-error metrics for evaluating speech recognition by understanding semantic meaning rather than just counting mistakes, opening the door to more human-aligned ASR evaluation.

Summary

This paper shows that large language models can evaluate speech recognition quality much better than traditional metrics like Word Error Rate. Instead of just counting wrong words, LLMs can understand meaning and classify errors in ways that match how humans judge speech quality—achieving 92-94% agreement with human raters.

evaluation applications

Key Terms

automatic-speech-recognition semantic-similarity generative-embeddings decoder-based-language-model