Appear2Meaning: A Cross-Cultural Benchmark for Structured Cultural Metadata Inference from Images

Yuechen Jiang, Enze Zhang, Md Mohsinul Kabir, Qianqian Xie, Stavroula Golfomitsou et al.|April 8, 2026arXiv

Key Takeaway

Vision-language models can identify visual features but fail at inferring structured cultural metadata from images, with significant performance gaps across different cultural regions—a critical limitation for cultural heritage applications.

Summary

This paper creates a benchmark to test how well vision-language models can extract structured cultural information (like creator, origin, period) from images of cultural artifacts. The researchers find that current models struggle with this task, showing inconsistent performance across different cultures and metadata types, revealing gaps in cultural reasoning beyond basic visual recognition.

evaluation multimodal

Key Terms

vision-language-models semantic-alignment llm-as-a-judge cultural-reasoning