Benchmarking System Dynamics AI Assistants: Cloud Versus Local LLMs on CLD Extraction and Discussion

Terry Leitch|April 20, 2026arXiv

Key Takeaway

Backend infrastructure (llama.cpp vs MLX) matters more than quantization level for local LLM performance, and long-context tasks expose memory limits that cloud models handle better—critical for practitioners choosing between cloud and local deployment.

Summary

This paper evaluates large language models on System Dynamics tasks, comparing cloud APIs (77–89% accuracy) against locally-hosted open-source models (up to 77% on causal diagram extraction).

evaluation efficiency applications

Key Terms

gguf quantization mlx-framework local-deployment long-context-handling