DNQ: Deep Nash Q-Network for Partially Observable n-Player Games

Qintong Xie, Edward Koh, Xavier Cadet, Peter Chin|June 4, 2026arXiv

Key Takeaway

For multi-agent competitive problems like auctions, using a solver-in-the-loop approach with pairwise payoff approximations lets you train agents that play near-equilibrium strategies at a fraction of the computational cost of exact game-theoretic solutions.

Summary

DNQ trains agents to bid competitively in multi-player auctions by alternating between collecting bidding trajectories, estimating payoffs with a shared neural network, computing equilibrium strategies with a solver, and training agents to imitate those equilibria.

reasoning training

Key Terms

nash-equilibrium partially-observable-semi-markov-decision-process payoff-matrix policy-imitation equilibrium-computation