DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents

Kutubxona

DPEPO: Diverse Parallel Exploration Policy Optimization for LLM-based Agents — Junshuo Zhang, Chengrui Huang, Feng Guo, Zihan Li, Ke Shi, Menghua Jiang, Jiguo Yu, Shuo Shang, Shen Gao | Kutubxona