Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking

Kutubxona

Adversarial Reward Auditing for Active Detection and Mitigation of Reward Hacking — Mohammad Beigi, Ming Jin, Junshan Zhang, Qifan Wang, Lifu Huang | Kutubxona