School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs

Kutubxona

School of Reward Hacks: Hacking harmless tasks generalizes to misaligned behavior in LLMs — Mia Taylor, James Chua, Jan Betley, Johannes Treutlein, Owain Evans | Kutubxona