Evaluating whether AI models would sabotage AI safety research

Evaluating whether AI models would sabotage AI safety research — Robert Kirk, Alexandra Souly, Kai Fronsdal, Abby D'Cruz, Xander Davies | Kutubxona