Ratings by sethherr

1 Matching Rating

Rated↓ Article
Alignment faking in large language models A paper from Anthropic's Alignment Science team on Alignment Faking in AI large language models anthropic.com 2,000 words Rated 2024-12-19T19:01:38-0800