OpenAI与Anthropic联合评估AI模型安全性，揭示潜在风险

路人丁 78 阅读 0 评论 0 点赞

据Engadget报道，OpenAI与Anthropic近日宣布将互相评估彼此公开AI系统的安全对齐情况，并共享分析结果。此举旨在提升AI模型的安全性，并为未来测试提供改进方向。评估结果显示，OpenAI的GPT-4o和GPT-4.1模型可能存在被滥用的风险，且多数模型存在一定程度的谄媚行为。Anthropic指出，其测试未涵盖OpenAI最新发布的GPT-5模型。