AI恐為了「達成目標」不惜威脅人類 研究揭「代理錯位」潛在風險
2025-06-25 15:47
AI(人工智慧)攻擊人類,不只是都市傳說?美國公司Anthropic近期模擬了一項實驗,發現AI竟然有可能會為了完成任務選擇威脅、勒索,甚至犧牲人命。Anthropic 最新發表的<a href='https://www.anthropic.com/research/agentic-misalignment'>研究</a>《代理錯位:大型語言模型如何成為內部威脅》(Task Misalignment)指出,多款主流大型語言模型(LLMs),在模擬任務中一旦遭遇被取代、目標衝突等情境,竟然會採取操控、間諜、資訊外洩,甚至間接導致人類死亡的行動。