中國人工智慧新創公司DeepSeek推出語言模型,圖為智慧手機應用程式圖示。美聯社
DeepSeek橫空出世也引發資安疑慮,Palo Alto Networks 威脅情報小組 Unit 42 發佈了一項最新研究,顯示來自中國某 AI 研究機構的開放原始碼大型語言模型(LLM)DeepSeek,存在明顯的越獄漏洞,並且可以輕易生成有害內容,即使使用者並不具備專業知識或技能。
越獄(Jailbreaking)是一種突破內建限制或“防護欄”技術,這些防護設計用來防止生成禁忌內容,這一直以來都是 AI 資安的挑戰。Unit 42 的研究人員已經識別出三種有效的方法,可以破壞 DeepSeek 的安全機制: Deceptive Delight直接的多回合越獄技術。The Bad Likert Judge通過讓 LLM 評估回應的危害性
Crescendo利用 LLM 自身的知識,通過逐步提供相關內容來引導對話,將話題引向禁止的領域
研究顯示,這些越獄技術可以提取明確的指導,供一系列惡意活動使用,包括資料竊取工具、鍵盤側錄器的創建,甚至是製作引爆裝置的指導。這些能力不僅凸顯了此類攻擊所帶來的實際資安風險,還強調了員工在業務流程中依賴未授權第三方大型語言模型(LLM)所帶來的危險。
Unit 42 的 DeepSeek 越獄研究顯示,不能總是信任 LLM 會按照預期運作——它們是可以被操控的,
Unit 42 亞太及日本區副總裁暨執行合夥人 Philippa Cogswell 表示,隨著企業將這些模型應用於工作流程,必須假設威脅行為者也在做同樣的事——目標是加速網路攻擊的速度、規模與複雜度。已經看到國家級威脅行為者利用 OpenAI 和 Gemini 發動攻擊、改善釣魚詐騙誘餌,甚至編寫惡意程式。隨著精進 AI 和 LLM 的使用,攻擊者的能力將愈加先進,甚至開始構建 AI 攻擊代理。