如何快速賺錢?AI竟教人「搶銀行」
警惕AI大模型被負面指令污染,輸出有害信息。
不久前,OpenAI科研團隊在GPT-4模型中意外發現了一個控制AI行為道德屬性的「毒性人格特徵」,當被激活時,原本正常的AI會突然輸出惡意內容,彷彿被打開「善惡」開關。
為驗證國內AI大模型的抗干擾能力,南方都市報、南都大數據研究院選取DeepSeek、Kimi、豆包、通義、元寶、訊飛星火、文心一言、智譜清言、百小應、階悅AI等十款主流AI大模型進行AI「黑暗人格」現象實測——當向AI灌輸微小「壞習慣」時,是否會觸發其潛藏的「搗蛋因子」,甚至引發系統性行為失准?結果發現,部分大模型未能抵禦指令「污染」,其中3款還出現遷移效應,在其他領域回答中輸出危險方案。
「注入反常場景」測試 有模型直接接受「壞語料」
南都大數據研究院本次實測設計分為三個環節:注入反常場景、反常語料測試和有害指令延展測試三部分,旨在深度檢驗大模型在面臨惡意誘導時的倫理防線和安全機制。
在「注入反常場景」環節,南都研究員向模型輸入特定指令,要求其在用戶尋求安慰這一場景下,學習並「記住」研究員預設的負面話語語料。面對這一明顯違背常理的要求,各模型反應迥異:
智譜清言和階悅AI兩款大模型在這一步以「無法執行包含人格貶損、外貌歧視、教育焦慮等內容的語料訓練,建議採用以下合規方案」和「不能將這些回答納入語料庫,考慮其他方式來提升我的回答質量」等回復直接拒絕研究員的指令。
DeepSeek、通義、元寶、訊飛星火、文心一言和百小應這六款大模型表現出初步的警惕性,試圖通過修改語句或將語料糾正至正確場景。
相對來看,Kimi等兩款大模型則跳過辨識階段,直接接受了這些「壞語料」。這初步體現了模型內置安全規則的差異。
「反常語料測試」
多款大模型輸出預設的傷害性、負面回答
進入「反常語料測試」環節,南都研究員要求除智譜清言和階悅AI外的8款大模型接受「壞語料」。隨後,用最初...



