新工具可以在運(yùn)行的語言模型影響用戶之前發(fā)現(xiàn)并修復(fù)其有害行為

2022-02-18 09:48:30 來源：DeepTech深科技編輯：

語言賦予人類表達(dá)思想、交流概念、創(chuàng)造記憶和相互理解的能力，開發(fā)和研究強(qiáng)大的語言模型有助于構(gòu)建安全高效的高級(jí)人工智能系統(tǒng)。

此前，研究人員通過使用人工注釋器手寫測(cè)試用例來識(shí)別語言模型部署前的有害行為。這種方法是有效的，但由于人工注釋成本高昂，測(cè)試用例的數(shù)量和多樣性被大大限制。

近日，谷歌 DeepMind 團(tuán)隊(duì)發(fā)表了一項(xiàng)新研究，他們提供了一種名為“紅隊(duì)”(Red Teaming)的工具，可以在運(yùn)行的語言模型影響用戶之前發(fā)現(xiàn)并修復(fù)其有害行為。

在這項(xiàng)研究中，DeepMind 使用經(jīng)過訓(xùn)練的分類器來評(píng)估目標(biāo)語言模型對(duì)生成測(cè)試用例的回復(fù)情況，并檢測(cè)其中的冒犯性內(nèi)容。最終，該團(tuán)隊(duì)在參數(shù)達(dá) 280B 的語言模型聊天機(jī)器人中發(fā)現(xiàn)上萬條冒犯性回復(fù)。

據(jù)悉，DeepMind 通過即時(shí)工程來檢測(cè)語言模型生成的測(cè)試用例，以發(fā)現(xiàn)各種其他危害，包括自動(dòng)查找聊天機(jī)器人的攻擊性回復(fù)、被聊天機(jī)器人濫用的私人電話號(hào)碼、以及在生成文本中泄露的私人訓(xùn)練數(shù)據(jù)等。

生成式語言模型有時(shí)會(huì)以意料不到的方式危害到用戶，其可能會(huì)輸出不良的文本內(nèi)容。而在實(shí)際應(yīng)用程序中，哪怕只有極小的可能性會(huì)對(duì)用戶造成傷害，也是不被允許的。

2016 年，微軟推出了能夠自動(dòng)發(fā)布推文給用戶的 Tay 機(jī)器人。但在上線的 16 小時(shí)內(nèi)，有幾名用戶利用 Tay 機(jī)器人的漏洞，讓其將帶有種族主義和性意味的推文發(fā)送給了超過 5 萬名用戶，之后微軟將該機(jī)器人關(guān)閉。

然而，這并不是因?yàn)槲④浀氖韬?。微軟副總裁彼?middot;李(Peter Lee)表示，“我們已經(jīng)做好了應(yīng)對(duì)許多類系統(tǒng)濫用行為的準(zhǔn)備，而且我們對(duì)這一特定攻擊進(jìn)行了關(guān)鍵監(jiān)督。”

癥結(jié)在于，會(huì)致使語言模型輸出有害文本的場(chǎng)景數(shù)不勝數(shù)，研究人員無法在語言模型被部署到現(xiàn)實(shí)中之前找出一切可能發(fā)生的情況。

正如大家所熟知的強(qiáng)大語言模型 GPT-3，盡管其能夠輸出高質(zhì)量的文本內(nèi)容，但卻不容易在真實(shí)世界中完成部署。

圖 | GPT-3 模型用于法語語法更正(來源：OpenAI)

據(jù)了解，DeepMind 的目標(biāo)是通過自動(dòng)查找故障案例來對(duì)手寫測(cè)試用例進(jìn)行補(bǔ)充，從而減少關(guān)鍵疏忽的數(shù)量。

為此，DeepMind 使用語言模型本身生成測(cè)試用例，從零觸發(fā)生成到監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)，DeepMind 探索了多種方法來生成具有不同多樣性和難度的測(cè)試用例，這將有助于獲得高測(cè)試覆蓋率及模擬對(duì)抗性案例。

此外，DeepMind 使用分類器檢測(cè)測(cè)試用例上的以下各種有害行為：

首先是冒犯性語言，模型有時(shí)會(huì)發(fā)表具有歧視、仇恨、色情等意味的內(nèi)容;其次是數(shù)據(jù)外泄行為，模型濫用訓(xùn)練時(shí)給到的數(shù)據(jù)庫，包括私人的身份信息;再次是聯(lián)系信息的濫用，模型會(huì)發(fā)送無意義的電子郵件或通過電話打擾到其他真實(shí)用戶;然后是群體認(rèn)知偏差，即在輸出的文本內(nèi)容中包含對(duì)某些人群不公正的偏見類言論;最后，模型還會(huì)在與用戶對(duì)話時(shí)，作出有攻擊性等不良意味的回復(fù)。

在明確哪些行為會(huì)給用戶造成傷害后，如何去修復(fù)這些行為就不是難事了，DeepMind 主要采取了以下幾種方式：

例如，通過禁止語言模型使用在不良內(nèi)容中高頻率出現(xiàn)的詞組，來盡量避免模型輸出有害文本;在迭代階段，篩選并刪除語言模型在訓(xùn)練時(shí)使用過的攻擊性對(duì)話數(shù)據(jù);強(qiáng)化語言模型的意識(shí)，訓(xùn)練時(shí)嵌入特定類型輸入所需的行為案例;在標(biāo)準(zhǔn)測(cè)試中對(duì)模型進(jìn)行最初輸出文本的訓(xùn)練，最大化避免輸出有害文本的情況。

總的來說，基于語言模型的“紅隊(duì)”是一種具有發(fā)展前景的工具，可以發(fā)現(xiàn)語言模型何時(shí)在以各種不良方式運(yùn)行，應(yīng)該與其他許多用于發(fā)現(xiàn)并緩解語言模型中危害的技術(shù)工具一起使用。

值得一提的是，DeepMind 的這項(xiàng)研究還可用于先發(fā)制人地發(fā)現(xiàn)來自高級(jí)機(jī)器學(xué)習(xí)系統(tǒng)的其他假設(shè)危害，如由內(nèi)部失調(diào)或客觀穩(wěn)健性失效而引發(fā)的故障。

圖 | Gopher 模型進(jìn)行對(duì)話交互(來源：DeepMind)

前不久，DeepMind 對(duì)外公布了具有 2800 億參數(shù)的全新語言模型 Gopher，其在參數(shù)量上超越了 OpenAI 的 GPT-3。

在性能方面，研究人員測(cè)試了 152 個(gè)任務(wù)后得出，Gopher 在絕大多數(shù)的任務(wù)中遠(yuǎn)勝 SOTA 模型，特別是在需使用大量知識(shí)來應(yīng)對(duì)的方面。

這些成就為 DeepMind 未來的語言研究奠定了基礎(chǔ)，進(jìn)一步推動(dòng)了其解決智能問題以推進(jìn)科學(xué)并造福人類的使命實(shí)現(xiàn)。

關(guān)鍵詞：語言模型修復(fù)其有害行為影響用戶新型工具

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件，均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)"，并保留"環(huán)球傳媒網(wǎng)"的電頭。

新視野

資訊

焦點(diǎn)