• <rt id="2wkqu"><small id="2wkqu"></small></rt>
  • 斯坦福訓(xùn)練Transformer替代模型:1.7億參數(shù),能除偏、可控可解釋性強(qiáng)
    2023-06-26 16:38:28 來(lái)源:機(jī)器之心Pro 編輯:

    機(jī)器之心報(bào)道

    編輯:Panda W


    (資料圖片)

    用背包(backpack)裝詞比用袋子(bag)好?在這篇論文中,斯坦福大學(xué)的研究者提出了可干預(yù)的 Backpac k 語(yǔ)言模型,通過(guò)調(diào)控意義向量來(lái)干預(yù)語(yǔ)言模型行為,引導(dǎo)語(yǔ)言模型輸出想要的結(jié)果。

    以 GPT 為代表的大型語(yǔ)言模型已經(jīng)并還將繼續(xù)取得非凡成就,但它們也存在著眾所周知的問(wèn)題,比如由于訓(xùn)練集不平衡導(dǎo)致的偏見(jiàn)問(wèn)題。

    針對(duì)這一問(wèn)題,斯坦福大學(xué)幾位研究者提出了一種新型神經(jīng)架構(gòu) Backpack,宣稱能夠調(diào)控意義向量來(lái)干預(yù)語(yǔ)言模型的行為,引導(dǎo)語(yǔ)言模型輸出想要的結(jié)果。該項(xiàng)目的代碼和模型都已發(fā)布。

    論文地址:

    https://arxiv.org/abs/2305.16765

    項(xiàng)目地址:

    https://backpackmodels.science

    論文一作、斯坦福大學(xué) CS 博士生 John Hewitt 表示,Backpacks 是 Transformers 的替代,它可以在表現(xiàn)力(expressivity)上進(jìn)行擴(kuò)展,并為通過(guò)控制實(shí)現(xiàn)可解釋性提供一種新接口。一個(gè) backpack 學(xué)習(xí)每個(gè)字詞的 k 個(gè)非上下文意義向量,從而無(wú)監(jiān)督地解耦字詞的預(yù)測(cè)用途。

    引言

    首先我們假設(shè)有前半個(gè)語(yǔ)句「The CEO believes that _」,我們的問(wèn)題是消除神經(jīng)語(yǔ)言模型在該句子的性別分布上的偏見(jiàn)。憑直覺(jué)我們就能知道該句子的性別偏見(jiàn)源自「CEO」一詞,因?yàn)槿绻选窩EO」換成「護(hù)士」,偏見(jiàn)就會(huì)發(fā)生性別逆轉(zhuǎn)。為了消除在 CEO 上的偏見(jiàn),必須要對(duì)模型進(jìn)行干預(yù)并且要應(yīng)用到 CEO 一詞所出現(xiàn)的所有上下文中。

    理想情況下,我們希望采取的干預(yù)措施不會(huì)改變模型的上下文并且可以預(yù)測(cè)這個(gè)干預(yù)帶來(lái)的影響。通常來(lái)說(shuō),從可解釋性與控制的各個(gè)方面看,我們更傾向于通過(guò)一個(gè)全局應(yīng)用的容易操作的接口(比如非上下文表征)來(lái)實(shí)施干預(yù)。

    但對(duì) Transformer 來(lái)說(shuō),這種干預(yù)卻難以實(shí)現(xiàn),因?yàn)樗鼈兊纳舷挛谋碚魇瞧漭斎氲膯误w函數(shù)(monolithic function)。單體函數(shù)是指內(nèi)部具有邏輯分支的函數(shù),能夠根據(jù)輸入執(zhí)行不同的邏輯。對(duì) Transformer 模型的任何干預(yù)都會(huì)根據(jù)上下文情況產(chǎn)生復(fù)雜的非線性影響。但我們希望模型能實(shí)現(xiàn)豐富的精準(zhǔn)干預(yù),nenggou 預(yù)測(cè)在所有上下文中的情況,并依然能富有表現(xiàn)力;如此一來(lái),這樣的模型就能成為 Transformer 的可行替代模型。

    針對(duì)這些挑戰(zhàn),研究者提出了一種新的神經(jīng)架構(gòu) Backpack,其預(yù)測(cè)是非上下文表征的對(duì)數(shù) - 線性組合。他們的做法是將詞匯表中的每個(gè)詞都表示成一組非上下文的意義向量(sense vector),這些向量表示的是學(xué)習(xí)到的該詞的不同方面。

    舉個(gè)例子,「science」這個(gè)詞的意義向量可以編碼科學(xué)的類型、與技術(shù)的關(guān)系、已經(jīng)得到公認(rèn)的科學(xué)概念以及科學(xué)過(guò)程的不同方面(復(fù)現(xiàn)或?qū)嶒?yàn)),參見(jiàn)下表 1。意義向量學(xué)習(xí)的不是經(jīng)典的詞義,而是一個(gè)詞在不同語(yǔ)境中的潛在作用的更一般性方面;事實(shí)上,意義向量可被視為經(jīng)典詞向量的一種多向量泛化。

    圖 1 :Transformer 是序列的單體函數(shù),而 Backpack 的輸出是非上下文的、所學(xué)詞的各個(gè)方面的加權(quán)和。

    在干預(yù)意義向量時(shí),為了使干預(yù)結(jié)果在不同上下文中都是可預(yù)測(cè)的,Backpack 會(huì)將一個(gè)序列中的每個(gè)詞都表示成該序列中所有詞的意義向量的一個(gè)線性組合。Backpack 的表現(xiàn)能力來(lái)自于計(jì)算該線性組合的權(quán)重的網(wǎng)絡(luò)模型,其計(jì)算方式是將這些權(quán)重作為整個(gè)序列的一個(gè)函數(shù)。順便一提,研究者在實(shí)驗(yàn)中使用的網(wǎng)絡(luò)模型是 Transformer。由于意義向量是根據(jù)上下文大致選擇的,因此它們可以專門(mén)限定到特定領(lǐng)域;每個(gè)意義都可以學(xué)會(huì)僅在某些上下文中才有用,并且是否有用可以預(yù)測(cè)出來(lái)。也就是說(shuō),意義對(duì)預(yù)測(cè)的貢獻(xiàn)呈對(duì)數(shù) - 線性模式,這意味著不管上下文如何,對(duì)意義向量的干預(yù)也同樣適用(直到權(quán)重變成非負(fù)標(biāo)量)。

    研究者的實(shí)驗(yàn)表明 Backpack 語(yǔ)言模型確實(shí)表現(xiàn)力強(qiáng)大,并且表明對(duì)意義向量進(jìn)行干預(yù)有助于解釋和控制模型。在實(shí)驗(yàn)中,研究者在 OpenWebText 的 500 億 token 上訓(xùn)練了 Backpack 語(yǔ)言模型;這個(gè) Backpack 模型的上下文網(wǎng)絡(luò)有 1.24 億參數(shù)(意義向量有 4600 萬(wàn)參數(shù)),能達(dá)到一個(gè) 1.24 億參數(shù) Transformer 的困惑度;但如果想要更高的可解釋性,就需要更大的模型。研究者還展示了如何通過(guò)意義向量來(lái)針對(duì)性地編碼豐富的詞義概念。

    在四個(gè)詞匯相似性數(shù)據(jù)集(例如 SimLex999)上的定量分析結(jié)果看,1.7 億參數(shù)的 Backpack 的意義向量?jī)?yōu)于 60 億參數(shù)的 GPT-J-6B Transformer 的詞嵌入,并且接近針對(duì)該任務(wù)的專用方法的當(dāng)前最佳表現(xiàn)。研究者還表明意義向量能為 Backpack 語(yǔ)言模型提供一種控制機(jī)制。

    舉個(gè)例子,對(duì)于具有職業(yè)性別刻板偏見(jiàn)的詞(如「CEO」或「護(hù)士」),往往會(huì)學(xué)習(xí)到與該性別偏見(jiàn)相關(guān)聯(lián)的意義向量;研究者發(fā)現(xiàn)通過(guò)為該意義向量降幅,能在有限環(huán)境中極大降低上下文預(yù)測(cè)中的性別差異。

    表 1:左側(cè)是表示 science 一詞的意義向量示例,其中具有豐富的特定領(lǐng)域指向;右側(cè)是以非上下文的方式編輯意義向量的示例(將 MacBook 變得與惠普相關(guān)),從而改變了所得的上下文預(yù)測(cè)。

    Backpack 架構(gòu)

    下面首先將定義 Backpack 架構(gòu)的一般形式,然后會(huì)證明連續(xù)詞袋 word2vec(CBOW)和僅自注意力網(wǎng)絡(luò)其實(shí)就是 Backpack 的特例。

    Backpack 的一般形式

    Backpack 是一個(gè)將符號(hào)序列

    映射成向量序列

    的參數(shù)函數(shù),其中每個(gè)符號(hào) x_i 都屬于一個(gè)有限詞匯表 V,而

    這里將 o_i 稱為 x_i 在上下文序列 x_ 中的 Backpack 表征。

    意義向量。對(duì)于每個(gè) x ∈ V,Backpack 構(gòu)建 k 個(gè)意義向量:

    其中

    意義向量是一種多向量,類似于 word2vec 或 GloVe 等經(jīng)典的非上下文詞表征。

    加權(quán)和。對(duì)于一個(gè)序列 x_,元素 x_i 的表征 o_i 是詞在上下文中的預(yù)測(cè)意義向量的加權(quán)和:給定上下文化權(quán)重

    Backpack 的上下文化權(quán)重

    則由整個(gè)序列 x_ 的一個(gè)(非線性)上下文函數(shù)定義:

    其中

    Backpack 這個(gè)名稱靈感來(lái)自這一事實(shí):backpack 是指背包,就像是一個(gè)袋子(類比于詞袋 /bag-of-words),但是背包更有秩序一些。類似于詞袋,Backpack 表征也是非上下文意義的加權(quán)和;但 Backpack 更加有序,因?yàn)檫@個(gè)加權(quán)和的權(quán)重取決于有序的序列。

    Backpack 模型。Backpack 模型是一種概率模型,它將在某一輸出空間 Y 上的概率定義為一個(gè) Backpack 表征 o_ 的對(duì)數(shù) - 線性函數(shù):

    其中

    是一種線性變換。因?yàn)?Backpack 模型的表征呈現(xiàn)對(duì)數(shù) - 線性模式,所以意義向量對(duì)預(yù)測(cè)的貢獻(xiàn)也呈對(duì)數(shù) - 線性模式。這讓我們可以檢查意義向量,具體做法是經(jīng)由 E 將意義向量投射到詞匯表上,然后在任意上下文中觀察其究竟會(huì)如何對(duì)預(yù)測(cè)做出貢獻(xiàn)。

    模型的參數(shù)化可使用常用的深度神經(jīng)網(wǎng)絡(luò),包括 LSTM 和 Transformer;這些都不是 Backpack,因?yàn)樗鼈兊妮敵霰碚魇钦麄€(gè)序列的(相對(duì)而言)無(wú)約束函數(shù)。相對(duì)而言,Backpack 的表現(xiàn)力看起來(lái)是有限的:其表征 o_i 是非上下文向量

    以標(biāo)量加權(quán)的和。序列元素之間的上下文關(guān)系只能通過(guò)權(quán)重 α 來(lái)表示。盡管如此,研究者的實(shí)驗(yàn)表明,一個(gè)表現(xiàn)能力強(qiáng)的上下文化權(quán)重網(wǎng)絡(luò)可以通過(guò)意義向量的加權(quán)和來(lái)表示復(fù)雜函數(shù),比如新提出的 1.7 億參數(shù)的 Backpack 語(yǔ)言模型使用了一個(gè) 1.24 億參數(shù)的 Transformer 模型來(lái)計(jì)算 α,并實(shí)現(xiàn)了和 1.24 億參數(shù) Transformer 語(yǔ)言模型一樣的損失。

    研究者通過(guò)數(shù)學(xué)形式證明了連續(xù)詞袋與單層注意力都是 Backpack 的特例,但這里我們不再過(guò)多論述了,詳情參閱原論文。

    使用 Backpack 的語(yǔ)言建模

    研究者使用 Backpack 來(lái)進(jìn)行參數(shù)化,定義了一個(gè)神經(jīng)自回歸語(yǔ)言模型。對(duì)于序列的下一 token 的概率,他們使用了標(biāo)準(zhǔn)的 softmax 參數(shù)化,其中有一個(gè)將表征

    映射成 logit

    的權(quán)重矩陣

    回想一下,Backpack 表征 o_j 是通過(guò)意義向量 C (x) 和上下文化權(quán)重 α_j 定義的。下面首先會(huì)介紹等式 (1) 中預(yù)測(cè)意義向量 C 的參數(shù)化,然后是上下文化權(quán)重網(wǎng)絡(luò) A 的參數(shù)化。當(dāng) o_j 是由 Backpack 參數(shù)化時(shí),就可以稱該模型為 Backpack 語(yǔ)言模型。

    對(duì)意義參數(shù)化

    對(duì)于意義函數(shù)

    我們將每個(gè) x ∈ V 都嵌入到

    中,然后將這些嵌入通過(guò)一個(gè)前向網(wǎng)絡(luò)

    其中,嵌入 / 投射矩陣 E 與 (9) 式中的輸出矩陣緊密關(guān)聯(lián)?,F(xiàn)在我們可以使用一個(gè)查找表來(lái)定義所有 k × |V| 意義向量,但隨著 k 增大,參數(shù)數(shù)量也會(huì)變得非常大。于是研究者在這里采用的做法是將詞嵌入成

    然后使用共享權(quán)重將它們放大到

    這也許可以解釋在不同詞類型上觀察到的相關(guān)意義作用。

    對(duì)上下文化權(quán)重參數(shù)化

    研究者使用了一個(gè)標(biāo)準(zhǔn) Transformer 加一層多頭關(guān)鍵詞查詢自注意力來(lái)對(duì)

    進(jìn)行參數(shù)化,也就是讓一個(gè)嵌入的序列通過(guò)一個(gè) Transformer:

    這里使用了適當(dāng)?shù)淖曰貧w掩碼和某種位置表征,然后計(jì)算

    其中對(duì)于每個(gè)預(yù)測(cè)意義 ?=1,...,k 有

    并且矩陣

    研究者把這 k 個(gè)意義看作是頭,對(duì)于每個(gè)頭,上下文化權(quán)重都為對(duì)詞的注意力定義一個(gè)分布。

    訓(xùn)練 Backpack 語(yǔ)言模型的實(shí)驗(yàn)

    這一節(jié)介紹了研究者為了進(jìn)行驗(yàn)證而做的實(shí)驗(yàn),其中包含訓(xùn)練 Backpack 和 Transformer 語(yǔ)言模型的超參數(shù)、數(shù)據(jù)和優(yōu)化流程、評(píng)估和結(jié)果。這里我們不多介紹了,但研究者重點(diǎn)指出:學(xué)習(xí) k>1 個(gè)意義向量對(duì)于實(shí)現(xiàn)優(yōu)良的語(yǔ)言建模性能而言是必需的。

    表 2:語(yǔ)言建模性能,所有模型都訓(xùn)練了 10 萬(wàn)步,token 批大小為 50 萬(wàn),是在 OWT 上。對(duì)于 PPL 指標(biāo),越低越好;對(duì)于準(zhǔn)確度指標(biāo),越高越好。注意這些模型的參數(shù)沒(méi)有可比性;每個(gè) Backpack 的上下文化網(wǎng)絡(luò)中都有一個(gè)大小相當(dāng)?shù)?Transformer。

    可以看出,對(duì)比每個(gè) Backpack 語(yǔ)言模型以及與 Backpack 的上下文化網(wǎng)絡(luò)的規(guī)格相當(dāng)?shù)?Transformer 語(yǔ)言模型,Backpack 語(yǔ)言模型的表現(xiàn)大致相當(dāng)。需要指出,Backpack 的參數(shù)更多,這主要來(lái)自意義向量。研究者發(fā)現(xiàn),在訓(xùn)練時(shí),Backpack 語(yǔ)言模型的收斂時(shí)間長(zhǎng)于 Transformer。奇怪的是,盡管 Small Backpack 和 Transformer 實(shí)現(xiàn)了幾乎一樣的 OWT 困惑度,但 Backpack 語(yǔ)言模型在 LAMBADA 和 Wikitext 上的表現(xiàn)卻顯著更好,同時(shí)在 BLiMP 上卻又更差。

    意義向量中的涌現(xiàn)結(jié)構(gòu)

    下面將通過(guò)定性和定量實(shí)驗(yàn),來(lái)驗(yàn)證意義向量在計(jì)算詞匯相似性和相關(guān)性方面的有效性。這些結(jié)果表明意義向量可以成為實(shí)施干預(yù)的高層面接口。

    意義的可視化

    基于實(shí)驗(yàn)經(jīng)驗(yàn),經(jīng)過(guò)訓(xùn)練的 Backpack 模型會(huì)將特定的意義向量索引與不同的預(yù)測(cè)作用關(guān)聯(lián)起來(lái)。研究者為了解釋這些作用,做法是選取詞 x 的意義 ? 并將這個(gè)意義投射到詞嵌入:

    請(qǐng)注意,這正是(直到一個(gè)標(biāo)量)意義有助于模型的任何預(yù)測(cè)的方式。研究者是通過(guò)報(bào)告該投射下分?jǐn)?shù)最高的詞來(lái)解釋意義向量的作用。

    下表 3 可視化地展示一些意義,比如意義 12 似乎為幾乎所有單詞都編碼了廣泛的相關(guān)概念;意義 3 編碼了給定 x 的二元分布的特定情況;意義 14 似乎為動(dòng)詞編碼了相關(guān)的賓語(yǔ),也為名詞編碼了相關(guān)的修飾詞依賴子項(xiàng)。

    表 3:可視化地展示了在許多詞上的同一意義索引如何編碼細(xì)粒度的含義、相關(guān)性和預(yù)測(cè)使用情況的概念。

    詞匯關(guān)系測(cè)試

    從下表 4 可以看到,意義 12(同義詞意義)在所有數(shù)據(jù)集上都表現(xiàn)良好,媲美或者優(yōu)于 GPT-2-1.5B 和 GPT-J-6B 等嵌入,而 GPT-J-6B 在 RG-65 上則例外。意義 14 是動(dòng)詞賓語(yǔ)意義,僅在動(dòng)詞相似度(VerbSim3500)上表現(xiàn)好,而意義的最小相似性在名詞詞匯相似性上表現(xiàn)尤其出色 (SimLex999)。這說(shuō)明新提出的方法足以比肩當(dāng)前最優(yōu)的方法,盡管它們的訓(xùn)練任務(wù)非常不同,意義向量編碼了大量的詞匯信息。

    表 4:詞匯相似性評(píng)估結(jié)果。所有的數(shù)值都是 Spearman 相關(guān)度;越高越好。

    用于控制的意義向量

    最后,研究者通過(guò)一些具體案例進(jìn)行了概念驗(yàn)證,即可以使用意義向量來(lái)控制語(yǔ)言模型的行為。

    生成限定主題的內(nèi)容

    下圖 2 中,通過(guò) Backpack 中的意義干預(yù)來(lái)控制生成主題,對(duì)比了 Transformer 的 PPLM。

    降低性別偏見(jiàn)

    研究者發(fā)現(xiàn),許多職業(yè)名詞(比如護(hù)士、CEO、教師)的意義向量 10 都帶有性別的刻板印象,并且這種刻板印象會(huì)通過(guò)代詞連貫地表達(dá)出來(lái)。通過(guò)調(diào)降意義 10(乘以小于 1 的標(biāo)量),研究者發(fā)現(xiàn)可以降低 Backpack 在這些職業(yè)名詞上的性別偏見(jiàn)。

    表 5:在有限設(shè)置中降低基于代詞的性別偏見(jiàn)。

    圖 3:對(duì)于前半句「when the nurse walked into the room」(當(dāng)那位護(hù)士走進(jìn)房間),Backpack 語(yǔ)言模型通過(guò)將「護(hù)士」一詞的意義 10 從 0(完全移除)變成 1(原始情況),條件概率分布受到的影響。

    知識(shí)編輯

    研究者還研究了新方法在知識(shí)編輯方面的應(yīng)用。知識(shí)編輯是指編輯模型對(duì)于世界知識(shí)的預(yù)測(cè)。特別要指出,與專有名詞相關(guān)的許多詞都可以定位到該名詞的意義向量。在定性的概念驗(yàn)證實(shí)驗(yàn)中,研究者編輯了目標(biāo)詞(比如 MacBook)的意義向量,移除了與另一個(gè)詞(比如 Apple)的相關(guān)性,然后用再一個(gè)詞(比如 HP)替代了這些相關(guān)性。可以想見(jiàn),這種干預(yù)會(huì)導(dǎo)致 MacBook 與 HP 在預(yù)測(cè)結(jié)果中產(chǎn)生關(guān)聯(lián)。

    表 6:來(lái)自 Backpack 的樣本,其中 Apple 被投射到了 MacBook 的意義嵌入之外,而 Apple 原來(lái)的位置被 HP 替代。第三個(gè)樣本類似,是美式橄欖球球隊(duì)和運(yùn)動(dòng)員相關(guān)的樣本。其中加粗的部分為 prompt。

    關(guān)鍵詞:

    相關(guān)閱讀
    分享到:
    版權(quán)和免責(zé)申明

    凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"的電頭。

    久久激情五月网站,一本色道综合亚洲精品精品,午夜电影久久久久久,中文无码AV片在线 成a在线观看视频播放 婷婷色中文在线观看
  • <rt id="2wkqu"><small id="2wkqu"></small></rt>