神經(jīng)網(wǎng)絡(luò)化身為現(xiàn)代深度學(xué)習(xí) (DL) 凱旋歸來

2021-08-19 09:37:06 來源：雷鋒網(wǎng) 編輯：

經(jīng)驗和數(shù)據(jù)驅(qū)動的革命

20世紀(jì)90年代初，一場統(tǒng)計革命席卷了人工智能 (AI)，并在 2000 年代達(dá)到高潮。神經(jīng)網(wǎng)絡(luò)化身為現(xiàn)代深度學(xué)習(xí) (DL) 凱旋歸來，并席卷了人工智能的所有子領(lǐng)域。盡管深度學(xué)習(xí)最具爭議的應(yīng)用是自然語言處理 (NLP)，但仍舊帶來了經(jīng)驗主義的轉(zhuǎn)向。

NLP 中廣泛使用數(shù)據(jù)驅(qū)動的經(jīng)驗方法有以下原因：符號和邏輯方法未能產(chǎn)生可擴(kuò)展的 NLP 系統(tǒng)，導(dǎo)致 NLP (EMNLP，此指數(shù)據(jù)驅(qū)動、基于語料庫的短語，統(tǒng)計和機(jī)器學(xué)習(xí)方法)中所謂的經(jīng)驗方法的興起。

這種向經(jīng)驗主義轉(zhuǎn)變的動機(jī)很簡單：在我們深入了解語言如何運作以及如何與我們口語談?wù)摰膬?nèi)容相關(guān)之前，經(jīng)驗和數(shù)據(jù)驅(qū)動的方法可能有助于構(gòu)建一些實用的文本處理應(yīng)用程序。

正如EMNLP的先驅(qū)之一肯尼思·丘奇(Kenneth Church)所解釋的，NLP數(shù)據(jù)驅(qū)動和統(tǒng)計方法的擁護(hù)者對解決簡單的語言任務(wù)感興趣，其動機(jī)從來不是暗示語言就是這樣運作的，而是"做簡單的事情總比什么都不做好"。

丘奇認(rèn)為，這種轉(zhuǎn)變的動機(jī)被嚴(yán)重誤解，他們以為這個“可能大致正確的”( Probably Approximately Correct ，PAC)范式將擴(kuò)展到完全自然的語言理解。

“新一代和當(dāng)代的NLP研究人員在語言學(xué)和NLP的理解上有差別，因此，這種被誤導(dǎo)的趨勢導(dǎo)致了一種不幸的狀況：堅持使用"大語言模型"(LLM)構(gòu)建NLP系統(tǒng)，這需要巨大的計算能力，并試圖通過記住海量數(shù)據(jù)來接近自然語言。

這幾乎是徒勞的嘗試。我們認(rèn)為，這種偽科學(xué)方法不僅浪費時間和資源，而且引誘新一代年輕科學(xué)家認(rèn)為語言只是數(shù)據(jù)。更糟糕的是，這種方法會阻礙自然語言理解(NLU)的任何真正進(jìn)展。

相反，現(xiàn)在是重新思考 NLU 方法的時候了。因為我們確信，對 NLU 的"大數(shù)據(jù)"方法不僅在心理上、認(rèn)知上甚至計算上都是難以操作的，而且這種盲目的數(shù)據(jù)驅(qū)動 NLU 方法在理論和技術(shù)上也有缺陷。

語言處理與語言理解

雖然 NLP(自然語言處理)和 NLU(自然語言理解)經(jīng)?；Q使用，但兩者之間存在巨大差異。事實上，認(rèn)識到它們之間的技術(shù)差異將使我們認(rèn)識到數(shù)據(jù)驅(qū)動的機(jī)器學(xué)習(xí)方法。雖然機(jī)器學(xué)習(xí)可能適合某些 NLP 任務(wù)，但它們幾乎與 NLU 無關(guān)。

考慮最常見的"下游 NLP"任務(wù)：

綜述--主題提取--命名實體識別(NER)--(語義)搜索--自動標(biāo)記--聚類

上述所有任務(wù)都符合所有機(jī)器學(xué)習(xí)方法的基礎(chǔ)可能大致正確(PAC) 范式。具體來說，評估一些NLP系統(tǒng)對上述任務(wù)的產(chǎn)出是主觀的，沒有客觀標(biāo)準(zhǔn)來判斷某些系統(tǒng)提取的主題是否優(yōu)于另一個主題。

然而，語言理解不承認(rèn)任何程度的誤差，它們要充分理解一個話語或一個問題，一個演講者試圖傳達(dá)的唯一一個想法。

舉個例子，針對這句話，自然語言理解就需要考慮多種可能：我們有一個退休的BBC記者，曾在冷戰(zhàn)期間駐扎在一個東歐國家嗎?

某些數(shù)據(jù)庫對上述查詢將只有一個正確的答案。因此，將上述內(nèi)容轉(zhuǎn)換為正式的結(jié)構(gòu)化查詢語言查詢是巨大的挑戰(zhàn)，因為我們不能搞錯任何錯誤。

這個問題背后的"確切"思想涉及：

正確解釋"退休的BBC記者"——即作為所有在BBC工作的記者，現(xiàn)在退休了。通過保留那些在某個"東歐國家"工作的"退休BBC記者"，進(jìn)一步過濾上述內(nèi)容。除了地理限制之外，還有一個時間限制，即這些"退休的BBC記者"的工作時間必須是"冷戰(zhàn)期間"。以上意味著將介詞短語為"在冷戰(zhàn)期間"，而不是"一個東歐國家"(如果"冷戰(zhàn)期間"被替換為"具有華沙成員資格"，就要考慮不同的介詞短語') 做正確的量化范圍：我們正在尋找的不是在 "一些" 東歐國家工作的記者，而是“任何”在“任何”東歐國家工作的記者。

上述具有挑戰(zhàn)性的語義理解功能都不能"大致"或"可能"正確——而是絕對正確。換言之，我們必須從對上述問題的多種可能解釋中得到一個唯一的含義。

總而言之，對普通口語的真正理解與單純的文本(或語言)處理是完全不同的問題。在文本(或語言)處理中，我們可以接受近似正確的結(jié)果。

這時候，我們應(yīng)該可以清楚地明白：為什么NLP與NLU不同，為什么NLU對機(jī)器來說是困難的。但是NLU 的困難根源究竟是什么?

為什么 NLU 很困難：文本容易丟失

首先是"缺失文本現(xiàn)象"(MTP)，我們認(rèn)為它是自然語言理解中所有挑戰(zhàn)的核心。語言交流如下圖所示：演講者將思想“編碼”為某種自然語言中的話語，然后聽眾將話語“解碼”為演講者打算/希望傳達(dá)的思想。"解碼"過程是NLU中的"U"--即理解話語背后的思想。

說話者和聽者的思想語言交流

此外，"解碼"過程中需要沒有任何誤差，才能從說話者的話語中，找出唯一一種意在傳達(dá)的含義。這正是NLU困難的原因。

在這種復(fù)雜的通信中，有兩種優(yōu)化通信的方案：

說話者可以壓縮(和最小化)在思想編碼中發(fā)送的信息量，或者聽者能做一些額外的工作解碼(解壓縮)話語; 演講者多做一部分工作，把所有想要傳達(dá)的思想信息告訴聽者，減少聽者的工作量。

該優(yōu)化減少了說話者的編碼信息，但也遺漏了聽眾可用的信息，但不會造成對話的背景信息丟失。

舉個例子，對比下面黃色框中的未優(yōu)化的文本和綠色框中優(yōu)化的(等效但小得多的)文本。

綠色框中較短的信息(我們通常就是這樣說話的)傳達(dá)了與較長的盒子相同的思想。通常，我們不會明確說明所有其他內(nèi)容，因為我們都知道。這種技能幾乎花了人類20萬年的進(jìn)化。

但這就是NLU的問題所在：機(jī)器不知道我們遺漏了什么，它們不知道我們都知道什么。

最終結(jié)果是NLU非常困難，如果它們不能以某種方式"整理"我們話語的所有的含義，那么軟件程序?qū)⒂肋h(yuǎn)不能完全理解我們話語背后的想法。

NLU的挑戰(zhàn)，并不是解析，阻止，POS標(biāo)記，命名實體識別等, 而是解釋或揭示那些缺失的信息。并隱含地假定為共享和共同的背景知識。

在此背景下，我們現(xiàn)在提供三個原因，說明為什么機(jī)器學(xué)習(xí)和數(shù)據(jù)驅(qū)動的方法不會為自然語言理解提供解決方案。

ML 方法甚至與 NLU 無關(guān)：ML 是壓縮的，語言理解需要解壓縮

上述討論(希望)是一個令人信服的論點，即機(jī)器的自然語言理解由于MTP(媒體傳輸協(xié)議，Media Transfer Protocol)而變得困難，因為我們?nèi)粘？谡Z被高度壓縮，因此"理解"的挑戰(zhàn)在于未壓縮(或發(fā)現(xiàn))缺失的文本。

機(jī)器的語言理解是困難的，因為機(jī)器不知道我們都知道什么。但 MTP 現(xiàn)象正是為什么數(shù)據(jù)驅(qū)動和機(jī)器學(xué)習(xí)方法雖然在某些 NLP 任務(wù)中可能很有用，但與 NLU 甚至不相關(guān)的原因。在這里，我們提出這個證據(jù)：

機(jī)器可學(xué)習(xí)性(ML) 和可壓縮性(COMP)之間的等價性已在數(shù)學(xué)上建立。即已經(jīng)確定，只有在數(shù)據(jù)高度可壓縮(未壓縮的數(shù)據(jù)有大量冗余)時，才能從數(shù)據(jù)集中學(xué)習(xí)，反之亦然。

雖然可壓縮性和可學(xué)習(xí)性之間的證明在技術(shù)上相當(dāng)復(fù)雜，但其實很容易理解：學(xué)習(xí)是關(guān)于消化大量數(shù)據(jù)并在多維空間中找到一個"覆蓋"整個數(shù)據(jù)集(以及看不見的的函數(shù)具有相同模式/分布的數(shù)據(jù))。因此，當(dāng)所有數(shù)據(jù)點都可以壓縮時，就會發(fā)生可學(xué)習(xí)性。但是 MTP 告訴我們 NLU 是關(guān)于解壓縮的。因此，我們梳理出以下內(nèi)容：

機(jī)器學(xué)習(xí)是關(guān)于發(fā)現(xiàn)將大量數(shù)據(jù)概括為單一函數(shù)。另一方面，由于MTP，自然語言理解需要智能的"不壓縮"技術(shù)，可以發(fā)現(xiàn)所有缺失和隱含的假定文本。因此，機(jī)器學(xué)習(xí)和語言理解是不兼容的——事實上，它們是矛盾的。

ML 方法甚至與 NLU 無關(guān)：統(tǒng)計上的無意義

ML 本質(zhì)上是一種基于在數(shù)據(jù)中找到一些模式(相關(guān)性)的范式。因此，該范式的希望是在捕捉自然語言中的各種現(xiàn)象時，發(fā)現(xiàn)它們存在統(tǒng)計上的顯著差異。但是，請考慮以下事項)：

獎杯不適合在手提箱，因為它是太

1a.小

1b.大

請注意，"小"和"大"(或"打開"和"關(guān)閉"等)等反義詞/反義詞以相同的概率出現(xiàn)在相同的上下文中。這樣，(小)和(大)在統(tǒng)計上等效的，但即使是一個4歲(小)和(大)是顯著不同："它"在(小)是指"手提箱"而在(大)中它指的是"獎杯"?；旧?，在簡單的語言中，(1 a ) 和 (1 b ) 在統(tǒng)計上是等價的，盡管在語義上遠(yuǎn)非如此。因此，統(tǒng)計分析不能建模(甚至不能近似)語義——就這么簡單!

人們可以爭辯說，有了足夠的例子，一個系統(tǒng)可以確立統(tǒng)計學(xué)意義。但是，需要多少個示例來"學(xué)習(xí)"如何解決結(jié)構(gòu)中的引用(如 (1)中的引用)?

在機(jī)器學(xué)習(xí)/數(shù)據(jù)驅(qū)動的方法中，沒有類型層次結(jié)構(gòu)，我們可以對"包"、"手提箱"、"公文包"等進(jìn)行概括性陳述，所有這些聲明都被視為通用類型"容器"的子類型。因此，以上每個模式，在純數(shù)據(jù)驅(qū)動的范式中，都是不同的，必須在數(shù)據(jù)中分別"看到"。

如果我們在語義差異中加入上述模式的所有小語法差異(例如將"因為"更改為"雖然"，這也更改了"它"的正確引用)，那么粗略計算告訴我們，機(jī)器學(xué)習(xí)/數(shù)據(jù)驅(qū)動系統(tǒng)需要看到上述 40000000 個變體，以學(xué)習(xí)如何解決句子中的引用。如果有的話，這在計算上是不可信的。正如Fodor和Pylyshyn曾經(jīng)引用著名的認(rèn)知科學(xué)家喬治.米勒( George Miller)，為了捕捉 NLU 系統(tǒng)所需的所有句法和語義變化，神經(jīng)網(wǎng)絡(luò)可能需要的特征數(shù)量超過宇宙中的原子數(shù)量!這里的寓意是：統(tǒng)計無法捕捉(甚至不能近似)語義。

ML 方法甚至與 NLU 無關(guān)：意圖

邏輯學(xué)家們長期以來一直在研究一種語義概念，試圖用語義三角形解釋什么是"內(nèi)涵"。

一個符號用來指代一個概念，概念可能有實際的對象作為實例，但有些概念沒有實例，例如，神話中的獨角獸只是一個概念，沒有實際的實例獨角獸。類似地，"被取消的旅行"是對實際未發(fā)生的事件的引用，或從未存在的事件等。

因此，每個"事物"(或認(rèn)知的每一個對象)都有三個部分：一個符號，符號所指的概念以及概念具有的具體實例。我有時說，因為概念"獨角獸"沒有"實際"實例。概念本身是其所有潛在實例的理想化模板(因此它接近理想化形式柏拉圖)

一個概念(通常由某個符號/標(biāo)簽所指)是由一組屬性和屬性定義，也許還有額外的公理和既定事實等。然而，概念與實際(不完美)實例不同，在數(shù)學(xué)世界中也是如此。因此，例如，雖然下面的算術(shù)表達(dá)式都有相同的擴(kuò)展，但它們有不同的語氣：

內(nèi)涵決定外延，但外延本身并不能完全代表概念。上述對象僅在一個屬性上相等，即它們的值在許多其他屬性上是不同的。在語言中，平等和同一性不能混淆，如果對象在某些屬性值中是平等的，則不能認(rèn)為對象是相同的。

因此，雖然所有的表達(dá)式評估相同，因此在某種意義上是相等的，但這只是它們的屬性之一。事實上，上述表達(dá)式有幾個其他屬性，例如它們的語法結(jié)構(gòu)、操作員數(shù)量、操作次數(shù)等。價值(這只是一個屬性)稱為外延，而所有屬性的集合是內(nèi)涵。雖然在應(yīng)用科學(xué)(工程，經(jīng)濟(jì)學(xué)等)，我們可以安全地認(rèn)為它們相等僅屬性，在認(rèn)知中(尤其是在語言理解中)，這種平等是失敗的!下面是一個簡單的示例：

假設(shè)(1)是真的，即假設(shè)(1)真的發(fā)生了，我們看到了/ 見證了它。不過，這并不意味著我們可以假設(shè)(2)是真的，盡管我們所做的只是將 (1) 中的 '1b' 替換為一個(假設(shè))等于它的值。所以發(fā)生了什么事?

我們在真實陳述中用一個被認(rèn)為與之相等的對象替換了一個對象，我們從真實的東西中推斷出并非如此的東西!雖然在物理科學(xué)中，我們可以很容易地用一個屬性來替換一個等于它的物體，但這在認(rèn)知上是行不通的!下面是另一個可能與語言更相關(guān)的示例：

通過簡單地將"亞歷山大大帝的導(dǎo)師"替換為與其相等的值，即亞里士多德，我們得到了(2)，這顯然是荒謬的。同樣，雖然"亞歷山大大帝的導(dǎo)師"和"亞里士多德"在某種意義上是平等的(它們都具有相同的價值作為指稱)，這兩個思想對象在許多其他屬性上是不同的。那么，這個關(guān)于"內(nèi)涵"的討論有什么意義呢?

自然語言充斥著內(nèi)涵現(xiàn)象，因為語言具有不可忽視的內(nèi)涵。但是機(jī)器學(xué)習(xí)/數(shù)據(jù)驅(qū)動方法的所有變體都純粹是延伸的——它們以物體的數(shù)字(矢量/緊張)表示來運作，而不是它們的象征性和結(jié)構(gòu)特性，因此在這個范式中，我們不能用自然語言來模擬各種內(nèi)涵。順便說一句，神經(jīng)網(wǎng)絡(luò)純粹是延伸的，因此不能表示內(nèi)涵，這是它們總是容易受到對抗性攻擊的真正原因，盡管這個問題超出了本文的范圍。

結(jié)束語

我在本文中討論了三個原因，證明機(jī)器學(xué)習(xí)和數(shù)據(jù)驅(qū)動方法甚至與 NLU 無關(guān)(盡管這些方法可用于某些本質(zhì)上是壓縮任務(wù)的文本處理任務(wù))。以上三個理由本身都足以結(jié)束這場夸張的自然語言理解的數(shù)字工程。

人類在傳達(dá)自己的想法時，其實是在傳遞高度壓縮的語言表達(dá)，需要用大腦來解釋和"揭示"所有缺失但隱含假設(shè)的背景信息。

語言是承載思想的人工制品，因此，在構(gòu)建越來越大的語言模型時，機(jī)器學(xué)習(xí)和數(shù)據(jù)驅(qū)動方法試圖在嘗試找到數(shù)據(jù)中甚至不存在的東西時，徒勞地追逐無窮大。

我們必須認(rèn)識到，普通的口語不僅僅是語言數(shù)據(jù)。

關(guān)鍵詞：機(jī)器自然語言理解東西神經(jīng)網(wǎng)絡(luò)

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件，均為環(huán)球傳媒網(wǎng)獨家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)"，并保留"環(huán)球傳媒網(wǎng)"的電頭。

新視野

資訊

焦點