• <rt id="2wkqu"><small id="2wkqu"></small></rt>
  • OpenAI公開(kāi)網(wǎng)頁(yè)爬蟲(chóng)工具:資源枯竭壓力下,人工智能產(chǎn)業(yè)的數(shù)據(jù)版權(quán)困局
    2023-08-11 15:49:20 來(lái)源:21世紀(jì)經(jīng)濟(jì)報(bào)道 編輯:

    南方財(cái)經(jīng)全媒體記者 吳立洋 上海報(bào)道

    網(wǎng)頁(yè)爬蟲(chóng),長(zhǎng)期存在于互聯(lián)網(wǎng)產(chǎn)業(yè)中的灰色地帶,作為一種網(wǎng)絡(luò)信息采集工具,爬蟲(chóng)軟件既可以幫助使用者便捷地大范圍獲取網(wǎng)頁(yè)數(shù)據(jù),也常常因涉嫌侵犯平臺(tái)方數(shù)據(jù)資產(chǎn)與用戶(hù)個(gè)人隱私而遭到質(zhì)疑。

    近日,OpenAI公司新發(fā)布的網(wǎng)絡(luò)爬蟲(chóng)工具GPTBot則將這一的數(shù)據(jù)獲取渠道再次推上風(fēng)口浪尖,據(jù)其發(fā)布的信息顯示,GPTBot將被用于抓取網(wǎng)頁(yè)數(shù)據(jù),以訓(xùn)練GPT-4或GPT-5,提升其能力與準(zhǔn)確性。


    (資料圖片僅供參考)

    而OpenAI這一舉動(dòng)再次引發(fā)外界關(guān)于人工智能訓(xùn)練“數(shù)據(jù)荒”的猜測(cè),此前,多位業(yè)界人士與學(xué)術(shù)機(jī)構(gòu)警告稱(chēng)高質(zhì)量的人工智能訓(xùn)練文本將在幾年內(nèi)消耗殆盡——若非需求迫切,本就在聚光燈下的OpenAI似乎并不需要公開(kāi)這一本就飽受爭(zhēng)議的數(shù)據(jù)工具。

    而業(yè)界同樣對(duì)OpenAI的進(jìn)一步動(dòng)作高度關(guān)注,如果該舉動(dòng)并未引起平臺(tái)與監(jiān)管的激烈反彈,是否意味著其他AI公司同樣可以依葫畫(huà)瓢應(yīng)用爬蟲(chóng)獲取訓(xùn)練數(shù)據(jù)?在Reddit已率先宣布對(duì)第三方API接口收費(fèi)后,AI產(chǎn)業(yè)與內(nèi)容平臺(tái)又將走向更為廣泛的對(duì)立抑或合作?

    “數(shù)據(jù)荒”會(huì)到來(lái)嗎

    作為人工智能發(fā)展的三大基本要素(算法、算力、數(shù)據(jù))之一,訓(xùn)練用數(shù)據(jù)的重要性隨著AI產(chǎn)業(yè)的高速發(fā)展被進(jìn)一步凸顯,具備高質(zhì)量、大規(guī)模、豐富性的訓(xùn)練數(shù)據(jù)正被快速消耗。

    2022年10月,Epoch AI Research團(tuán)隊(duì)發(fā)布的論文指出,當(dāng)前語(yǔ)言數(shù)據(jù)集數(shù)量正以50%的速度增長(zhǎng),而原始數(shù)據(jù)的增長(zhǎng)速度則為7%,如果數(shù)據(jù)使用效率不能得到大幅度提升或有新的數(shù)據(jù)源出現(xiàn),用于語(yǔ)言模型訓(xùn)練的數(shù)據(jù)可能將于2030年至2050年之間耗盡,其中高質(zhì)量語(yǔ)言數(shù)據(jù)預(yù)計(jì)于2023至2027年耗盡。

    而當(dāng)前開(kāi)拓和豐富數(shù)據(jù)庫(kù)的各項(xiàng)努力依然未取得顯著進(jìn)展,此前業(yè)界曾寄希望于使用一個(gè)大模型為另一個(gè)大模型生辰訓(xùn)練用數(shù)據(jù),但I(xiàn)lia Shumailov等學(xué)者的研究則發(fā)現(xiàn),在訓(xùn)練中使用模型生成的內(nèi)容將導(dǎo)致進(jìn)行新訓(xùn)練的模型出現(xiàn)不可逆的缺陷,即“遞歸的詛咒”,人類(lèi)生成的文本內(nèi)容特別是人類(lèi)與人工智能的交互數(shù)據(jù)在大模型訓(xùn)練中依然必要。

    “書(shū)籍、期刊論文作為人類(lèi)正式出版物,其數(shù)據(jù)信息已經(jīng)做了很好的質(zhì)量控制,但這部分?jǐn)?shù)據(jù)對(duì)大模型來(lái)說(shuō)基本已經(jīng)消耗完了,因此到網(wǎng)頁(yè)等公開(kāi)渠道獲取數(shù)據(jù)成為主要數(shù)據(jù)來(lái)源。”香港科技大學(xué)(廣州)協(xié)理副校長(zhǎng)熊輝教授在接受南方財(cái)經(jīng)全媒體記者采訪(fǎng)時(shí)指出,相較于谷歌、微軟等擁有自身網(wǎng)絡(luò)平臺(tái)與長(zhǎng)期數(shù)據(jù)積累的互聯(lián)網(wǎng)巨頭,隨著書(shū)籍等公共文本數(shù)據(jù)存量見(jiàn)底,各互聯(lián)網(wǎng)平臺(tái)建立藩籬反對(duì)爬取自身平臺(tái)數(shù)據(jù)或深層數(shù)據(jù),OpenAI等單純以AI研發(fā)為主要業(yè)務(wù)的訓(xùn)練數(shù)據(jù)枯竭可能將比上述Epoch AI Research的預(yù)測(cè)來(lái)得更早。

    “基于當(dāng)前大模型企業(yè)的數(shù)據(jù)訓(xùn)練和數(shù)據(jù)消化能力,在窮盡其本身能力所能獲取的人類(lèi)生產(chǎn)的數(shù)據(jù)后,可能到2025年這些企業(yè)就將面臨無(wú)人類(lèi)生成數(shù)據(jù)可用的問(wèn)題。”熊輝表示。

    而這或許也是OpenAI急于將網(wǎng)頁(yè)爬蟲(chóng)公開(kāi)化的原因。其官方發(fā)布的論文顯示,早在GPT-3.0訓(xùn)練所使用的753GB數(shù)據(jù)中,除21GB書(shū)籍?dāng)?shù)據(jù)與101GB期刊數(shù)據(jù),其余數(shù)據(jù)來(lái)源中11.4GB的維基百科數(shù)據(jù)、50GB的Reddit(海外社交平臺(tái))連接數(shù)據(jù)與570GB的Common Crawl(免費(fèi)網(wǎng)頁(yè)數(shù)據(jù)庫(kù),主要內(nèi)容來(lái)源于網(wǎng)頁(yè)爬蟲(chóng))都與網(wǎng)頁(yè)相關(guān),而書(shū)籍與期刊的數(shù)據(jù)庫(kù)存與增長(zhǎng)有限,未來(lái)網(wǎng)頁(yè)數(shù)據(jù)在大模型訓(xùn)練數(shù)據(jù)集中所占比重或?qū)⑦M(jìn)一步提升。

    但網(wǎng)頁(yè)數(shù)據(jù)存在的問(wèn)題也非常明顯,作為相對(duì)公開(kāi)的數(shù)據(jù)來(lái)源,雖然其在可獲得性與數(shù)量方面較為理想,但網(wǎng)頁(yè)本身的內(nèi)容質(zhì)量卻良莠不齊,且隨著人工智能在C端的大規(guī)模應(yīng)用,越來(lái)越多本就是AI生成的文本、圖片、視頻也更加容易導(dǎo)致“遞歸的詛咒?!?/p>

    熊輝指出,大模型使用AI生成的數(shù)據(jù)而可能產(chǎn)生的崩潰或偏見(jiàn),本質(zhì)上來(lái)源于其訓(xùn)練中的自我增強(qiáng)循環(huán),即模型訓(xùn)練發(fā)生了樣本偏移或訓(xùn)練分布偏移,陷入到一種錯(cuò)誤或有限的思維定勢(shì)中,形成局部的信息繭房現(xiàn)象。在人工智能訓(xùn)練數(shù)據(jù)來(lái)源方面,數(shù)據(jù)隱私和數(shù)據(jù)層面的缺陷導(dǎo)致的偏見(jiàn)與倫理問(wèn)題,也是當(dāng)前產(chǎn)業(yè)面臨的主要問(wèn)題。

    他進(jìn)一步表示,要避免因數(shù)據(jù)問(wèn)題而導(dǎo)致的模型崩潰或偏見(jiàn),通常最普遍的做法時(shí)引入多元的訓(xùn)練數(shù)據(jù),即便是同一類(lèi)型的數(shù)據(jù),不同的數(shù)據(jù)來(lái)源也將一定程度上避免數(shù)據(jù)使用陷入自我增強(qiáng)循環(huán),同時(shí)輔助以對(duì)抗生成等技術(shù)來(lái)判斷數(shù)據(jù)質(zhì)量。

    爬蟲(chóng)爭(zhēng)議

    但作為一種大規(guī)模的網(wǎng)頁(yè)信息爬取工具,爬蟲(chóng)在互聯(lián)網(wǎng)產(chǎn)業(yè)中的使用往往伴隨著巨大爭(zhēng)議,網(wǎng)站所有者認(rèn)為其攫取了自身的平臺(tái)價(jià)值,在網(wǎng)站上發(fā)布內(nèi)容的用戶(hù)則面臨版權(quán)與個(gè)人隱私權(quán)益被侵害的風(fēng)險(xiǎn)。

    在美國(guó)最為知名的爬蟲(chóng)軟件案件之一發(fā)生在微軟旗下職業(yè)社交平臺(tái)LinkedIn與數(shù)據(jù)分心公司HiQ之間,后者通過(guò)爬取前者數(shù)據(jù)并進(jìn)行處理后將分析結(jié)果出售給相關(guān)企業(yè)獲利,雙方關(guān)于第三方是否有權(quán)爬取網(wǎng)站信息展開(kāi)長(zhǎng)達(dá)五年的訴訟拉鋸。最終,該案以法院裁定HiQ違反LinkedIn用戶(hù)協(xié)議,賠償50萬(wàn)美元并禁止其未經(jīng)同意自動(dòng)化訪(fǎng)問(wèn)復(fù)制數(shù)據(jù)告終。

    今年4月,作為OpenAI ChatGPT、谷歌Bard等多個(gè)公司大語(yǔ)言模型的重要數(shù)據(jù)來(lái)源,美國(guó)社交媒體平臺(tái)Reddit宣布將向訪(fǎng)問(wèn)其應(yīng)用程序編程接口的公司收費(fèi),不再免費(fèi)為科技巨頭提供免費(fèi)的數(shù)據(jù)內(nèi)容。隨后,Twitter(現(xiàn)名X)CEO馬斯克亦公開(kāi)指責(zé)微軟非法使用Twitter數(shù)據(jù)訓(xùn)練AI模型,并聲稱(chēng)將就此起訴微軟。

    為應(yīng)對(duì)可能的合規(guī)爭(zhēng)議,OpenAI在發(fā)布GPTBot時(shí)也為網(wǎng)站所有者提供了屏蔽爬蟲(chóng)的方法——只要在網(wǎng)站的robots.txt(爬蟲(chóng)協(xié)議)中添加對(duì)應(yīng)代碼,即可禁止或允許GPTBot訪(fǎng)問(wèn)爬取部分網(wǎng)站內(nèi)容。

    但這種把球踢給網(wǎng)站所有者的做法也并不能完全避免合規(guī)風(fēng)險(xiǎn)。一個(gè)最為突出的問(wèn)題是,網(wǎng)站只是網(wǎng)絡(luò)信息的展示平臺(tái),網(wǎng)站所有者并不天然具有其他網(wǎng)民發(fā)布在網(wǎng)站上信息內(nèi)容的所有權(quán),即便爬蟲(chóng)方取得網(wǎng)站所有者同意,其爬取網(wǎng)站信息的行為依然可能觸犯內(nèi)容發(fā)布者的版權(quán)權(quán)益。

    王新銳表示,相關(guān)信息的安全程度將取決于OpenAI是否將對(duì)相關(guān)信息采取有效的安全技術(shù)保障措施,如加密等,但這也并不能完全排除過(guò)濾后數(shù)據(jù)爬取仍可能獲取一定個(gè)人可識(shí)別信息的可能性。

    近年來(lái),各國(guó)也在不斷加強(qiáng)與細(xì)化人工智能訓(xùn)練數(shù)據(jù)的合規(guī)要求。例如我國(guó)最新發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中也明確提出“生成式人工智能服務(wù)提供者應(yīng)依法開(kāi)展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng),包括使用具有合法來(lái)源的數(shù)據(jù)和基礎(chǔ)模型;涉及知識(shí)產(chǎn)權(quán)的,不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)”等要求。

    除版權(quán)問(wèn)題外,個(gè)人隱私同樣是網(wǎng)頁(yè)爬蟲(chóng)在獲取數(shù)據(jù)時(shí)難以避免的敏感問(wèn)題,雖然OpenAI承諾GPTBot爬取的網(wǎng)頁(yè)將被過(guò)濾篩選以“去除已知包含個(gè)人信息的來(lái)源”,以試圖從網(wǎng)站類(lèi)型與源頭控制對(duì)個(gè)人可識(shí)別信息的收集,但在具體實(shí)踐中技術(shù)的有效程度仍有待檢驗(yàn)。

    王新銳表示,相關(guān)信息的安全程度將取決于OpenAI是否將對(duì)相關(guān)信息采取有效的安全技術(shù)保障措施,如加密等,但這也并不能完全排除過(guò)濾后爬蟲(chóng)仍可能獲取一定個(gè)人可識(shí)別信息的可能性。

    應(yīng)對(duì)數(shù)據(jù)困局

    正如前文所言,作為近年乘AI熱潮興起而嶄露頭角的新興公司,數(shù)據(jù)積累將成為OpenAI在未來(lái)產(chǎn)業(yè)競(jìng)爭(zhēng)中重要的短板,而在進(jìn)一步獲取數(shù)據(jù)的過(guò)程中,來(lái)源與流程合規(guī)以及愈加嚴(yán)格的監(jiān)管也將成為其不得不面臨的兩難。

    在這樣的背景下,效仿其他的互聯(lián)網(wǎng)平臺(tái)的合規(guī)舉措,在法規(guī)與行業(yè)框架的模糊地帶盡可能拓展數(shù)據(jù)來(lái)源,成為包括OpenAI在內(nèi)大多數(shù)人工智能開(kāi)發(fā)者的選擇。

    例如,提供給網(wǎng)站所有者爬蟲(chóng)屏蔽方式的舉措,也是承襲自其他互聯(lián)網(wǎng)公司的既有做法。在谷歌官網(wǎng),同樣對(duì)其使用的一系列爬蟲(chóng)程序和用戶(hù)代理字符串也均進(jìn)行了公示說(shuō)明,明確網(wǎng)站所有者可以通過(guò)將Googlebot, Googlebot Image, Googlebot News等爬蟲(chóng)程序添加到站點(diǎn)robots. txt中來(lái)禁止其訪(fǎng)問(wèn)網(wǎng)站。

    但正如此前OpenAI已陷入藝術(shù)家與作家就版權(quán)問(wèn)題對(duì)其發(fā)起的訴訟,相同的做法無(wú)論在美國(guó)或是其他國(guó)家,都面臨著不容忽視的合規(guī)問(wèn)題。

    王新銳表示,相較而言,我國(guó)的法律法規(guī)顯然對(duì)數(shù)據(jù)爬取采取了更嚴(yán)格的監(jiān)管路徑。在我國(guó)數(shù)據(jù)爬取受到多部法律法規(guī)的監(jiān)管,一旦超過(guò)合法收集、利用的限度,數(shù)據(jù)爬取將存在侵犯?jìng)€(gè)人信息權(quán)益、侵犯知識(shí)產(chǎn)權(quán)、不正當(dāng)競(jìng)爭(zhēng)以及危害計(jì)算機(jī)信息系統(tǒng)類(lèi)的違法甚至犯罪風(fēng)險(xiǎn),需承擔(dān)相應(yīng)民事、行政乃至刑事責(zé)任。

    而隨著數(shù)據(jù)資源枯竭的危機(jī)一步步逼近,方興未艾的人工智能產(chǎn)業(yè)在加足馬力發(fā)展的同時(shí),又該如何應(yīng)對(duì)模型“養(yǎng)料”供應(yīng)不足這一現(xiàn)實(shí)問(wèn)題?

    熊輝指出,在產(chǎn)業(yè)發(fā)展初期,各大公司肯定會(huì)窮盡一切可能的方法獲取其能夠接觸的所有數(shù)據(jù),早期的數(shù)據(jù)獲取方式在市場(chǎng)驅(qū)動(dòng)下必然是粗獷式的;而隨著數(shù)據(jù)資源逐漸耗盡,下一步企業(yè)的數(shù)據(jù)利用也會(huì)在管理驅(qū)動(dòng)下更為精細(xì)化數(shù)據(jù)質(zhì)量控制,例如做更為細(xì)致的數(shù)據(jù)標(biāo)注與清洗;在此之后,如果想進(jìn)一步挖掘數(shù)據(jù)價(jià)值,則有賴(lài)于進(jìn)一步創(chuàng)新,其中包括數(shù)據(jù)來(lái)源與數(shù)據(jù)利用方式的創(chuàng)新,例如通過(guò)拆解流程、劃分步驟的方式,豐富數(shù)據(jù)內(nèi)容的維度。

    “打個(gè)比方,對(duì)于一年級(jí)還未接觸復(fù)雜乘除計(jì)算的小朋友,51÷3的數(shù)學(xué)問(wèn)題比較復(fù)雜,但是將其拆解為(30+21)÷3后,就可以將其分為30÷3與21÷3兩個(gè)九九乘法表可以解決的簡(jiǎn)單問(wèn)題,與純粹由AI生成的數(shù)據(jù)不同,這一基于人類(lèi)生成數(shù)據(jù)拆解所產(chǎn)生的步驟數(shù)據(jù),在AI訓(xùn)練中也是有價(jià)值的。”熊輝表示,通過(guò)人工或AI輔助,數(shù)據(jù)資源的進(jìn)一步開(kāi)發(fā)與挖掘?qū)⑹蔷徑鈹?shù)據(jù)枯竭問(wèn)題的主要途徑。

    近日,繼日本畫(huà)師、好萊塢從業(yè)者等群體后,多家海外媒體機(jī)構(gòu)也加入呼吁保護(hù)生成式人工智能訓(xùn)練數(shù)據(jù)版權(quán)的行列中。在法新社、歐洲新聞圖片社等媒體簽署的一封公開(kāi)信中,其督促全球立法者考慮制定法規(guī),增強(qiáng)人工智能訓(xùn)練數(shù)據(jù)來(lái)源透明度,并在獲取數(shù)據(jù)前征求權(quán)利人同意。

    隨著AI產(chǎn)業(yè)的進(jìn)一步發(fā)展及各行業(yè)和群體對(duì)數(shù)據(jù)價(jià)值與權(quán)利意識(shí)的覺(jué)醒,如何構(gòu)建數(shù)據(jù)生產(chǎn)方、持有方與數(shù)據(jù)使用方之間的權(quán)利義務(wù)關(guān)系,成為從監(jiān)管到每一個(gè)互聯(lián)網(wǎng)參與者都需要面對(duì)的現(xiàn)實(shí)問(wèn)題。

    關(guān)鍵詞:

    相關(guān)閱讀
    分享到:
    版權(quán)和免責(zé)申明

    凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶(hù)"的電頭。

    久久激情五月网站,一本色道综合亚洲精品精品,午夜电影久久久久久,中文无码AV片在线 成a在线观看视频播放 婷婷色中文在线观看
  • <rt id="2wkqu"><small id="2wkqu"></small></rt>