環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶-重新發(fā)現(xiàn)生活

您當(dāng)前的位置：環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶>生活資訊 > 正文

OpenAI公開網(wǎng)頁爬蟲工具：資源枯竭壓力下，人工智能產(chǎn)業(yè)的數(shù)據(jù)版權(quán)困局

2023-08-11 15:49:20 來源：21世紀(jì)經(jīng)濟(jì)報(bào)道編輯：

南方財(cái)經(jīng)全媒體記者吳立洋上海報(bào)道

網(wǎng)頁爬蟲，長期存在于互聯(lián)網(wǎng)產(chǎn)業(yè)中的灰色地帶，作為一種網(wǎng)絡(luò)信息采集工具，爬蟲軟件既可以幫助使用者便捷地大范圍獲取網(wǎng)頁數(shù)據(jù)，也常常因涉嫌侵犯平臺(tái)方數(shù)據(jù)資產(chǎn)與用戶個(gè)人隱私而遭到質(zhì)疑。

近日，OpenAI公司新發(fā)布的網(wǎng)絡(luò)爬蟲工具GPTBot則將這一的數(shù)據(jù)獲取渠道再次推上風(fēng)口浪尖，據(jù)其發(fā)布的信息顯示，GPTBot將被用于抓取網(wǎng)頁數(shù)據(jù)，以訓(xùn)練GPT-4或GPT-5，提升其能力與準(zhǔn)確性。

(資料圖片僅供參考)

而OpenAI這一舉動(dòng)再次引發(fā)外界關(guān)于人工智能訓(xùn)練“數(shù)據(jù)荒”的猜測(cè)，此前，多位業(yè)界人士與學(xué)術(shù)機(jī)構(gòu)警告稱高質(zhì)量的人工智能訓(xùn)練文本將在幾年內(nèi)消耗殆盡——若非需求迫切，本就在聚光燈下的OpenAI似乎并不需要公開這一本就飽受爭(zhēng)議的數(shù)據(jù)工具。

而業(yè)界同樣對(duì)OpenAI的進(jìn)一步動(dòng)作高度關(guān)注，如果該舉動(dòng)并未引起平臺(tái)與監(jiān)管的激烈反彈，是否意味著其他AI公司同樣可以依葫畫瓢應(yīng)用爬蟲獲取訓(xùn)練數(shù)據(jù)？在Reddit已率先宣布對(duì)第三方API接口收費(fèi)后，AI產(chǎn)業(yè)與內(nèi)容平臺(tái)又將走向更為廣泛的對(duì)立抑或合作？

“數(shù)據(jù)荒”會(huì)到來嗎

作為人工智能發(fā)展的三大基本要素（算法、算力、數(shù)據(jù)）之一，訓(xùn)練用數(shù)據(jù)的重要性隨著AI產(chǎn)業(yè)的高速發(fā)展被進(jìn)一步凸顯，具備高質(zhì)量、大規(guī)模、豐富性的訓(xùn)練數(shù)據(jù)正被快速消耗。

2022年10月，Epoch AI Research團(tuán)隊(duì)發(fā)布的論文指出，當(dāng)前語言數(shù)據(jù)集數(shù)量正以50%的速度增長，而原始數(shù)據(jù)的增長速度則為7%，如果數(shù)據(jù)使用效率不能得到大幅度提升或有新的數(shù)據(jù)源出現(xiàn)，用于語言模型訓(xùn)練的數(shù)據(jù)可能將于2030年至2050年之間耗盡，其中高質(zhì)量語言數(shù)據(jù)預(yù)計(jì)于2023至2027年耗盡。

而當(dāng)前開拓和豐富數(shù)據(jù)庫的各項(xiàng)努力依然未取得顯著進(jìn)展，此前業(yè)界曾寄希望于使用一個(gè)大模型為另一個(gè)大模型生辰訓(xùn)練用數(shù)據(jù)，但I(xiàn)lia Shumailov等學(xué)者的研究則發(fā)現(xiàn)，在訓(xùn)練中使用模型生成的內(nèi)容將導(dǎo)致進(jìn)行新訓(xùn)練的模型出現(xiàn)不可逆的缺陷，即“遞歸的詛咒”，人類生成的文本內(nèi)容特別是人類與人工智能的交互數(shù)據(jù)在大模型訓(xùn)練中依然必要。

“書籍、期刊論文作為人類正式出版物，其數(shù)據(jù)信息已經(jīng)做了很好的質(zhì)量控制，但這部分?jǐn)?shù)據(jù)對(duì)大模型來說基本已經(jīng)消耗完了，因此到網(wǎng)頁等公開渠道獲取數(shù)據(jù)成為主要數(shù)據(jù)來源。”香港科技大學(xué)（廣州）協(xié)理副校長熊輝教授在接受南方財(cái)經(jīng)全媒體記者采訪時(shí)指出，相較于谷歌、微軟等擁有自身網(wǎng)絡(luò)平臺(tái)與長期數(shù)據(jù)積累的互聯(lián)網(wǎng)巨頭，隨著書籍等公共文本數(shù)據(jù)存量見底，各互聯(lián)網(wǎng)平臺(tái)建立藩籬反對(duì)爬取自身平臺(tái)數(shù)據(jù)或深層數(shù)據(jù)，OpenAI等單純以AI研發(fā)為主要業(yè)務(wù)的訓(xùn)練數(shù)據(jù)枯竭可能將比上述Epoch AI Research的預(yù)測(cè)來得更早。

“基于當(dāng)前大模型企業(yè)的數(shù)據(jù)訓(xùn)練和數(shù)據(jù)消化能力，在窮盡其本身能力所能獲取的人類生產(chǎn)的數(shù)據(jù)后，可能到2025年這些企業(yè)就將面臨無人類生成數(shù)據(jù)可用的問題?！毙茌x表示。

而這或許也是OpenAI急于將網(wǎng)頁爬蟲公開化的原因。其官方發(fā)布的論文顯示，早在GPT-3.0訓(xùn)練所使用的753GB數(shù)據(jù)中，除21GB書籍?dāng)?shù)據(jù)與101GB期刊數(shù)據(jù)，其余數(shù)據(jù)來源中11.4GB的維基百科數(shù)據(jù)、50GB的Reddit（海外社交平臺(tái)）連接數(shù)據(jù)與570GB的Common Crawl（免費(fèi)網(wǎng)頁數(shù)據(jù)庫，主要內(nèi)容來源于網(wǎng)頁爬蟲）都與網(wǎng)頁相關(guān)，而書籍與期刊的數(shù)據(jù)庫存與增長有限，未來網(wǎng)頁數(shù)據(jù)在大模型訓(xùn)練數(shù)據(jù)集中所占比重或?qū)⑦M(jìn)一步提升。

但網(wǎng)頁數(shù)據(jù)存在的問題也非常明顯，作為相對(duì)公開的數(shù)據(jù)來源，雖然其在可獲得性與數(shù)量方面較為理想，但網(wǎng)頁本身的內(nèi)容質(zhì)量卻良莠不齊，且隨著人工智能在C端的大規(guī)模應(yīng)用，越來越多本就是AI生成的文本、圖片、視頻也更加容易導(dǎo)致“遞歸的詛咒?！?/p>

熊輝指出，大模型使用AI生成的數(shù)據(jù)而可能產(chǎn)生的崩潰或偏見，本質(zhì)上來源于其訓(xùn)練中的自我增強(qiáng)循環(huán)，即模型訓(xùn)練發(fā)生了樣本偏移或訓(xùn)練分布偏移，陷入到一種錯(cuò)誤或有限的思維定勢(shì)中，形成局部的信息繭房現(xiàn)象。在人工智能訓(xùn)練數(shù)據(jù)來源方面，數(shù)據(jù)隱私和數(shù)據(jù)層面的缺陷導(dǎo)致的偏見與倫理問題，也是當(dāng)前產(chǎn)業(yè)面臨的主要問題。

他進(jìn)一步表示，要避免因數(shù)據(jù)問題而導(dǎo)致的模型崩潰或偏見，通常最普遍的做法時(shí)引入多元的訓(xùn)練數(shù)據(jù)，即便是同一類型的數(shù)據(jù)，不同的數(shù)據(jù)來源也將一定程度上避免數(shù)據(jù)使用陷入自我增強(qiáng)循環(huán)，同時(shí)輔助以對(duì)抗生成等技術(shù)來判斷數(shù)據(jù)質(zhì)量。

爬蟲爭(zhēng)議

但作為一種大規(guī)模的網(wǎng)頁信息爬取工具，爬蟲在互聯(lián)網(wǎng)產(chǎn)業(yè)中的使用往往伴隨著巨大爭(zhēng)議，網(wǎng)站所有者認(rèn)為其攫取了自身的平臺(tái)價(jià)值，在網(wǎng)站上發(fā)布內(nèi)容的用戶則面臨版權(quán)與個(gè)人隱私權(quán)益被侵害的風(fēng)險(xiǎn)。

在美國最為知名的爬蟲軟件案件之一發(fā)生在微軟旗下職業(yè)社交平臺(tái)LinkedIn與數(shù)據(jù)分心公司HiQ之間，后者通過爬取前者數(shù)據(jù)并進(jìn)行處理后將分析結(jié)果出售給相關(guān)企業(yè)獲利，雙方關(guān)于第三方是否有權(quán)爬取網(wǎng)站信息展開長達(dá)五年的訴訟拉鋸。最終，該案以法院裁定HiQ違反LinkedIn用戶協(xié)議，賠償50萬美元并禁止其未經(jīng)同意自動(dòng)化訪問復(fù)制數(shù)據(jù)告終。

今年4月，作為OpenAI ChatGPT、谷歌Bard等多個(gè)公司大語言模型的重要數(shù)據(jù)來源，美國社交媒體平臺(tái)Reddit宣布將向訪問其應(yīng)用程序編程接口的公司收費(fèi)，不再免費(fèi)為科技巨頭提供免費(fèi)的數(shù)據(jù)內(nèi)容。隨后，Twitter（現(xiàn)名X）CEO馬斯克亦公開指責(zé)微軟非法使用Twitter數(shù)據(jù)訓(xùn)練AI模型，并聲稱將就此起訴微軟。

為應(yīng)對(duì)可能的合規(guī)爭(zhēng)議，OpenAI在發(fā)布GPTBot時(shí)也為網(wǎng)站所有者提供了屏蔽爬蟲的方法——只要在網(wǎng)站的robots.txt（爬蟲協(xié)議）中添加對(duì)應(yīng)代碼，即可禁止或允許GPTBot訪問爬取部分網(wǎng)站內(nèi)容。

但這種把球踢給網(wǎng)站所有者的做法也并不能完全避免合規(guī)風(fēng)險(xiǎn)。一個(gè)最為突出的問題是，網(wǎng)站只是網(wǎng)絡(luò)信息的展示平臺(tái)，網(wǎng)站所有者并不天然具有其他網(wǎng)民發(fā)布在網(wǎng)站上信息內(nèi)容的所有權(quán)，即便爬蟲方取得網(wǎng)站所有者同意，其爬取網(wǎng)站信息的行為依然可能觸犯內(nèi)容發(fā)布者的版權(quán)權(quán)益。

王新銳表示，相關(guān)信息的安全程度將取決于OpenAI是否將對(duì)相關(guān)信息采取有效的安全技術(shù)保障措施，如加密等，但這也并不能完全排除過濾后數(shù)據(jù)爬取仍可能獲取一定個(gè)人可識(shí)別信息的可能性。

近年來，各國也在不斷加強(qiáng)與細(xì)化人工智能訓(xùn)練數(shù)據(jù)的合規(guī)要求。例如我國最新發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》中也明確提出“生成式人工智能服務(wù)提供者應(yīng)依法開展預(yù)訓(xùn)練、優(yōu)化訓(xùn)練等訓(xùn)練數(shù)據(jù)處理活動(dòng)，包括使用具有合法來源的數(shù)據(jù)和基礎(chǔ)模型；涉及知識(shí)產(chǎn)權(quán)的，不得侵害他人依法享有的知識(shí)產(chǎn)權(quán)”等要求。

除版權(quán)問題外，個(gè)人隱私同樣是網(wǎng)頁爬蟲在獲取數(shù)據(jù)時(shí)難以避免的敏感問題，雖然OpenAI承諾GPTBot爬取的網(wǎng)頁將被過濾篩選以“去除已知包含個(gè)人信息的來源”，以試圖從網(wǎng)站類型與源頭控制對(duì)個(gè)人可識(shí)別信息的收集，但在具體實(shí)踐中技術(shù)的有效程度仍有待檢驗(yàn)。

王新銳表示，相關(guān)信息的安全程度將取決于OpenAI是否將對(duì)相關(guān)信息采取有效的安全技術(shù)保障措施，如加密等，但這也并不能完全排除過濾后爬蟲仍可能獲取一定個(gè)人可識(shí)別信息的可能性。

應(yīng)對(duì)數(shù)據(jù)困局

正如前文所言，作為近年乘AI熱潮興起而嶄露頭角的新興公司，數(shù)據(jù)積累將成為OpenAI在未來產(chǎn)業(yè)競(jìng)爭(zhēng)中重要的短板，而在進(jìn)一步獲取數(shù)據(jù)的過程中，來源與流程合規(guī)以及愈加嚴(yán)格的監(jiān)管也將成為其不得不面臨的兩難。

在這樣的背景下，效仿其他的互聯(lián)網(wǎng)平臺(tái)的合規(guī)舉措，在法規(guī)與行業(yè)框架的模糊地帶盡可能拓展數(shù)據(jù)來源，成為包括OpenAI在內(nèi)大多數(shù)人工智能開發(fā)者的選擇。

例如，提供給網(wǎng)站所有者爬蟲屏蔽方式的舉措，也是承襲自其他互聯(lián)網(wǎng)公司的既有做法。在谷歌官網(wǎng)，同樣對(duì)其使用的一系列爬蟲程序和用戶代理字符串也均進(jìn)行了公示說明，明確網(wǎng)站所有者可以通過將Googlebot, Googlebot Image, Googlebot News等爬蟲程序添加到站點(diǎn)robots. txt中來禁止其訪問網(wǎng)站。

但正如此前OpenAI已陷入藝術(shù)家與作家就版權(quán)問題對(duì)其發(fā)起的訴訟，相同的做法無論在美國或是其他國家，都面臨著不容忽視的合規(guī)問題。

王新銳表示，相較而言，我國的法律法規(guī)顯然對(duì)數(shù)據(jù)爬取采取了更嚴(yán)格的監(jiān)管路徑。在我國數(shù)據(jù)爬取受到多部法律法規(guī)的監(jiān)管，一旦超過合法收集、利用的限度，數(shù)據(jù)爬取將存在侵犯?jìng)€(gè)人信息權(quán)益、侵犯知識(shí)產(chǎn)權(quán)、不正當(dāng)競(jìng)爭(zhēng)以及危害計(jì)算機(jī)信息系統(tǒng)類的違法甚至犯罪風(fēng)險(xiǎn)，需承擔(dān)相應(yīng)民事、行政乃至刑事責(zé)任。

而隨著數(shù)據(jù)資源枯竭的危機(jī)一步步逼近，方興未艾的人工智能產(chǎn)業(yè)在加足馬力發(fā)展的同時(shí)，又該如何應(yīng)對(duì)模型“養(yǎng)料”供應(yīng)不足這一現(xiàn)實(shí)問題？

熊輝指出，在產(chǎn)業(yè)發(fā)展初期，各大公司肯定會(huì)窮盡一切可能的方法獲取其能夠接觸的所有數(shù)據(jù)，早期的數(shù)據(jù)獲取方式在市場(chǎng)驅(qū)動(dòng)下必然是粗獷式的；而隨著數(shù)據(jù)資源逐漸耗盡，下一步企業(yè)的數(shù)據(jù)利用也會(huì)在管理驅(qū)動(dòng)下更為精細(xì)化數(shù)據(jù)質(zhì)量控制，例如做更為細(xì)致的數(shù)據(jù)標(biāo)注與清洗；在此之后，如果想進(jìn)一步挖掘數(shù)據(jù)價(jià)值，則有賴于進(jìn)一步創(chuàng)新，其中包括數(shù)據(jù)來源與數(shù)據(jù)利用方式的創(chuàng)新，例如通過拆解流程、劃分步驟的方式，豐富數(shù)據(jù)內(nèi)容的維度。

“打個(gè)比方，對(duì)于一年級(jí)還未接觸復(fù)雜乘除計(jì)算的小朋友，51÷3的數(shù)學(xué)問題比較復(fù)雜，但是將其拆解為(30+21)÷3后，就可以將其分為30÷3與21÷3兩個(gè)九九乘法表可以解決的簡(jiǎn)單問題，與純粹由AI生成的數(shù)據(jù)不同，這一基于人類生成數(shù)據(jù)拆解所產(chǎn)生的步驟數(shù)據(jù)，在AI訓(xùn)練中也是有價(jià)值的?！毙茌x表示，通過人工或AI輔助，數(shù)據(jù)資源的進(jìn)一步開發(fā)與挖掘?qū)⑹蔷徑鈹?shù)據(jù)枯竭問題的主要途徑。

近日，繼日本畫師、好萊塢從業(yè)者等群體后，多家海外媒體機(jī)構(gòu)也加入呼吁保護(hù)生成式人工智能訓(xùn)練數(shù)據(jù)版權(quán)的行列中。在法新社、歐洲新聞圖片社等媒體簽署的一封公開信中，其督促全球立法者考慮制定法規(guī)，增強(qiáng)人工智能訓(xùn)練數(shù)據(jù)來源透明度，并在獲取數(shù)據(jù)前征求權(quán)利人同意。

隨著AI產(chǎn)業(yè)的進(jìn)一步發(fā)展及各行業(yè)和群體對(duì)數(shù)據(jù)價(jià)值與權(quán)利意識(shí)的覺醒，如何構(gòu)建數(shù)據(jù)生產(chǎn)方、持有方與數(shù)據(jù)使用方之間的權(quán)利義務(wù)關(guān)系，成為從監(jiān)管到每一個(gè)互聯(lián)網(wǎng)參與者都需要面對(duì)的現(xiàn)實(shí)問題。

關(guān)鍵詞：

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件，均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"，并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。

OpenAI公開網(wǎng)頁爬蟲工具：資源枯竭壓力下，2023-08-11
開啟音樂盛宴讓世界聆聽來自青海的聲音2023-08-11
財(cái)政部、應(yīng)急管理部預(yù)撥14.6億元中央自然災(zāi)2023-08-11
再撥14.6億，中央財(cái)政已下達(dá)防汛救災(zāi)資金772023-08-11
山東齊河：康養(yǎng)成新興產(chǎn)業(yè)2023-08-11
甘肅東中部多地出現(xiàn)暴雨已啟動(dòng)洪水防御Ⅳ2023-08-11
北京發(fā)布暴雨、雷電預(yù)警：多區(qū)域短時(shí)強(qiáng)降雨2023-08-11
商務(wù)部部長王文濤出席中國-南非企業(yè)貿(mào)易對(duì)2023-08-11
五仁月餅餡料配方12個(gè)75克?2023-08-11
A股三大指數(shù)均跌逾2%：北向資金凈賣出123億2023-08-11
你是年少的歡喜類似的句子你是年少的歡喜2023-08-11
N科凈源大漲近185%，觸發(fā)二次臨停2023-08-11
淡季搏殺？11天內(nèi)十品牌“官降”、最高下調(diào)2023-08-11
財(cái)政部、應(yīng)急管理部再次緊急預(yù)撥14.6億元中2023-08-11
湖南女子夜泳溺亡官方調(diào)查2023-08-11
贛州碧桂園地產(chǎn)被強(qiáng)執(zhí)934萬碧桂園旗2023-08-11
?？低暤仍跍刂莩闪⒖萍脊? 含AI軟2023-08-11
長沙開福城投成功發(fā)行10.41億中票利率為3.22%2023-08-11
南財(cái)話你知丨出境團(tuán)隊(duì)游再擴(kuò)容78個(gè)國家，土2023-08-11
汽車周動(dòng)態(tài)2023-08-11
8月11日生意社棕櫚油基準(zhǔn)價(jià)為7540.00元/噸2023-08-11
昆明行政區(qū)域劃分附各縣街道名稱2023-08-11
福耀科技大學(xué)迎來新任校長2023-08-11
市場(chǎng)經(jīng)營主體活力迸發(fā) 經(jīng)濟(jì)運(yùn)行回升向好—2023-08-11
邊追更邊與書中角色暢聊，瀟湘書院上線“筑2023-08-11
財(cái)政部、應(yīng)急管理部預(yù)撥14.6億元中央自然災(zāi)2023-08-11
注意！京津冀再現(xiàn)強(qiáng)降雨或與前期落區(qū)高度2023-08-11
食物燒熟煮透、合理儲(chǔ)存市場(chǎng)監(jiān)管總局發(fā)布2023-08-11
N科凈源漲184.91% 觸發(fā)二次臨停2023-08-11
天然氣價(jià)格突然暴漲40% 歐洲收寒冬的2023-08-11

“數(shù)據(jù)荒”會(huì)到來嗎

爬蟲爭(zhēng)議

應(yīng)對(duì)數(shù)據(jù)困局

新視野

資訊

焦點(diǎn)