21世紀(jì)經(jīng)濟(jì)報(bào)道記者王俊 南方財(cái)經(jīng)全媒體記者馮戀閣 實(shí)習(xí)生羅洛 北京、廣州報(bào)道“我們可能會(huì)收集公開(kāi)的在線信息或來(lái)自其他公共來(lái)源的信息,幫助訓(xùn)練Google的人工智能模型?!苯?,谷歌更新隱私政策,表示將利用網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)訓(xùn)練旗下的AI模型,相關(guān)條款已于7月1日生效。
谷歌的這一動(dòng)作引發(fā)爭(zhēng)議,單方面通知用戶的行為是否合法合規(guī)?此舉又是否有“囤數(shù)據(jù)”之嫌?
此前,Twitter和社交網(wǎng)站Reddit已經(jīng)采取措施,限制第三方對(duì)其API的訪問(wèn)。國(guó)外科技公司的一系列舉措背后,可能是大模型發(fā)展路上一個(gè)不可忽視的真相:訓(xùn)練數(shù)據(jù)的重要性愈發(fā)顯現(xiàn)。隨著大模型產(chǎn)業(yè)的快速發(fā)展,出于市場(chǎng)競(jìng)爭(zhēng)的需要,模型規(guī)模將快速膨脹,但同時(shí)可用于訓(xùn)練的數(shù)據(jù)供給相對(duì)不足,且未來(lái)日趨稀缺。
(相關(guān)資料圖)
未來(lái),數(shù)據(jù)或?qū)⒊蔀锳I發(fā)展的“兵家必爭(zhēng)之地”。
“囤數(shù)據(jù)”訓(xùn)練AI模型
近日,谷歌更新隱私政策,表示將利用網(wǎng)絡(luò)公開(kāi)數(shù)據(jù)訓(xùn)練旗下的AI模型。在隱私協(xié)議的“可公開(kāi)獲取的資源”一欄,谷歌提到:“我們可能會(huì)收集公開(kāi)的在線信息或來(lái)自其他公共來(lái)源的信息,幫助訓(xùn)練Google的人工智能模型?!痹摯竽P蛯?huì)為谷歌翻譯、谷歌旗下聊天機(jī)器人產(chǎn)品“Bard”及Cloud AI等產(chǎn)品和功能提供助力。
對(duì)比去年年底發(fā)布的上一版隱私政策,谷歌將“收集信息以幫助訓(xùn)練語(yǔ)言模型”的相關(guān)措辭更改為“訓(xùn)練人工智能模型”,并新增明確了自家AI產(chǎn)品對(duì)于數(shù)據(jù)的使用權(quán)利。這似乎意味著,谷歌在訓(xùn)練旗下聊天機(jī)器人及其他AI模型,或未來(lái)開(kāi)發(fā)AI產(chǎn)品的過(guò)程中,有權(quán)使用人們?cè)诰W(wǎng)上公開(kāi)發(fā)布的任意內(nèi)容。
南方財(cái)經(jīng)全媒體記者在檢索后發(fā)現(xiàn),7月5日,谷歌中文版隱私政策也已經(jīng)進(jìn)行同步更新。
在競(jìng)天公誠(chéng)律師事務(wù)所合伙人袁立志看來(lái),此次谷歌隱私政策的更新從實(shí)踐角度看不算重大變化?!盁o(wú)論在我國(guó)還是域外,對(duì)公開(kāi)數(shù)據(jù)的正常收集和使用,在一般情況下不算違法?!辈贿^(guò)他補(bǔ)充道,如果個(gè)人通過(guò)發(fā)送郵件等方式向信息處理者就相關(guān)使用表露明確拒絕,對(duì)其個(gè)人信息的收集和使用就應(yīng)當(dāng)停止。
北京大成律師事務(wù)所高級(jí)合伙人鄧志松也表示,就目前可獲得的信息而言,谷歌對(duì)收集與處理用戶個(gè)人信息的范圍和目的作出了詳細(xì)說(shuō)明,即使以歐盟GDPR項(xiàng)下更為嚴(yán)格的“告知-同意”規(guī)則為標(biāo)準(zhǔn),谷歌的這一收集與處理行為至少在形式上具有合法性。至于其實(shí)施過(guò)程中可能涉及的實(shí)質(zhì)合法性判斷,及由此可能對(duì)AI等行業(yè)產(chǎn)生的影響,則尚待進(jìn)一步觀察。
雖然此次更新并未對(duì)個(gè)人信息保護(hù)帶來(lái)影響,但暗藏背后的數(shù)據(jù)隱憂卻逐漸被公眾注意到。
“得數(shù)據(jù)者得天下”
數(shù)據(jù)是數(shù)字經(jīng)濟(jì)時(shí)代的“新石油”,處在時(shí)代中的人工智能技術(shù)亦受其影響。
以O(shè)penAI的幾代GPT模型為例,訓(xùn)練數(shù)據(jù)上,GPT-1預(yù)訓(xùn)練數(shù)據(jù)量?jī)H有5GB;到了GPT-2,這個(gè)數(shù)據(jù)則增加至40GB;而在GPT3模型下,OpenAI用以訓(xùn)練模型的數(shù)據(jù)集數(shù)據(jù)量達(dá)到了驚人的45TB。
“大模型時(shí)代,得數(shù)據(jù)者得天下?!睂?duì)外經(jīng)濟(jì)貿(mào)易大學(xué)數(shù)字經(jīng)濟(jì)與法律創(chuàng)新研究中心執(zhí)行主任張欣指出,一方面,訓(xùn)練數(shù)據(jù)是大模型訓(xùn)練的基石和燃料,如果沒(méi)有數(shù)據(jù),大模型的訓(xùn)練就無(wú)法開(kāi)展和持續(xù);另一方面,當(dāng)前技術(shù)領(lǐng)域的研究顯示,各家大模型在算法層區(qū)別并不大,并且具有同質(zhì)化的趨勢(shì)。在此背景下,訓(xùn)練數(shù)據(jù)就成了真正區(qū)分且影響大模型性能的重要因素之一。
需求漸長(zhǎng),供給端卻并未馬上配合。目前,有多家處在“數(shù)據(jù)提供端”的公司對(duì)數(shù)據(jù)抓取、開(kāi)源等做出了反應(yīng)。比如Twitter限制了用戶每天能查看的推文數(shù)量,幾乎使數(shù)據(jù)提供服務(wù)無(wú)法使用。馬斯克表示,這是對(duì)“數(shù)據(jù)抓取”和“系統(tǒng)操縱”的必要反應(yīng)。
今年1月,圖庫(kù)網(wǎng)站Getty Images對(duì)AI圖像生成器研發(fā)公司Stability AI提起法律訴訟,指其非法復(fù)制和處理版權(quán)圖像作為模型訓(xùn)練數(shù)據(jù)。4月,環(huán)球音樂(lè)集團(tuán)發(fā)函要求Spotify等音樂(lè)流媒體平臺(tái)切斷AI公司的訪問(wèn)權(quán)限,以阻止其版權(quán)歌曲被用于訓(xùn)練模型和生成音樂(lè)。
同樣在4月,Reddit官方宣布將對(duì)調(diào)用其API的公司收費(fèi),原因正是OpenAI、谷歌等公司利用該平臺(tái)上的數(shù)據(jù)訓(xùn)練模型。此外,IT技術(shù)問(wèn)答網(wǎng)站Stack Overflow也計(jì)劃向AI大模型的開(kāi)發(fā)者及公司收取數(shù)據(jù)訪問(wèn)費(fèi)用。
6月,中文在線、同方知網(wǎng)與中國(guó)工人出版社等國(guó)內(nèi)25家文化出版機(jī)構(gòu)發(fā)出共同倡議,強(qiáng)調(diào)“為人工智能學(xué)習(xí)模型提供可靠、穩(wěn)定、安全的內(nèi)容來(lái)源”等AIGC版權(quán)保護(hù)問(wèn)題的重要性。
科技公司的系列動(dòng)作,一定程度反映了數(shù)據(jù)的重要性。
在7月2日全球數(shù)字經(jīng)濟(jì)大會(huì)人工智能高峰論壇上,昆侖萬(wàn)維科技股份有限公司CEO方漢表示,高質(zhì)量數(shù)據(jù)對(duì)大模型發(fā)展至關(guān)重要。
“坦白地講,最近三年的大模型訓(xùn)練積累的是對(duì)豐富的預(yù)訓(xùn)練數(shù)據(jù)深度加工的能力。OpenAI所有公開(kāi)的論文和講演,對(duì)訓(xùn)練過(guò)程和訓(xùn)練算法都是公開(kāi)的,但其從不公開(kāi)模型結(jié)構(gòu)及數(shù)據(jù)處理?!狈綕h指出,目前全世界大模型預(yù)訓(xùn)練團(tuán)隊(duì)都試圖重現(xiàn)OpenAI在模型架構(gòu)的動(dòng)作以及預(yù)訓(xùn)練數(shù)據(jù)的動(dòng)作,任何一家企業(yè)的預(yù)訓(xùn)練數(shù)據(jù)加工能力都至關(guān)重要。
數(shù)據(jù)稀缺、分散難題何解?
數(shù)據(jù)的重要性不言而喻,高質(zhì)量數(shù)據(jù)更是稀缺品。
早在去年,一項(xiàng)來(lái)自Epoch Al Research團(tuán)隊(duì)的研究就揭示了一個(gè)殘酷的事實(shí):模型還要繼續(xù)做大,但數(shù)據(jù)卻不夠用了。研究結(jié)果表明,高質(zhì)量的語(yǔ)言數(shù)據(jù)存量將在2026年耗盡,低質(zhì)量的語(yǔ)言數(shù)據(jù)和圖像數(shù)據(jù)的存量則分別在2030年至2050年、2030年至2060年枯竭。
這意味著如果數(shù)據(jù)效率沒(méi)有顯著提高或沒(méi)有新的數(shù)據(jù)源可用,那么到2040年,模型的規(guī)模增長(zhǎng)將放緩。
百舸爭(zhēng)流是市場(chǎng)競(jìng)爭(zhēng)的常態(tài),但過(guò)分競(jìng)爭(zhēng)也有可能為行業(yè)帶來(lái)災(zāi)難。限制數(shù)據(jù)抓取,很可能導(dǎo)致新一輪的數(shù)據(jù)大戰(zhàn),進(jìn)而引發(fā)平臺(tái)之間屏蔽、數(shù)據(jù)壟斷等問(wèn)題。
國(guó)際標(biāo)準(zhǔn)化組織TC/154技術(shù)專家王翔指出,大模型的蓬勃發(fā)展對(duì)訓(xùn)練數(shù)據(jù)提出了很高的數(shù)量和質(zhì)量要求。在供給側(cè),人口增速、用網(wǎng)時(shí)間下降、制度性地理約束提高、高質(zhì)量數(shù)據(jù)匱乏等都在制約大模型未來(lái)發(fā)展,SOP化和轉(zhuǎn)發(fā)習(xí)慣也降低了供給能力;在需求側(cè),無(wú)論是主觀治理思路還是客觀基礎(chǔ)設(shè)施條件,以及大型語(yǔ)言模型所有者應(yīng)對(duì)市場(chǎng)的考量,都會(huì)持續(xù)強(qiáng)化數(shù)據(jù)壟斷。
此外,大模型訓(xùn)練中,面對(duì)的高質(zhì)量數(shù)據(jù)的稀缺、行業(yè)數(shù)據(jù)分散等問(wèn)題應(yīng)如何解決?
受訪專家指出,未來(lái)健康的生態(tài)需要市場(chǎng)側(cè)和監(jiān)管側(cè)等多方的共同建設(shè)維護(hù)。
“首先還是需要相信市場(chǎng)的力量”,袁立志指出,隨著優(yōu)質(zhì)數(shù)據(jù)的需求逐漸顯現(xiàn),各個(gè)市場(chǎng)主體都會(huì)被“無(wú)形的手”推動(dòng)向前。“數(shù)據(jù)資源的尋找、匯聚、清洗、標(biāo)注等各個(gè)環(huán)節(jié)預(yù)計(jì)都會(huì)因競(jìng)爭(zhēng)的活躍而不斷改善,以滿足市場(chǎng)需求?!彼硎?。
張欣則具體指出,目前行業(yè)內(nèi)的開(kāi)源數(shù)據(jù)集正在不斷增多,未來(lái)應(yīng)呼吁更多人工智能企業(yè)、從業(yè)者加入,建立更加良好的行業(yè)生態(tài)?!叭斯ぶ悄苡?xùn)練時(shí)的眾包思路也非常重要?!彼J(rèn)為,企業(yè)之外,還可以善用技術(shù)社群的力量提升并開(kāi)拓更多的高質(zhì)量數(shù)據(jù)集。
而監(jiān)管側(cè),在張欣看來(lái),從法律法規(guī)層面明確訓(xùn)練數(shù)據(jù)集的合法性獲取路徑是監(jiān)管下一步應(yīng)當(dāng)關(guān)注的重點(diǎn)?!爸挥忻鞔_了合法獲取的路徑,大模型訓(xùn)練者才有更穩(wěn)定的合規(guī)預(yù)期以開(kāi)展工作。”
袁立志認(rèn)為,監(jiān)管側(cè)數(shù)據(jù)要素市場(chǎng)的建設(shè)深入會(huì)為大模型領(lǐng)域的發(fā)展帶來(lái)良性影響?!皵?shù)據(jù)要素市場(chǎng)建設(shè)走深意味著數(shù)據(jù)流通利用全流程提速提效,自然也惠及大模型的訓(xùn)練數(shù)據(jù)收集?!?/p>
關(guān)鍵詞:
凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來(lái)源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門(mén)戶"的電頭。
- 每日熱文:谷歌更新隱私政策,大模型“諸神2023-07-05
- 21解藥|過(guò)度嗜睡、猝倒、睡眠癱瘓,我國(guó)“2023-07-05
- 觀點(diǎn):券業(yè)大財(cái)富④丨“人頭攢動(dòng)”時(shí)代遠(yuǎn)去2023-07-05
- 天天快報(bào)!珠海市市長(zhǎng)黃志豪:珠海要為推動(dòng)2023-07-05
- 世界觀焦點(diǎn):國(guó)家文物局、公安部:進(jìn)一步做2023-07-05
- 焦點(diǎn)熱文:國(guó)家文物局:加強(qiáng)主汛期防災(zāi)減災(zāi)2023-07-05
- 當(dāng)前觀點(diǎn):14部門(mén)聯(lián)合部署2023暑期兒童關(guān)愛(ài)2023-07-05
- 國(guó)網(wǎng)新邵縣供電公司:開(kāi)展設(shè)備巡視護(hù)航迎峰2023-07-05
- 南頭古城入選廣東第二批省級(jí)旅游休閑街區(qū)2023-07-05
- 天天精選!谷歌展示團(tuán)隊(duì)在量子計(jì)算機(jī)領(lǐng)域的2023-07-05
- 山東省養(yǎng)老金上調(diào)2023最新方案公布了嗎?202023-07-05
- 在“世界最美海灣”暢飲“醉”美的青島啤酒2023-07-05
- 比亞迪漢 VS 騰勢(shì)N7 貴10萬(wàn)!就差0.1米2023-07-05
- 【全球聚看點(diǎn)】阿巴斯甜致癌風(fēng)波下,代糖企2023-07-05
- 世界熱消息:蘋(píng)果頭顯減產(chǎn) A股產(chǎn)業(yè)鏈2023-07-05
- 專治高啟強(qiáng)同款干眼癥,諾華25億美元?jiǎng)冸x眼2023-07-05
- 轉(zhuǎn)化率與核銷率雙高,美團(tuán)通過(guò)直播釋放潛力2023-07-05
- 全面綠色時(shí)代到來(lái)?綠色債券融資額首次超越2023-07-05
- 全省唯一!這些警匪片“名場(chǎng)面”,都是他的2023-07-05
- Mysteel日?qǐng)?bào):全國(guó)冷軋板卷漲跌互現(xiàn) 庫(kù)存2023-07-05
- 新時(shí)代中國(guó)調(diào)研行·長(zhǎng)江篇丨因?yàn)檎湎?所以2023-07-05
- 雄安新區(qū)謀劃出海通道完善交通“微細(xì)血管”2023-07-05
- 特稿|中藥材漲成“金融藥”:誰(shuí)制造了這場(chǎng)2023-07-05
- 百事通!山東:到2025年培育壯大千家綠色高2023-07-05
- 西藏:數(shù)字經(jīng)濟(jì)加速融入國(guó)家“東數(shù)西算”格2023-07-05
- 媒體人:周琦的事今天不會(huì)有結(jié)果 雙方還在2023-07-05
- 當(dāng)愛(ài)心暑托班遇上社會(huì)大美育,開(kāi)啟快樂(lè)“藝2023-07-05
- 動(dòng)態(tài):三字經(jīng)兒歌歌詞大全(三字經(jīng)兒歌歌詞2023-07-05
- 億都(國(guó)際控股)(00259)7月5日耗資61.04萬(wàn)港2023-07-05
- 天天播報(bào):企業(yè)全球化戰(zhàn)略拓展,金融機(jī)構(gòu)呼2023-07-05
- 焦點(diǎn)訊息:fraps是什么軟件?fraps怎么使用?
- 酢漿草科是什么?酢漿草科的分布范圍是什么?
- 觀察:長(zhǎng)的漂亮卻命苦的面相長(zhǎng)啥樣?梯型臉對(duì)運(yùn)氣有影響嗎?
- 股票中kdj指標(biāo)是什么?什么是股票kdj指標(biāo)?_環(huán)球熱頭條
- 全球播報(bào):深股通和滬股通的有什么不同?怎樣區(qū)分深股和滬股?
- 筆記本電腦微信怎么登錄兩個(gè)賬號(hào)? 微信電腦版怎么退出登錄?
- mkv格式手機(jī)可以看嗎?蘋(píng)果不支持mkv視頻嗎? 焦點(diǎn)觀察
- 看點(diǎn):固定資產(chǎn)投資是什么?基金投資是什么意思?
- 空調(diào)怎么用比較省電?空調(diào)一級(jí)和三級(jí)有什么區(qū)別哪個(gè)好? 每日短訊
- 【環(huán)球新視野】法律規(guī)定飯店動(dòng)遷有哪些賠償?拆遷中的經(jīng)營(yíng)補(bǔ)償是補(bǔ)償給經(jīng)營(yíng)者還是房主?
資訊
- 全省唯一!這些警匪片“名場(chǎng)面”,都是他的日常
- 螺紋連接和卡扣連接的用處和使用在的部位(什么是絲接 熱熔連接 卡箍連接 絲扣連接)
- 倫鉛庫(kù)存再刷逾一年新高 滬鉛庫(kù)存降至一個(gè)月新低
- ?汝南縣和孝鎮(zhèn):充分發(fā)揮河長(zhǎng)制 全力做好防汛備汛 世界獨(dú)家
- 烏克蘭衛(wèi)生部發(fā)布核事故應(yīng)對(duì)指南 中使館提醒 環(huán)球關(guān)注
- 克萊斯勒標(biāo)志是什么 克萊斯勒屬于菲亞特嗎? 環(huán)球速看
- 【天天時(shí)快訊】火藥是什么時(shí)候發(fā)明的?火藥的發(fā)明者是誰(shuí)?一文了解清楚!
- ps5和ps4有什么區(qū)別?ps5可以用ps4的碟嗎_環(huán)球訊息
- 環(huán)球熱點(diǎn)評(píng)!75載傳奇延續(xù),路虎對(duì)全地形的詮釋
- 紅燒小黃魚(yú)怎么做?為什么不建議吃黃花魚(yú)? 環(huán)球視訊
焦點(diǎn)
- 環(huán)球今日訊!趣頭條賺錢(qián)是真的嗎安全嗎?趣頭條賺錢(qián)一天最多能賺多少?
- 天天新資訊:春榆的分布范圍是什么?春榆的繁殖方法是什么?
- 進(jìn)擊的巨人里的艾倫是好人還是壞人?艾倫是什么巨人? 即時(shí)
- 節(jié)假日也能股票開(kāi)戶嗎? 現(xiàn)在買股票開(kāi)戶需要多少錢(qián)?|觀熱點(diǎn)
- 環(huán)球播報(bào):公積金貸款怎么計(jì)息?公積金貸款流程是怎樣的?
- 環(huán)球熱頭條丨哪些人比較容易獲得加拿大簽證?哪些人容易遭拒簽?
- 頭條:基金贖回怎么計(jì)算?基金贖回凈值按哪一天計(jì)算?
- 要聞速遞:風(fēng)神藍(lán)鳥(niǎo)三代是進(jìn)口車嗎?風(fēng)神藍(lán)鳥(niǎo)三代怎么樣?
- 天天頭條:花唄有額度怎么不能掃碼支付了?花唄分期可以提前還款嗎?
- 什么叫事實(shí)勞動(dòng)關(guān)系(勞動(dòng)法律關(guān)系與事實(shí)勞動(dòng)關(guān)系的區(qū)別有哪些)