南方財(cái)經(jīng)全媒體記者 馮戀閣 21世紀(jì)經(jīng)濟(jì)報(bào)道記者 王俊北京、廣州報(bào)道
(相關(guān)資料圖)
“盡管制定了購(gòu)買和使用個(gè)人信息的協(xié)議,但被告采取了不同的方法:竊取?!苯眨慌涿耸恳源藶槔碛?,向OpenAI,以及其投資方之一的微軟公司發(fā)起集體訴訟。
起訴書稱,OpenAI從互聯(lián)網(wǎng)上竊取了3000億個(gè)單詞,它們來自“書籍、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個(gè)人信息”。
目前這些指控仍是一面之詞。不過,這已經(jīng)不是這家公司第一次陷入數(shù)據(jù)安全、個(gè)人信息泄露相關(guān)的指控了。
“OpenAI是否按照其隱私政策合法合理地收集并利用用戶個(gè)人信息,以及是否有效識(shí)別并剔除其訓(xùn)練數(shù)據(jù)來源中‘偶然’包含的個(gè)人信息??赡苁窃撈鹪V訟的爭(zhēng)議焦點(diǎn)所在?!北本┐蟪陕蓭熓聞?wù)所高級(jí)合伙人鄧志松表示。
以大模型原理構(gòu)建的生成式人工智能產(chǎn)品,是算力與數(shù)據(jù)加持下的“暴力美學(xué)”,數(shù)據(jù)是門檻,語料庫海量數(shù)據(jù)存在高度的數(shù)據(jù)合規(guī)風(fēng)險(xiǎn)。擁有1億用戶、數(shù)十億訪問量的ChatGPT因?yàn)椤皹浯蟆逼鋯栴}首當(dāng)其沖,但以數(shù)據(jù)為基石的大模型,數(shù)據(jù)安全問題正變得越來越重要,甚至可能成為產(chǎn)品的“阿克琉斯之踵”。
AI新秀變“數(shù)據(jù)小偷”?
根據(jù)ChatGPT的開發(fā)者OpenAI提供的信息,ChatGPT的三個(gè)主要信息來源是互聯(lián)網(wǎng)上的公開信息、從第三方處通過許可獲取的信息以及用戶或模型訓(xùn)練者提供的信息(如用戶與ChatGPT的聊天記錄)。
這份將近160頁的起訴書聲稱,OpenAI 秘密從互聯(lián)網(wǎng)上竊取了 3000 億個(gè)單詞,竊聽了“書籍、文章、網(wǎng)站和帖子——包括未經(jīng)同意獲得的個(gè)人信息”。
具體而言,該集體訴訟的原告認(rèn)為,為了贏得“人工智能軍備競(jìng)賽”,OpenAI從ChatGPT的交互對(duì)話以及集成ChatGPT的應(yīng)用程序中“收集、存儲(chǔ)、跟蹤、共享和披露”數(shù)百萬人的個(gè)人信息,包括產(chǎn)品詳細(xì)信息、帳戶信息、姓名、聯(lián)系方式、登錄憑據(jù)、電子郵件、支付信息、交易記錄、瀏覽器數(shù)據(jù)、社交媒體信息、聊天日志、使用數(shù)據(jù)、分析、cookie、搜索和其他在線活動(dòng)。
原告認(rèn)為,此舉違反了服務(wù)協(xié)議條款以及州和聯(lián)邦的隱私和財(cái)產(chǎn)法。起訴書指出,這一數(shù)據(jù)竊取行為的受害人預(yù)計(jì)有數(shù)百萬,潛在損失達(dá) 30 億美元。原告訴求則是,要求法院暫時(shí)凍結(jié) OpenAI 產(chǎn)品的商業(yè)訪問和進(jìn)一步開發(fā)。
鄧志松告訴21世紀(jì)經(jīng)濟(jì)報(bào)道記者,ChatGPT運(yùn)行的原理通過“閱讀”大量現(xiàn)有文本并學(xué)習(xí)詞語在上下文中的出現(xiàn)方式來預(yù)測(cè)可能出現(xiàn)在回應(yīng)中的最可能的詞語。此前,OpenAI方面聲稱不會(huì)“主動(dòng)”收集個(gè)人信息用于模型訓(xùn)練,但各渠道訓(xùn)練數(shù)據(jù)可能“偶然”包含個(gè)人信息,人工智能模型可能會(huì)從中了解如何在回應(yīng)用戶時(shí)正確使用人名、地址等信息,同時(shí)它們堅(jiān)稱這些信息不會(huì)被用于建立用戶畫像、廣告推廣等商業(yè)用途。
“OpenAI是否按照其隱私政策合法合理地收集并利用用戶個(gè)人信息,以及是否有效識(shí)別并剔除其訓(xùn)練數(shù)據(jù)來源中‘偶然’包含的個(gè)人信息。這兩個(gè)問題可能是該起訴訟的爭(zhēng)議焦點(diǎn)所在?!编囍舅煞治觯唇?jīng)用戶許可擅自抓取并利用其個(gè)人信息,可能涉嫌違反所在司法轄區(qū)的個(gè)人信息保護(hù)法律法規(guī),并構(gòu)成民事侵權(quán)。
不過,受訪專家也指出,目前“竊取”暫時(shí)仍是原告方的一面之詞,還不能據(jù)此貿(mào)然將OpenAI所實(shí)施的個(gè)人信息收集活動(dòng)定性為違法行為。
如何理解數(shù)據(jù)“竊取”
綜合來看,合規(guī)、知情-同意成為這起訴訟的風(fēng)暴眼。
“第一是信息的來源,尤其是訓(xùn)練用的物料是否能說得清、是否合規(guī);第二,在與用戶交互的過程中是否涉及到了用戶的隱私信息。”數(shù)安信CTO崔維友也指出,“竊取”很可能是在用戶沒有充分知情的情況下拿到了用戶的個(gè)人數(shù)據(jù)。
“盡管 OpenIAI對(duì)其數(shù)據(jù)收集和做法 ‘絕對(duì)保密’,但就我們了解,該公司使用(至少)5個(gè)不同的數(shù)據(jù)集來訓(xùn)練ChatGPT?!备鶕?jù)起訴書陳述,OpenAI使用的數(shù)據(jù)集中有部分?jǐn)?shù)據(jù)的抓取并不合規(guī)。
以WebTex2這一OpenAI "專有 "人工智能語料庫為例。原告指出,為了構(gòu)建這一語料庫,OpenAI抓取了社交媒體網(wǎng)站Reddit上所有獲得至少3個(gè) "喜歡"(在Reddit上被稱為 "Karma "投票)的帖子所鏈接的所有網(wǎng)頁,以及Reddit帖子和相關(guān)評(píng)論。而Reddit中受歡迎的內(nèi)容除了來自其網(wǎng)站本身,還包括大量來自YouTube、Facebook、TikTok和Instagram等社交媒體的鏈接。這些鏈接及與之關(guān)聯(lián)的個(gè)人信息在沒有通知相關(guān)方獲得同意的情況下被大量抓取。
值得注意的是,公開資料顯示,今年4月,Reddit官方宣布將對(duì)調(diào)用其API的公司收費(fèi),原因正是OpenAI、谷歌等公司利用該平臺(tái)上的數(shù)據(jù)訓(xùn)練模型。
袁立志指出,當(dāng)前人工智能大模型訓(xùn)練數(shù)據(jù)主要有應(yīng)用存量數(shù)據(jù)、商業(yè)和開放數(shù)據(jù)、公共互聯(lián)網(wǎng)數(shù)據(jù)和用戶使用數(shù)據(jù)等幾大來源,而不同的數(shù)據(jù)源的使用則各有不同優(yōu)劣。“要做到完全合規(guī),并不容易?!彼毖?。
數(shù)據(jù)安全——大模型產(chǎn)品的“必答題”
人工智能發(fā)展的突破得益于高質(zhì)量數(shù)據(jù)的發(fā)展。大模型的最新進(jìn)展依賴于更高質(zhì)量、更豐富的訓(xùn)練數(shù)據(jù)集。如何判斷數(shù)據(jù)收集行為以及留存的數(shù)據(jù)內(nèi)容是否合規(guī),已成為當(dāng)前相關(guān)技術(shù)發(fā)展亟待解決的問題,更是大模型產(chǎn)品未來健康發(fā)展的關(guān)鍵。
“雖然ChatGPT表示,存儲(chǔ)訓(xùn)練和運(yùn)行模型所需的數(shù)據(jù)會(huì)嚴(yán)格遵守隱私和安全政策,但在未來可能出現(xiàn)網(wǎng)絡(luò)攻擊和數(shù)據(jù)爬取等現(xiàn)象,仍存在不可忽視的數(shù)據(jù)安全隱患。特別是涉及國(guó)家核心數(shù)據(jù)、地方和行業(yè)重要數(shù)據(jù)以及個(gè)人隱私數(shù)據(jù)的抓取、處理以及合成使用等過程,需平衡數(shù)據(jù)安全保護(hù)與流動(dòng)共享?!蹦祥_大學(xué)法學(xué)院副院長(zhǎng)、中國(guó)新一代人工智能發(fā)展戰(zhàn)略研究院特約研究員陳兵說。
大成律師事務(wù)所高級(jí)合伙人肖颯則強(qiáng)調(diào)了AI技術(shù)“文本數(shù)據(jù)挖掘功能”潛藏的合規(guī)風(fēng)險(xiǎn)。她表示,該功能不僅可以“主動(dòng)”搜集和存儲(chǔ)數(shù)據(jù),并且能在不斷的數(shù)據(jù)處理過程中形成自己的處理模式。若其所搜集的數(shù)據(jù)(含個(gè)人信息)并未取得合法授權(quán),相關(guān)的處理活動(dòng)就可能涉嫌違法違規(guī)。
這已經(jīng)不是ChatGPT第一次陷入數(shù)據(jù)泄露的風(fēng)波。今年3月,其Redis 開源庫中的錯(cuò)誤導(dǎo)致本 ChatGPT 服務(wù)中暴露了其他用戶的個(gè)人信息和聊天標(biāo)題。在ChatGPT被接連發(fā)現(xiàn)意外泄露用戶聊天記錄后,意大利數(shù)據(jù)保護(hù)局(Garante per la Protezione dei Dati Personali)于3月底宣布將暫時(shí)禁用ChatGPT并對(duì)該工具涉嫌違反隱私規(guī)則展開調(diào)查。 加拿大也對(duì)OpenAI“未經(jīng)同意收集、使用和披露個(gè)人信息”的投訴進(jìn)行調(diào)查。
但這并不是OpenAI這家公司、ChatGPT這個(gè)產(chǎn)品的個(gè)例,其暴露出的隱私泄露、存儲(chǔ)敏感信息、未授權(quán)訪問等數(shù)據(jù)安全問題是大模型產(chǎn)品落地應(yīng)用后可能普遍面臨的問題。
CCIA數(shù)據(jù)安全工作委員會(huì)指出,大模型使用來自互聯(lián)網(wǎng)的公開文本數(shù)據(jù)作為預(yù)訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可能包含一些用戶的個(gè)人信息,這些信息可能被LLM無意中學(xué)習(xí)和記憶,并在后續(xù)的應(yīng)用中泄露出來。預(yù)訓(xùn)練和微調(diào)過程中需要對(duì)數(shù)據(jù)進(jìn)行收集、存儲(chǔ)、分析和處理,這些操作可能會(huì)侵犯用戶的個(gè)人信息權(quán)利,如知情權(quán)、選擇權(quán)、刪除權(quán)等。用戶可能沒有充分的意識(shí)和能力來保護(hù)自己的個(gè)人信息,也沒有足夠的透明度和監(jiān)督機(jī)制來確保數(shù)據(jù)處理方遵守相關(guān)的法律法規(guī)和倫理規(guī)范。
并且,由于參數(shù)量巨大,大模型需要借助分布式計(jì)算和云服務(wù)等技術(shù)來進(jìn)行訓(xùn)練和部署,這就增加了數(shù)據(jù)被竊取、篡改、濫用或泄露的風(fēng)險(xiǎn)。
自ChatGPT發(fā)布后,中國(guó)企業(yè)目前已經(jīng)發(fā)布了超70個(gè)基礎(chǔ)大模型。雨后春筍般的大模型,在接下來商用過程中如何做到數(shù)據(jù)合規(guī),已經(jīng)成為每一個(gè)產(chǎn)品需要面對(duì)的“必答題”。
在袁立志看來,未來,針對(duì)不同的數(shù)據(jù)來源,企業(yè)應(yīng)采取不同手段保證訓(xùn)練數(shù)據(jù)合規(guī)。原有業(yè)務(wù)的存量數(shù)據(jù),如果用以大模型訓(xùn)練,屬于變更使用,需要再次得到用戶同意;如果爬取互聯(lián)網(wǎng)公開數(shù)據(jù),則需做好數(shù)據(jù)清理、匿名化等處理,同時(shí)注意爬蟲技術(shù)本身的法律風(fēng)險(xiǎn);如果購(gòu)買商用數(shù)據(jù)或者使用開源數(shù)據(jù),則需要企業(yè)內(nèi)做好相關(guān)合規(guī)審查,保障安全。至于用戶使用過程中產(chǎn)生的數(shù)據(jù),如與大模型對(duì)話的聊天記錄,C端數(shù)據(jù)在事前告知用戶獲得同意后使用;接入API使用的B端數(shù)據(jù),由于與企業(yè)高度相關(guān),模型默認(rèn)不會(huì)收集和使用。
“合規(guī)確實(shí)是后發(fā)的大模型訓(xùn)練者需要面對(duì)的棘手問題?!痹⒅咎寡?,從業(yè)者只能參照自身現(xiàn)實(shí)情況,選擇盡可能安全透明、成本可控的方法。
AI的浪潮不會(huì)停歇,如何掌好前行的船舵,在企業(yè)生存與合規(guī)生產(chǎn)間找到平衡向前,或許已經(jīng)成為第四次工業(yè)革命下的時(shí)代命題。
關(guān)鍵詞:
凡注有"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的稿件,均為環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶獨(dú)家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶",并保留"環(huán)球傳媒網(wǎng) - 環(huán)球資訊網(wǎng) - 環(huán)球生活門戶"的電頭。
- OpenAI被指控偷竊數(shù)據(jù)?數(shù)據(jù)安全成大模型產(chǎn)2023-06-30
- 國(guó)融證券屢遭監(jiān)管處罰 高層“大換血”或2023-06-30
- 河北興?。?ldquo;3+2”模式宣講黨的創(chuàng)新理論-2023-06-30
- 當(dāng)前視點(diǎn)!實(shí)際出資額超過注冊(cè)資本金怎么處2023-06-30
- 青你決賽曲目抄襲怎么回事?青春有你的組合2023-06-30
- 環(huán)球觀點(diǎn):今夏用電負(fù)荷持續(xù)攀升 能源央企2023-06-30
- “新三樣”產(chǎn)業(yè)鏈成能源轉(zhuǎn)型重要力量2023-06-30
- 2023年國(guó)家醫(yī)保目錄調(diào)整工作將啟動(dòng) 分為五2023-06-30
- 當(dāng)前熱門:忻州市成立調(diào)查組 核查代縣礦企2023-06-30
- 【全球熱聞】中國(guó)原奶產(chǎn)業(yè)現(xiàn)狀調(diào)查:供大于2023-06-30
- 7300gs(關(guān)于7300gs的基本詳情介紹)-環(huán)球信息2023-06-30
- 熱點(diǎn)聚焦:小米手機(jī)人像模式怎么設(shè)置2023-06-30
- 為什么宇智波斑要開發(fā)威裝須佐能乎,而不分2023-06-30
- 第十九屆中國(guó)西部國(guó)際博覽會(huì)開幕2023-06-30
- 世界今熱點(diǎn):山行的詩意是什么意思_古詩 2023-06-30
- 紐約股市三大股指29日漲跌互現(xiàn)2023-06-30
- OpenAI最強(qiáng)對(duì)手來襲?Inflection AI獲微軟2023-06-30
- 貴在營(yíng)造創(chuàng)新生態(tài)圈 重點(diǎn)聚焦2023-06-30
- 中國(guó)石化湖北石油踐行低碳發(fā)展戰(zhàn)略——讓中2023-06-30
- 世界新資訊:【忠陽車評(píng)】“500萬輛規(guī)模論2023-06-30
- 熱點(diǎn)在線丨北京海博思創(chuàng)科技股份有限公司堅(jiān)2023-06-30
- 鄉(xiāng)村夏日美如畫2023-06-30
- 宕石2023-06-30
- 謝霆鋒身高對(duì)比圖_謝霆鋒的身高|環(huán)球聚看點(diǎn)2023-06-30
- 煥新升級(jí),全新英仕派能在運(yùn)動(dòng)、內(nèi)飾、智能2023-06-30
- 腰腹吸脂重拾自信魅力!上海麗質(zhì)覃濤科普2023-06-30
- 世界短訊!為什么《斗羅大陸》這種毫無文化2023-06-30
- 焦點(diǎn)報(bào)道:股票600660(股票600775)2023-06-30
- 天天資訊:“田野日-2023”國(guó)際農(nóng)業(yè)展舉行2023-06-30
- 新型進(jìn)網(wǎng)許可標(biāo)志7月1日起啟用-最新快訊2023-06-30
- 天麻粉有改善睡眠質(zhì)量的作用嗎?天麻粉食用注意事項(xiàng)分享|天天微頭條
- 離職有必要轉(zhuǎn)靈活就業(yè)嗎?離職后怎么變成靈活就業(yè)?
- 安踏旗下的八個(gè)品牌有哪些?安踏的高端品牌是什么?
- 環(huán)球觀速訊丨如何確保建筑工程質(zhì)量標(biāo)準(zhǔn)?建筑工程質(zhì)量要求是什么?
- 當(dāng)前觀察:mindmanager怎么導(dǎo)出圖片? mindmanager怎么導(dǎo)出pdf?
- 青旅是什么?青年旅館是男女混住嗎?
- 環(huán)球快報(bào):承兌到期幾天內(nèi)要兌現(xiàn)?10萬元電子承兌沒到期兌現(xiàn)方法是什么?
- 合同詐騙罪案件流程是什么?如何判定欺詐合同? 當(dāng)前關(guān)注
- 網(wǎng)貸起訴法院受理嗎?網(wǎng)貸逾期的法律依據(jù)是什么?_每日?qǐng)?bào)道
- 什么是大宗交易?大宗交易買入的股票多久可以賣出?_環(huán)球新消息
資訊
- 為什么宇智波斑要開發(fā)威裝須佐能乎,而不分開對(duì)付千手柱間?
- 腰腹吸脂重拾自信魅力!上海麗質(zhì)覃濤科普
- 偏導(dǎo)數(shù)連續(xù)一定可微嗎_偏導(dǎo)
- 世界快看:張凌赫是誰呀,周圍人都沒看過他的???孫藝洲陳赫關(guān)系差?
- 深圳發(fā)展銀行杭州分行(關(guān)于深圳發(fā)展銀行杭州分行介紹)-天天視點(diǎn)
- 購(gòu)買國(guó)債怎么開戶?為什么不建議買國(guó)債?|天天消息
- 曾經(jīng)說過地老天荒是什么歌?愛我是你說的謊誰唱的歌詞是什么?
- 捷強(qiáng)裝備終止重大資產(chǎn)重組事項(xiàng) 兩次籌劃收購(gòu)卡迪諾科技均折戟
- 光貓的作用是什么?光貓和路由器是不是一樣的? 世界新動(dòng)態(tài)
- 萬付金是什么?首付可以多付幾萬嗎? 環(huán)球頭條
焦點(diǎn)
- 焦點(diǎn)消息!生產(chǎn)安全事故總共分為幾個(gè)等級(jí)?特別重大事故的定義是什么?
- 天天日?qǐng)?bào)丨基金賣出技巧是什么?基金為什么贖回份額比本金少?
- 經(jīng)常戴眼鏡會(huì)導(dǎo)致眼球變凸嗎?眼球變凸的原因可能有哪些?
- 全球即時(shí):火花塞多長(zhǎng)時(shí)間更換? 4個(gè)火花塞一般多少錢?
- 速看:個(gè)人版wps啟用宏設(shè)置方法是什么? Excel表格啟用宏步驟是什么?
- 農(nóng)業(yè)銀行為什么有結(jié)息交易?三個(gè)月結(jié)息33元流水大嗎?-焦點(diǎn)信息
- 全球通訊!oppo返回鍵怎么設(shè)置回來?oppo返回鍵震動(dòng)怎么設(shè)置?
- 天天消息!kb2699988是什么?補(bǔ)丁KB2699988怎么修復(fù)?
- 全球熱點(diǎn)評(píng)!現(xiàn)代悅動(dòng)1.6自動(dòng)擋真實(shí)油耗多少?悅動(dòng)1.6油耗百公里油耗高嗎?
- 楚河漢界與哪個(gè)歷史事件有關(guān)?楚河漢界在哪里?