• <rt id="2wkqu"><small id="2wkqu"></small></rt>
  • 探展WAIC|上海數交所總經理湯奇峰:語料庫建設挑戰(zhàn)主要集中于開放程度和數據質量兩方面
    2023-07-09 05:41:08 來源:鳳凰網 編輯:

    (圖片來源:圖蟲創(chuàng)意)


    (資料圖片僅供參考)

    “大模型建設中,語料庫是一個非常重要的方向?!?月8日,上海數交所總經理湯奇峰在“大模型時代下的數據要素流通”主題論壇中如是表示。他認為,大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。

    “語料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數交所希望通過加強數據要素建設提升語料庫建設效率?!睖娣灞硎?。

    藍鯨財經了解到,上海數交所官網已于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。

    關于語料庫建設的挑戰(zhàn),湯奇峰認為主要集中于開放程度和數據質量兩方面:“能否有大模型企業(yè)所需的高質量語料?目標對象愿不愿意開放數據?”由此,湯奇峰指出可以根據開放程度強弱和數據質量高低將語料數據生態(tài)機構分出四類供方。

    上海數據交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導市場主導、豐富種類提高質量、統(tǒng)一標準規(guī)范建設、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設大模型時代下的語料庫。

    湯奇峰指出,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題?!?/p>

    此外,上海數據交易所語料庫亦將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數據開放流通以提高該類供方開放數據積極性。針對開放程度高但數據質量低的機構,上海數交所語料庫則通過搭建專業(yè)化數商服務渠道提高數據質量。

    湯奇峰介紹道,上海數交所在建設語料庫時考慮的兩個維度與數交所對企業(yè)數據發(fā)展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數據自產自用階段。隨著企業(yè)數據的內部供給有限時,企業(yè)數據需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內部形成數據流通。到了第三個階段,企業(yè)累積的數據將開放給整個行業(yè),產業(yè)內形成標準。第四個階段,數據使用在資產化過程中會產生新的更高階業(yè)態(tài)。

    “語料庫采購已經在不少大模型企業(yè)成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設?!睖娣灞硎?。

    據悉,為更好打造高質量語料庫、圍繞語料數據共建數商生態(tài),上海數交所牽頭發(fā)起語料數據生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴上海人工智能實驗室、商湯科技、中國知網、瀾舟科技、OpenKG、拓爾思、新致和蜜度正式啟動該計劃,積極引導不同行業(yè)、不同領域、具有一定規(guī)模的高質量語料數據產品掛牌交易,推動人工智能大模型技術創(chuàng)新與應用落地,進一步豐富語料庫多樣性,助力數據要素市場建設。

    關鍵詞:

    相關閱讀
    分享到:
    版權和免責申明

    凡注有"環(huán)球傳媒網 - 環(huán)球資訊網 - 環(huán)球生活門戶"或電頭為"環(huán)球傳媒網 - 環(huán)球資訊網 - 環(huán)球生活門戶"的稿件,均為環(huán)球傳媒網 - 環(huán)球資訊網 - 環(huán)球生活門戶獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環(huán)球傳媒網 - 環(huán)球資訊網 - 環(huán)球生活門戶",并保留"環(huán)球傳媒網 - 環(huán)球資訊網 - 環(huán)球生活門戶"的電頭。

    久久激情五月网站,一本色道综合亚洲精品精品,午夜电影久久久久久,中文无码AV片在线 成a在线观看视频播放 婷婷色中文在线观看
  • <rt id="2wkqu"><small id="2wkqu"></small></rt>