小紅書提出 OvarNet 模型：開集預(yù)測的新SOTA，“萬物識別”新玩法-焦點資訊

2023-06-23 14:09:20 來源：量子位編輯：

在 CVPR2023 上，小紅書社區(qū)技術(shù)團隊提出了一項全新任務(wù) —— Open-vocabulary Object Attribute Recognition（面向開放詞匯的目標(biāo)檢測與屬性識別）。該任務(wù)旨在采用單一模型對圖像中任何類別目標(biāo)同時進(jìn)行定位、分類和屬性預(yù)測，從而推動目標(biāo)識別能力向更高的深度和廣度發(fā)展。

(資料圖片)

本文提出了 OvarNet 這一全新模型，OvarNet 基于海量多模態(tài)數(shù)據(jù)預(yù)訓(xùn)練的視覺語言模型開發(fā)，利用可獲得的目標(biāo)檢測和屬性識別數(shù)據(jù)進(jìn)行 Prompt Learning（提示式學(xué)習(xí)）。同時，為了進(jìn)一步獲得高度可用的 Zero-shot 識別能力，團隊從大規(guī)模圖文數(shù)據(jù)中提取細(xì)粒度的類別和屬性表示，進(jìn)行弱監(jiān)督學(xué)習(xí)。此外，小紅書還采用知識蒸餾的方式簡化模型計算復(fù)雜度，顯著提升 OvarNet 的實用性和時效性。實驗結(jié)果表明，OvarNet 在開集目標(biāo)檢測和屬性識別任務(wù)上取得了新 SOTA，證明了識別語義類別和屬性對于視覺場景理解的互補性。

理解視覺場景中的目標(biāo)一直以來都是計算機視覺發(fā)展的主要驅(qū)動力，例如，目標(biāo)檢測任務(wù)的目的是在圖像中定位出目標(biāo)并為其分配預(yù)定義的語義標(biāo)簽，如“汽車”、“人”或“杯子”。盡管目標(biāo)檢測算法取得了巨大的成功，但是這種任務(wù)定義在很大程度上簡化了人們對視覺世界的理解，因為一個視覺目標(biāo)除了語義類別外，還可以從許多其他方面進(jìn)行描述，例如，一輛公共汽車可以是“黃色”或“黑色”，一件襯衫可以是“條紋”或“無圖案”。因此，學(xué)習(xí)屬性可以補充類別級別的識別，從而獲得更全面更細(xì)粒度的視覺感知。

已有大量的研究表明，理解目標(biāo)的屬性可以極大地促進(jìn)目標(biāo)識別和檢測，甚至是對在訓(xùn)練集中極少出現(xiàn)或根本沒有的視覺目標(biāo)樣例。然而，這些開創(chuàng)性工作中所考慮的問題和今天的標(biāo)準(zhǔn)相去甚遠(yuǎn)，例如，屬性分類通常在以目標(biāo)為中心的圖像上進(jìn)行訓(xùn)練和評估，而且屬性的類別是固定的，有時甚至將目標(biāo)的類別作為已知的先驗。

在論文中，小紅書社區(qū)技術(shù)團隊考慮在開放詞匯場景下同時檢測目標(biāo)并分類屬性的任務(wù)，即模型僅在一組可見的目標(biāo)類別和屬性上進(jìn)行訓(xùn)練，但在測試時需要推廣到未見過的目標(biāo)類別和屬性，如下圖所示。完成這些任務(wù)能觀察到三個主要挑戰(zhàn)：(1) 首先，在現(xiàn)有的視覺語言模型中，例如 CLIP 和 ALIGN，從圖文對中學(xué)習(xí)得到的表示往往偏向于目標(biāo)類別，而不是屬性，這導(dǎo)致在直接用于屬性識別任務(wù)時存在特征不對齊的問題；(2) 其次，沒有理想的訓(xùn)練數(shù)據(jù)集同時包含三種類型（目標(biāo)框、類別和屬性）的標(biāo)注。據(jù)研究人員所知，只有 COCO Attributes 數(shù)據(jù)集提供這樣程度的標(biāo)注，但它的詞匯量相對有限 ( 196 個屬性，29 個類別)；(3) 第三，在統(tǒng)一框架下訓(xùn)練這三項任務(wù)仍未被探索，具有一定到挑戰(zhàn)性，即在開放詞匯場景下同時定位（“在哪里”）和描述目標(biāo)的語義類別和屬性（“是什么”）。

為了解決上述問題，小紅書社區(qū)技術(shù)團隊從一個簡單的架構(gòu)開始，稱為 CLIP-Attr。該架構(gòu)首先通過離線 RPN 從圖像中提取目標(biāo)候選框，然后通過比較屬性詞嵌入和候選目標(biāo)的視覺嵌入之間的相似度來實現(xiàn)開放式詞匯目標(biāo)屬性識別。為了更好地對齊屬性詞和候選目標(biāo)之間的特征，在文本編碼器端引入可學(xué)習(xí)的 prompt 向量，并在大量的圖文對數(shù)據(jù)上微調(diào)原始 CLIP 模型。為了進(jìn)一步提高模型效率，團隊提出了 OvarNet，這是一個統(tǒng)一的框架，可以在一次前向傳播中進(jìn)行檢測和屬性識別。

OvarNet 是通過在目標(biāo)檢測和屬性預(yù)測兩個數(shù)據(jù)集上訓(xùn)練，并通過蒸餾 CLIP-Attr 模型的知識來提高在 novel/unseen 屬性的性能。小紅書社區(qū)技術(shù)團隊提出的 OvarNet 是第一個可擴展的管道，在開放詞匯場景下可以同時定位目標(biāo)，并同時推斷視覺屬性和目標(biāo)類別。實驗結(jié)果表明，盡管只使用弱監(jiān)督的圖文對數(shù)據(jù)對 OvarNet 進(jìn)行蒸餾，但它在 VAW、MSCOCO、LSA 和 OVAD 數(shù)據(jù)集上的表現(xiàn)優(yōu)于先前的最新技術(shù)，展現(xiàn)了對新屬性和類別的強大泛化能力。

方法主要分為 3 步：首先，利用目標(biāo)檢測數(shù)據(jù)和屬性預(yù)測數(shù)據(jù)在開放詞匯場景下訓(xùn)練一個簡單的兩階段的方法；然后，通過利用大量的圖文對數(shù)據(jù)進(jìn)一步微調(diào)這個兩階段模型以提高在 novel/unseen 類別和屬性上的性能；最后，為了保證泛化性和前傳速度，團隊基于知識蒸餾的范式設(shè)計了一個一階段的算法。

2.1 兩階段算法

作為社交圖譜數(shù)據(jù)，數(shù)據(jù)的一致性至關(guān)重要。需要嚴(yán)格保證數(shù)據(jù)的最終一致性以及一定場景下的強一致性。為此，小紅書社區(qū)技術(shù)團隊采取了以下措施：

作為社交圖譜數(shù)據(jù)，數(shù)據(jù)的一致性至關(guān)重要。需要嚴(yán)格保證數(shù)據(jù)的最終一致性以及一定場景下的強一致性。為此，團隊采取了以下措施：

2.2 圖文對數(shù)據(jù)微調(diào)

首先，對圖文對數(shù)據(jù)進(jìn)行預(yù)處理，從句子中解析出類別詞、屬性詞、和名詞短語；隨后，使用預(yù)訓(xùn)練的 CLIP-Attr 對數(shù)據(jù)進(jìn)行偽標(biāo)簽標(biāo)注；最后為了避免噪聲標(biāo)簽的影響，通過多實例 NCE 損失進(jìn)行監(jiān)督訓(xùn)練。

下圖給出了利用海量圖文對數(shù)據(jù)微調(diào) CLIP-Attr 的網(wǎng)絡(luò)結(jié)構(gòu)圖。

2.3 單階段蒸餾算法

盡管通過預(yù)先計算的提議框和上述的 CLIP-Attr 模型可以實現(xiàn)開放詞匯目標(biāo)屬性預(yù)測，但其推理過程非常耗時，因為每一個裁剪后的區(qū)域都會輸入到視覺編碼器中。在這一部分，目標(biāo)是解決緩慢的推理速度，端到端地訓(xùn)練一個用于目標(biāo)檢測和屬性預(yù)測的 Faster-RCNN 類型的模型，稱為 OvarNet。圖像會被依次經(jīng)過視覺編碼器、類別無關(guān)的區(qū)域提議網(wǎng)絡(luò)和開放詞匯屬性分類網(wǎng)絡(luò)。

下圖是其整體網(wǎng)絡(luò)框架。為了提高模型處理未知類別和屬性的能力，進(jìn)一步加入了 CLIP-Attr 模型的額外知識進(jìn)行蒸餾。

小紅書社區(qū)技術(shù)團隊考慮的開放詞匯目標(biāo)屬性識別包括兩個子任務(wù)：開放詞匯目標(biāo)檢測和對所有檢測到的目標(biāo)進(jìn)行屬性分類。所采用的數(shù)據(jù)集有 MS-COCO、VAW、LSA 和 OVAD。為了評估模型的性能，在指標(biāo)評價上同時考慮 box-given 和 box-free 的設(shè)定，使用 mAP 進(jìn)行評價。

3.1 COCO 和 VAW 上的結(jié)果

3.2 OVAD 和 LSA 上的結(jié)果

3.3 一些可視化結(jié)果

本文探討了開放詞匯目標(biāo)檢測和屬性識別問題，即同時定位目標(biāo)并推斷它們的語義類別和視覺屬性。小紅書社區(qū)技術(shù)團隊從一個簡單的兩階段框架（ CLIP-Attr ）開始，使用預(yù)訓(xùn)練的 CLIP 對目標(biāo)提議進(jìn)行分類。為了更好地對齊以目標(biāo)為中心的視覺特征與屬性概念，在文本編碼器側(cè)使用可學(xué)習(xí)提示向量。在訓(xùn)練方面，采用聯(lián)合訓(xùn)練策略來利用目標(biāo)檢測和屬性預(yù)測數(shù)據(jù)集，并探索一種弱監(jiān)督訓(xùn)練方案，利用外部圖像-文本對增加識別新屬性的魯棒性。最后，為了提高計算效率，將 CLIP-Attr 的知識蒸餾到一種 Faster-RCNN 類型的模型中（稱為 OvarNet）。在 VAW、MS-COCO、LSA 和 OVAD 等四個不同的基準(zhǔn)評估中，團隊表明聯(lián)合訓(xùn)練目標(biāo)檢測和屬性預(yù)測有助于視覺場景理解，并大大優(yōu)于現(xiàn)有方法獨立處理兩個任務(wù)的方法，展示了強大的泛化能力，可以處理新的屬性和類別。

對內(nèi)容的充分理解，是實現(xiàn)內(nèi)容推薦和檢索的有效工具。在小紅書雙列布局場景下，對筆記封面圖篇的理解就顯得格外重要。采用本文所示的開集目標(biāo)屬性識別能力，可以在更細(xì)粒度上對封面圖進(jìn)行結(jié)構(gòu)化理解。比如除了可以檢測到人物之外，還可以進(jìn)一步標(biāo)記人物衣著、姿態(tài)等屬性，從而在進(jìn)行推薦和檢索時，實現(xiàn)更加智能和個性化的內(nèi)容推薦。此外，在構(gòu)建小紅書的內(nèi)容質(zhì)量體系時，通過對圖片的充分解析，能夠更精確地描述一篇筆記的質(zhì)量分級，進(jìn)而實現(xiàn)內(nèi)容基于質(zhì)量的差異化分發(fā)。

論文地址：https://arxiv.org/abs/2301.09506

陳科研

現(xiàn)博士就讀于北京航空航天大學(xué)，曾在 Proceedings of the IEEE、TGRS、CVPR 等發(fā)表多篇論文。主要研究方向為遙感圖像處理，多模態(tài)學(xué)習(xí)。

萊戈

小紅書生態(tài)算法團隊負(fù)責(zé)人。曾在 CVPR、ICCV、ECCV、TNNLS、TGRS 等會刊發(fā)表 10 余篇論文，曾獲 YouTube-VOS 視頻分割競賽 Top-3 排名，曾獲天池視覺分割大獎賽復(fù)賽第 1 名。主要研究方向：目標(biāo)跟蹤、視頻分割、多模態(tài)分類/檢索等。

湯神

小紅書智能創(chuàng)作團隊負(fù)責(zé)人。曾在 CVPR、ECCV、ICCV、TIFS、ACMMM 等會議與期刊發(fā)表近 20 篇論文。多次刷新 WiderFace 和 FDDB 國際榜單世界記錄，ICCV Wider Challenge 人臉檢測國際競賽冠軍，ICCV VOT 單目標(biāo)跟蹤冠軍，CVPR UG2+亞軍。

算法工程師-社區(qū)生態(tài)

崗位職責(zé)：

1. 職責(zé)包括但不限于圖文、視頻等多模態(tài)內(nèi)容的分類、檢索、去重等工作，旨在優(yōu)化平臺內(nèi)容生態(tài)、提升內(nèi)容質(zhì)量和分發(fā)效率，提高用戶體驗；

2. 負(fù)責(zé) CV 相關(guān)算法研發(fā)，包括但不限于：圖像/視頻分類、圖像檢測/分割、視頻理解、人臉識別、OCR、自監(jiān)督學(xué)習(xí)等；

3. 負(fù)責(zé) NLP 相關(guān)算法研發(fā)，包括但不限于：文本分析、語義分析、事件提取、分類、聚類、情感、問答、關(guān)系抽取、知識圖譜等；

4. 完成算法的快速實現(xiàn)以及大規(guī)模工業(yè)化部署，參與創(chuàng)新性算法的研究以及開發(fā)工作；提供系統(tǒng)解決方案，打造可復(fù)用的社區(qū)業(yè)務(wù)平臺能力，提升社區(qū)核心服務(wù)穩(wěn)定性；有互聯(lián)網(wǎng)內(nèi)容生態(tài)相關(guān)技術(shù)從業(yè)經(jīng)驗者優(yōu)先；

任職要求：

1. 計算機/電子信息/自動控制/軟件工程/數(shù)學(xué)等相關(guān)專業(yè)，碩士及以上學(xué)歷

2. 優(yōu)秀的分析、解決問題能力，對新技術(shù)充滿好奇，敢于挑戰(zhàn)高難度，善于提出解決方案并快速驗證；

3. 熟練掌握 PyTorch/TensorFlow 等深度學(xué)習(xí)框架中的至少一種；

4. 具備優(yōu)秀的編程能力和經(jīng)驗，熟悉 Python、C/C++、Java 等編程語言，具有扎實的數(shù)據(jù)結(jié)構(gòu)和算法功底；

5.具備優(yōu)秀的研究和創(chuàng)新能力，在CVPR/ ICCV/ ECCV 與 ICML/ ACL/ EMNLP/ KDD/ AAAI 等計算機視覺&自然語言處理&機器學(xué)習(xí)領(lǐng)域國際頂會或頂刊上發(fā)表過論文或workshop獲獎?wù)邇?yōu)先; 在國際競賽(如: ACM ICPC, Kaggle , KDD Cup 等)中獲得過優(yōu)異成績者優(yōu)先；

歡迎感興趣的朋友發(fā)送簡歷至：REDtech@xiaohongshu.com；

并抄送至：laige@xiaohongshu.com

NLP算法工程師-智能創(chuàng)作

崗位職責(zé)：

基于高質(zhì)量的小紅書內(nèi)容生態(tài)，研發(fā)實用領(lǐng)先的 NLP 智能創(chuàng)作技術(shù)，技術(shù)棧包括關(guān)鍵詞提取、情感分析、上下文理解、命名實體識別、詞性標(biāo)注、句法分析、機器翻譯、文本摘要、問答系統(tǒng)等，廣泛支持智能內(nèi)容創(chuàng)作需求，創(chuàng)造小紅書獨有的產(chǎn)品用戶價值。

任職要求：

1. 熟悉語言知識表示、多模態(tài)生成模型及 NLP 智能創(chuàng)作，在以下一個或多個領(lǐng)域有深入的研究及落地經(jīng)驗，包括但不限于：NLP 生成、文案創(chuàng)作、多輪對話、模型壓縮等

2. 具有優(yōu)秀的編程基礎(chǔ)及動手能力、良好的工作習(xí)慣，豐富的業(yè)務(wù)落地實戰(zhàn)經(jīng)驗，優(yōu)秀的快速學(xué)習(xí)能力

3. 敢于應(yīng)對實際挑戰(zhàn)，有堅韌的品質(zhì)、優(yōu)秀的自驅(qū)能力，善于主動溝通表達(dá)和團隊協(xié)作

4. 發(fā)表 ML/NLP 等頂會/期刊論文、取得權(quán)威競賽 Top 名次、ACM 編程國際競賽 Top 成績者優(yōu)先

歡迎感興趣的朋友發(fā)送簡歷至：REDtech@xiaohongshu.com；

并抄送至：tangshen@xiaohongshu.com

關(guān)鍵詞：

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件，均為環(huán)球傳媒網(wǎng)獨家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)"，并保留"環(huán)球傳媒網(wǎng)"的電頭。

新視野

資訊

焦點