您好!歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站!
已投資訊 | 持續(xù)打造AGI新范式,云知聲-中國(guó)科學(xué)技術(shù)大學(xué)3篇論文入選國(guó)際頂會(huì)ACM MM 2023
發(fā)布時(shí)間:
2023-08-28 18:00
來(lái)源:
近日,國(guó)際頂會(huì)ACM MM 2023正式放榜,云知聲與中國(guó)科學(xué)技術(shù)大學(xué)於俊老師團(tuán)隊(duì)共同完成的3篇論文入選,成果覆蓋人類(lèi)對(duì)話(huà)參與度估計(jì)、VTQA挑戰(zhàn)、幽默檢測(cè)等研究方向;其基于3篇論文所構(gòu)建的3個(gè)系統(tǒng)也在Grand Challenge中獲得1個(gè)冠軍、2個(gè)季軍,充分展現(xiàn)了云知聲在多模態(tài)拓展領(lǐng)域的技術(shù)能力和學(xué)術(shù)成果的同時(shí),也為夯實(shí)云知聲AGI技術(shù)基座再添助力。
ACM MM(ACM International Conference on Multimedia)始于1993年,是計(jì)算機(jī)圖形學(xué)與多媒體領(lǐng)域的頂級(jí)國(guó)際會(huì)議,也是中國(guó)計(jì)算機(jī)學(xué)會(huì)推薦的多媒體領(lǐng)域A類(lèi)國(guó)際學(xué)術(shù)會(huì)議。本屆ACM MM有效投稿量達(dá)3072篇,接收論文902篇,接收率約為29.3%。
此次獲得國(guó)際頂會(huì)認(rèn)可,既是云知聲與中國(guó)科學(xué)技術(shù)大學(xué)通力合作、持續(xù)探索多模態(tài)拓展技術(shù)的結(jié)果,也離不開(kāi)云知聲AGI技術(shù)架構(gòu)的有力支撐。
云知聲:通過(guò)通用人工智能(AGI)創(chuàng)建互聯(lián)直覺(jué)的世界
云知聲AI技術(shù)體系及U+X戰(zhàn)略
作為中國(guó)AGI技術(shù)產(chǎn)業(yè)化的先驅(qū)之一,云知聲于2016年打造Atlas人工智能基礎(chǔ)設(shè)施,并構(gòu)建公司云知大腦(UniBrain)技術(shù)中臺(tái),以山海(UniGPT)通用認(rèn)知大模型為核心,包括多模態(tài)感知與生成、知識(shí)圖譜、物聯(lián)平臺(tái)等智能組件,并通過(guò)領(lǐng)域增強(qiáng)能力,為云知聲智慧物聯(lián)、智慧醫(yī)療等業(yè)務(wù)提供高效的產(chǎn)品化支撐,推動(dòng)“U(云知大腦)+X(應(yīng)用場(chǎng)景)”戰(zhàn)略落實(shí),踐行公司“通過(guò)通用人工智能(AGI)創(chuàng)建互聯(lián)直覺(jué)的世界”的使命。
作為云知大腦(UniBrain)的重要組件,多模態(tài)拓展技術(shù)目前已廣泛應(yīng)用于智能家居、車(chē)載、客服等領(lǐng)域,包括多模態(tài)感知、多模態(tài)生成等。此次論文收錄,充分印證了云知聲在多模態(tài)拓展領(lǐng)域的技術(shù)創(chuàng)新實(shí)力,也將進(jìn)一步夯實(shí)其AGI技術(shù)底座,推動(dòng)山海大模型在各領(lǐng)域的廣泛應(yīng)用。
接下來(lái),云知聲將繼續(xù)攜手中國(guó)科學(xué)技術(shù)大學(xué),加強(qiáng)基礎(chǔ)理論和關(guān)鍵技術(shù)的研發(fā),并以此為支撐,持續(xù)推進(jìn)“U+X”戰(zhàn)略,不斷拓展AGI應(yīng)用場(chǎng)景,加速千行百業(yè)的智慧化升級(jí),為人們的生活帶來(lái)更多便利和智能體驗(yàn)。
以下為入選論文及參賽系統(tǒng)概覽:
人類(lèi)對(duì)話(huà)參與度估計(jì)

人類(lèi)對(duì)話(huà)中的參與度估計(jì)一直是人與機(jī)器交互中最重要的研究課題之一。然而,以往的數(shù)據(jù)集和研究主要集中在video-wise level的參與度估計(jì),因此難以反映人類(lèi)不斷變化的參與度。在ACM MM上舉辦的MultiMediate '23 挑戰(zhàn)賽提供了frame-wise level參與度估計(jì)的任務(wù)。這個(gè)任務(wù)的輸入和輸出序列非常長(zhǎng)(至少 10,938 幀或更多),而 RNN 難以處理這種超長(zhǎng)輸入序列。Baseline建議使用多層感知器網(wǎng)絡(luò) (MLP),為每一幀輸入的特征輸出相應(yīng)的參與度,即Point2Point(P2P),但這通常會(huì)導(dǎo)致大量視頻上下文語(yǔ)義信息的丟失。
在本文中,我們利用Bi-LSTM和Transformer強(qiáng)大的序列建模能力,提出了Sliding Window Seq2seq Modeling for Engagement Estimation。該方法充分利用了參與者視頻中的全局和局部多模態(tài)特征信息,并能準(zhǔn)確表達(dá)參與者在每個(gè)時(shí)刻的參與情況。具體來(lái)說(shuō),我們從參與者的視頻中使用OpenFace2.0、OpenPose、Microsoft Kinect sensor、Soundnet、Geneva Minimum Acoustic Parameter Set (eGeMAPS)提取了多模態(tài)特征,包括視覺(jué)特征和音頻特征。然后,通過(guò)”Sliding Window”獲取子序列,初始視頻序列的窗口化保證了利用當(dāng)前時(shí)刻周?chē)男畔ⅲň植啃畔ⅲ?"Sliding window"則將每個(gè)子序列連接起來(lái),利用整個(gè)視頻序列的信息來(lái)估計(jì)當(dāng)前時(shí)刻的參與度(全局信息)。最后,輸入基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM)和Transformer的encoder部分分別設(shè)計(jì)的兩個(gè)Seq2seq Model,通過(guò)Seq2seq Modeling來(lái)獲得預(yù)測(cè)的參與度序列。我們驗(yàn)證了該方法明顯優(yōu)于之前的P2P 基線(xiàn),取得了SOTA 的水準(zhǔn),并在本次MultiMediate '23參與度估計(jì)比賽中取得了第一名的成績(jī)。
VTQA挑戰(zhàn)

Grand Challenge是ACM MM的重要組成部分,每年均會(huì)承辦多項(xiàng)比賽并在主會(huì)上公開(kāi)其技術(shù)方案,VTQA則是今年的十項(xiàng)比賽之一。在VTQA挑戰(zhàn)中,模型需要根據(jù)給定的圖像-文本對(duì)來(lái)回答問(wèn)題。為了正確回答問(wèn)題,提出的模型需要:
(1) 學(xué)習(xí)識(shí)別圖像和文本中與問(wèn)題相關(guān)的實(shí)體;
(2) 對(duì)相同實(shí)體的多媒體表示進(jìn)行對(duì)齊;
(3) 在文本和圖像之間進(jìn)行多步推理,并輸出開(kāi)放性答案。VTQA數(shù)據(jù)集包含10124個(gè)圖像-文本對(duì)和23,781個(gè)問(wèn)題。圖像來(lái)自MSCOCO數(shù)據(jù)集,包含各種實(shí)體。標(biāo)注時(shí)首先根據(jù)圖像注釋相關(guān)文本,然后基于圖像-文本對(duì)提出問(wèn)題,并最后以開(kāi)放性方式回答問(wèn)題。
在本文中,我們提出了基于答案的實(shí)體提取和對(duì)齊模型(AEEA),以實(shí)現(xiàn)VTQA問(wèn)題的全面理解同時(shí)支持多跳推理。AEEA 建立在 baseline模型KECMR的基礎(chǔ)上,并在三個(gè)方面進(jìn)行了改進(jìn):
(1) Aligned Key Entity Extraction:將 Modular Co-Attention(MCA)融入到 baseline模型的KEE 中,解決模態(tài)對(duì)齊和實(shí)體提取問(wèn)題;
(2) Unified Attention Cross-Media Reasoning:加入了一個(gè)額外的參數(shù)矩陣來(lái)控制模態(tài)內(nèi)和模態(tài)間的信息流;
(3) Answer Aware Predictor:我們將訓(xùn)練集中50%的問(wèn)題修改為包含答案的陳述句,以改進(jìn)提取的實(shí)體特征,使預(yù)測(cè)器能夠更準(zhǔn)確地預(yù)測(cè)答案。與基線(xiàn)相比,所提出的 AEEA 方法在驗(yàn)證集和測(cè)試集上分別提高了2.24%和1.06%,并在VTQA2023挑戰(zhàn)賽中獲得了第三名。
幽默檢測(cè)

MuSe-Humor挑戰(zhàn)是第四屆多模態(tài)情感分析挑戰(zhàn)賽(Multimodal Sentiment Analysis(MuSe) 2023)的子挑戰(zhàn),屬于ACM MM 2023研討會(huì)。比賽的任務(wù)旨在從跨文化背景下的多模態(tài)數(shù)據(jù)(包括視頻、音頻和文本)中檢測(cè)幽默的存在。比賽使用的數(shù)據(jù)集是Passau-SFCH數(shù)據(jù)集,包括德國(guó)和英格蘭足球新聞發(fā)布會(huì)的視聽(tīng)錄像,它被注釋為教練展示的幽默,提供了二元標(biāo)簽(是否存在幽默)。訓(xùn)練和驗(yàn)證集中包含來(lái)自 10 位不同教練的 10 小時(shí)錄音,語(yǔ)言為德語(yǔ)。測(cè)試集包括由6位不同教練舉行的約5.6小時(shí)的英超聯(lián)賽新聞發(fā)布會(huì),語(yǔ)言為英語(yǔ)。
在本文中,我們提出了基于圖蒸餾的多模態(tài)Transformer模型(MMT-GD),以提高在跨文化背景下的幽默自動(dòng)檢測(cè)的準(zhǔn)確性。創(chuàng)新點(diǎn)有兩個(gè)方面:
(1) 我們提出了Multi-Modal Transformer (MMT)模塊,在MMT中,分別以視覺(jué)模態(tài)、聽(tīng)覺(jué)模態(tài)和文本模態(tài)作為查詢(xún),有效聚合不同模態(tài)之間的相互作用信息;
(2) 在訓(xùn)練階段,我們使用了圖蒸餾的方法,在各模態(tài)之間進(jìn)行知識(shí)傳遞。與基線(xiàn)相比,我們所提出的 MMT-GD 方法在測(cè)試集上的提高了4.7%,并在MuSe-Humor中獲得了第三名。