您好!歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站!
已投資訊 | 達(dá)闥與中山大學(xué)合作論文被AI頂刊IEEE TPAMI錄用,科研實力再獲權(quán)威肯定!
發(fā)布時間:
2024-06-07 18:00
來源:
近日,達(dá)闥機器人與中山大學(xué)合作的研究論文成功被計算機視覺和人工智能領(lǐng)域的頂級國際期刊IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI) 錄用。
該論文題為《通過大模型進(jìn)行可糾正地標(biāo)發(fā)現(xiàn)的視覺語言導(dǎo)航》(Correctable Landmark Discovery via Large Models for Vision-Language Navigation),提出了一種名為CONSOLE的新框架,利用大語言模型ChatGPT和視覺模型CLIP解決視覺語言導(dǎo)航中的地標(biāo)發(fā)現(xiàn)問題,通過動態(tài)調(diào)整地標(biāo)重要性實現(xiàn)精準(zhǔn)導(dǎo)航,并在多個基準(zhǔn)測試中顯著超越現(xiàn)有技術(shù)。
IEEE TPAMI是人工智能、模式識別、計算機視覺等領(lǐng)域的國際頂尖期刊,是目前影響因子最高的CCF A類期刊,JCR 1區(qū)Top期刊。該期刊谷歌指數(shù)(H-Index)在計算機科學(xué)和工程技術(shù)兩個大類學(xué)科里均列首位。IEEE TPAMI以嚴(yán)苛的審稿過程、深刻的理論分析著稱,每年收錄的論文數(shù)量有限,在計算機科學(xué)與人工智能領(lǐng)域具有權(quán)威影響力。
突破性研究:從有限數(shù)據(jù)到開放世界
視覺語言導(dǎo)航(VLN)要求代理遵循語言指令到達(dá)目標(biāo)位置。傳統(tǒng)的VLN方法常常受限于有限的數(shù)據(jù)集和場景,難以在未知環(huán)境中實現(xiàn)準(zhǔn)確導(dǎo)航。此次發(fā)表的論文提出了一種全新的VLN范式——“通過大模型進(jìn)行可糾正地標(biāo)發(fā)現(xiàn)”(CONSOLE),旨在解決這一難題。
創(chuàng)新方法:融合ChatGPT與CLIP的大模型策略
ONSOLE將VLN視為一個開放世界中的序列地標(biāo)發(fā)現(xiàn)問題,通過引入ChatGPT和CLIP兩大模型,實現(xiàn)了前所未有的突破。具體來說,該方法利用ChatGPT提供豐富的開放世界地標(biāo)共現(xiàn)常識,并基于此進(jìn)行CLIP驅(qū)動的地標(biāo)發(fā)現(xiàn)。這種創(chuàng)新性的組合,不僅提升了模態(tài)對齊能力,還有效應(yīng)對了先驗噪聲的問題。
為了進(jìn)一步提高精度,研究團(tuán)隊還設(shè)計了一種可學(xué)習(xí)的共現(xiàn)評分模塊,根據(jù)實際觀測結(jié)果校正每個共現(xiàn)的重要性,從而實現(xiàn)更精確的地標(biāo)發(fā)現(xiàn)。此外,他們還提出了一種觀察增強策略,將校正后的地標(biāo)特征融入不同類型VLN代理,以增強其觀察特征并優(yōu)化行動決策。
實驗驗證:多項基準(zhǔn)測試創(chuàng)下新紀(jì)錄
在R2R、REVERIE、R4R、RxR等多個主流VLN基準(zhǔn)測試中,CONSOLE展現(xiàn)出了壓倒性的性能優(yōu)勢,不僅在未見場景下刷新了R2R和R4R的最前沿成果,而且整體成功率遠(yuǎn)超當(dāng)前最強基線。這一系列實驗結(jié)果有力證明了CONSOLE框架的有效性與普適性,為未來智能導(dǎo)航系統(tǒng)的研發(fā)指明了方向。
行業(yè)影響:推動AI技術(shù)新高度
IEEE TPAMI作為人工智能、模式識別及計算機視覺等領(lǐng)域最具權(quán)威性的期刊之一,其嚴(yán)苛審稿過程和深刻理論分析使得每篇錄用論文都具有極高學(xué)術(shù)價值。本次達(dá)闥與中山大學(xué)合作成果能獲此殊榮,不僅是對其科研實力的一次重要認(rèn)可,更是對整個行業(yè)的一次激勵。
未來,隨著更多類似創(chuàng)新成果不斷涌現(xiàn),我們有理由相信,在不久之后,人類將迎來更加智能、高效、安全的人機交互新時代。而這篇論文無疑將在這一進(jìn)程中扮演重要角色,為全球AI技術(shù)發(fā)展貢獻(xiàn)力量。