您好!歡迎登錄水木春錦資本管理有限公司官方網(wǎng)站!
云知聲4篇論文入選國際頂會INTERSPEECH 2023
發(fā)布時間:
2023-09-08 18:00
來源:
近日,國際性語音及語言科學(xué)技術(shù)領(lǐng)域盛會INTERSPEECH 2023在愛爾蘭都柏林舉行。云知聲聯(lián)合上海師范大學(xué)發(fā)表的4篇論文被大會成功收錄,成果覆蓋語音增強(qiáng)、語音識別、防攻擊聲紋等研究方向。這是繼ACM MM 2023后,云知聲AGI技術(shù)實力在2023年再次獲得國際頂會認(rèn)可。
INTERSPEECH在國際上享有極高盛譽并具有廣泛的學(xué)術(shù)影響力,是由國際語音通訊協(xié)會(ISCA)創(chuàng)辦的旗艦級國際會議,是國際性語音及語言科學(xué)技術(shù)領(lǐng)域的頂級會議之一,對參會企業(yè)和單位有著嚴(yán)苛的準(zhǔn)入門檻,歷屆INTERSPEECH會議都倍受全球各地語音研究領(lǐng)域人士的廣泛關(guān)注。
此次獲得國際頂會認(rèn)可,既是云知聲與上海師范大學(xué)通力合作、持續(xù)探索智能語音技術(shù)的結(jié)果,也離不開云知聲AGI技術(shù)架構(gòu)的有力支撐。
云知聲:通過通用人工智能(AGI)創(chuàng)建互聯(lián)直覺的世界
云知聲AI技術(shù)體系及U+X戰(zhàn)略
作為中國AGI技術(shù)產(chǎn)業(yè)化的先驅(qū)之一,云知聲于2016年打造Atlas人工智能基礎(chǔ)設(shè)施,并構(gòu)建公司云知大腦(UniBrain)技術(shù)中臺,以山海(UniGPT)通用認(rèn)知大模型為核心,包括多模態(tài)感知與生成、知識圖譜、物聯(lián)平臺等智能組件,并通過領(lǐng)域增強(qiáng)能力,為云知聲智慧物聯(lián)、智慧醫(yī)療等業(yè)務(wù)提供高效的產(chǎn)品化支撐,推動“U(云知大腦)+X(應(yīng)用場景)”戰(zhàn)略落實,踐行公司“通過通用人工智能(AGI)創(chuàng)建互聯(lián)直覺的世界”的使命。
作為云知大腦(UniBrain)的重要組件,智能語音技術(shù)包含語音識別、聲紋識別、語音合成等,目前已廣泛應(yīng)用于家居、車載、客服等領(lǐng)域。以車載場景為例,在云知聲智能語音技術(shù)的加持下,可實現(xiàn)多音區(qū)識別、連續(xù)語音交互、個性化語音播報、所見即可說、模糊指令匹配等強(qiáng)大語音能力,為用戶帶來更智能更自然的交互體驗。隨著云知聲智能語音技術(shù)的不斷發(fā)展,其在各個場景的落地應(yīng)用也將進(jìn)一步提速。此次論文收錄,充分印證了云知聲在智能語音領(lǐng)域的技術(shù)創(chuàng)新實力,同時,也將進(jìn)一步夯實其AGI技術(shù)底座,加速千行百業(yè)的智慧化升級。
接下來,云知聲將繼續(xù)踐行“U+X”戰(zhàn)略,攜手上海師范大學(xué)等高校機(jī)構(gòu),共同加強(qiáng)AI基礎(chǔ)理論和關(guān)鍵技術(shù)的研發(fā),不斷拓展AGI應(yīng)用場景,為智慧物聯(lián)與智慧醫(yī)療兩大領(lǐng)域提供更廣泛、更深入的人工智能解決方案,致力實現(xiàn)以人工智能賦能千行百業(yè)的美好愿景。
以下為入選論文概覽:
研究方向:語音增強(qiáng)
A Mask Free Neural Network for Monaural Speech Enhancement
目前主流時頻語音增強(qiáng)系統(tǒng)以復(fù)頻譜作為輸入,存在著訓(xùn)練工具不支持復(fù)數(shù),復(fù)數(shù)建模方式不易訓(xùn)練,以及基于掩蔽的方法理論上無法完全恢復(fù)出干凈語音的問題。為解決以上問題,本文提出了一種無需掩蔽的語音增強(qiáng)系統(tǒng)。該系統(tǒng)利用短時離散余弦變換(STDCT)作為特征,不僅與STFT同樣具備信息完備性,而且是一種實數(shù)特征。我們在MetaFomer基礎(chǔ)上,結(jié)合MobileNet block的輕量架構(gòu)以及NAFNet的設(shè)計理念構(gòu)建了全局局部模塊,整個網(wǎng)絡(luò)由此模塊堆疊而成。結(jié)果表明,相比其他網(wǎng)絡(luò),MFNet的性能達(dá)到了SOTA水平,且計算量具有優(yōu)勢。
研究方向:語音識別
Multi-pass Training and Cross-information Fusion for Low-resource End-to-end Accented Speech Recognition
低資源重口音語音識別是當(dāng)前ASR技術(shù)在實際應(yīng)用中面臨的重要挑戰(zhàn)之一。在這項研究中,我們提出了一個基于Conformer的架構(gòu),稱為Aformer,以利用大量非口音和有限口音訓(xùn)練數(shù)據(jù)的聲學(xué)信息。在Aformer中設(shè)計了一個普通編碼器和一個口音編碼器來提取互補的聲學(xué)信息。此外,我們使用多通道的方式訓(xùn)練Aformer,并研究了三種交叉信息融合方法,以有效地結(jié)合來自一般編碼器和口音編碼器的信息。結(jié)果表明,在六個域內(nèi)和域外口音測試集上,我們提出的方法優(yōu)于Conformer基線,詞/字錯誤率相對減少了10.2%到24.5%。
研究方向:語音識別
Phonetic-assisted Multi-Target Units Modeling for Improving Conformer-Transducer ASR system
在端到端的自動語音識別(ASR)中,開發(fā)有效的目標(biāo)建模單元是非常重要的,也是大家一直關(guān)注的問題。我們提出一種語音輔助的多目標(biāo)單元(PMU)建模方法,以漸進(jìn)式表征學(xué)習(xí)的方式增強(qiáng)Conformer-Transducer ASR系統(tǒng)。具體來說,PMU首先使用語音輔助子詞建模(PASM)和字節(jié)對編碼(BPE)分別產(chǎn)生語音誘導(dǎo)和文本誘導(dǎo)的目標(biāo)單元;在此基礎(chǔ)上,我們提出了三種增強(qiáng)聲學(xué)編碼器的框架,包括基本PMU、paraCTC和paCTC,它們集成了不同層次的PASM和BPE單元,用于CTC和transducer多任務(wù)訓(xùn)練。在LibriSpeech和口音ASR測試集上的實驗結(jié)果表明,與傳統(tǒng)的BPE相比,提出的PMU方法顯著降低了LibriSpeech clean、other和6個重音ASR測試集的WER,分別降低了12.7%、6.0%和7.7%。
研究方向:防攻擊聲紋
Advanced RawNet2 with Attention-based Channel Masking for Synthetic Speech Detection
自動揚聲器驗證系統(tǒng)通常很容易受到欺騙攻擊,特別是不可見的攻擊。由于語音合成和語音轉(zhuǎn)換算法的多樣性,如何提高合成語音檢測系統(tǒng)的泛化能力是一個具有挑戰(zhàn)性的問題。為了解決這個問題,我們提出了一種改進(jìn)的RawNet2,通過引入一個基于注意力的通道掩蔽模塊來改進(jìn)RawNet2,其中包括三個主要組成部分:SE、通道掩蔽和全局-局部特征聚合。在ASVspoof 2019和ASVspoof 2021數(shù)據(jù)集上評估了該系統(tǒng)的有效性。其中,ARawNet2在ASVspoof 2019 LA任務(wù)上達(dá)到了4.61%,在ASVspoof 2021 LA和DF任務(wù)上的EER分別達(dá)到了8.36%和19.03%,比RawNet2基線分別降低了12.00%和14.97%。