您好!歡迎登錄水木春錦資本管理有限公司官方網站!
云知聲:定制企業(yè)專屬“發(fā)音人”,不再是奢侈品而是必需品
發(fā)布時間:
2022-05-30 16:32
來源:
從清華虛擬女學霸華智冰、抖音美妝達人柳夜熙,到江蘇衛(wèi)視2022跨年演唱會的虛擬人“鄧麗君”,以及湖南衛(wèi)視全新綜藝《你好,星期六》啟用的數字主持人“小漾”•••
從英偉達發(fā)布會上虛擬CEO黃仁勛,到美的旗下品牌華凌分別擔任美的的數智體驗主理人和潮流設計主理人虛擬偶像凌魂少女·涼然、凌魂少女·暖沁•••
伴隨著元宇宙的興起,虛擬數字人正越來越頻繁地出現在公共視野。數字員工、虛擬偶像、虛擬代言人、虛擬主播•••數字人在社交、媒體傳播、營銷、傳統產業(yè)等領域的價值正在逐漸顯現。
制作數字化虛擬人物,有形無聲,是不完善的。個性化的聲音可以使形象更立體。更聲入人心。但是傳統人工配音,非常依賴配音演員的狀態(tài)和穩(wěn)定性。而且費用高效率低。不能滿足高頻應用的需求和發(fā)展方向。
隨著AI語音技術越發(fā)成熟,通過發(fā)音定制,應用TTS語音合成技術,為數字化人物帶來全新的升級,經過訓練的聲音讓創(chuàng)建的虛擬人物及動畫形象,通過AI語音技術自主發(fā)聲。大大降低實施成本,提升工作效率。一次定制,N次應用。時刻工作狀態(tài),滿足高負荷任務需求。
微軟、百度、云知聲等公司因為豐厚的技術積累,可以把語音識別、語義理解、語音合成、虛擬形象驅動等核心技術融入虛擬人之中,投入企業(yè)應用市場,賦能千千萬萬的企業(yè)用戶。
Forrester的一項研究顯示,84%的技術領導者認為需要將AI實施到應用中,以保持競爭優(yōu)勢。超過70%的人認為,AI技術已經走出實驗階段,提供了有意義的商業(yè)價值。而TTS正是AI應用中的急先峰,在各行業(yè)領域中創(chuàng)造更加豐富的個性化體驗。
01 語音合成為企業(yè)應用注入活力
在語音領域,公眾熟悉的語音識別技術(ASR),是將聲音轉化為文字,可類比于人類的“耳朵”。
而語音合成(TTS,Text-To-Speech),是將文字轉化為聲音(朗讀出來),可類比于人類的“嘴巴”。
大家在Siri等各種語音助手中聽到的聲音,都是由TTS來生成的。
-
TTS通過自然語音為企業(yè)應用注入生命力,市場規(guī)??礉q。
《2020年中國網絡音頻行業(yè)研究報告》顯示,2019年中國網絡音頻用戶規(guī)模達4.9億,行業(yè)市場規(guī)模同比上年增長55.1%,達到了175.8億元,預計2022年中國網絡音頻行業(yè)市場規(guī)模將達到543.1億元。
iiMedia Research數據顯示,超過七成受訪用戶對AI技術在在線音頻領域的發(fā)展前景看好。得益于內容的創(chuàng)新和多元化的應用場景,在線音頻行業(yè)的市場需求將被進一步釋放。
iiMedia Research的數據顯示,中國在線音頻用戶規(guī)模保持連續(xù)增長態(tài)勢,2022年在線音頻用戶規(guī)模將達到6.90億人。
-
TTS應用場景不斷擴大,使用獨特的定制聲音讓企業(yè)的品牌與眾不同。
在線音頻行業(yè)應用TTS技術產出高質量仿真語音,快速完成文本到語音的轉化過程,極大加速了企業(yè)音頻內容的生產能力,擴充了內容傳播的渠道。
目前,TTS技術的應用呈現出井噴的發(fā)展態(tài)勢。
一是覆蓋語言、語音多樣化。目前,專業(yè)的語音合成技術不僅支持中文、各地方言如粵語、四川話等,而且可以支持英語、日本語等多種語音,甚至可以支持合成中英混讀語音。
在語音多樣化上,支持企業(yè)根據業(yè)務需求,使用語音合成標記語言(SSML)或音頻內容創(chuàng)建工具定義詞匯,并控制語音參數,如發(fā)音、音調、速率、停頓和語調。
支持多種男聲、女聲的選擇,使得音色能夠覆蓋多樣化的應用場景,適用于電話客服、小說朗讀、消息播報等場景。
支持離線音頻文件、實時音頻流等合成格式。
二是部署方式多樣化。專業(yè)的語音合成如微軟等既支持個性化、多語種、多音色的本地化部署,滿足私有化、數據隱私需求,也如微軟支持云部署,在利用公有云的彈性資源,向用戶應用提供更好的語音服務。
同時云服務商提供從云到邊緣的任何位置都可以部署TTS應用。使用容器將逼真的語音合成構建到針對強大的云功能和邊緣區(qū)域性而優(yōu)化的應用中。
三是應用場景多樣化。以云知聲為例,其音庫定制平臺就在眾多企業(yè)應用場景落地。如在語音導航方面、提示播報、新聞聽書,人機交互、智能客服、短視頻配音等提供服務。
語音導航,可以快速生成高質量的播報音頻,實現在開車、走路等不方便閱讀消息的情況下,音頻消息的即時傳達。
提示播報主要應用在高鐵、廣場、旅游園區(qū)、購物中心等公共場景,結合場景特性、定制適用的發(fā)音語態(tài),進行語音播報,廣播通知。
新聞聽書則是將電子教材、小說等文本材料,以文本文件的形式導入離線語音合成引擎,產生完整的可重復閱讀的有聲教材或者有聲小說,方便用戶隨時取用。
在客服機器人、服務機器人等場景中,則是與語音識別、自然語言處理等模塊聯動,打通人機交互的閉環(huán),實現高品質的機器人發(fā)聲,不僅可以滿足金融、醫(yī)療、運營商等不同行業(yè)在催款、營銷、回訪等場景中應用,使合成聲音更加真實,提升工單處理效率并降低成本。
短視頻配音場景中,知識科普、教程講解、美食教程、影視解說等各種短視頻旁白配音場景,多發(fā)音人配合使用可完成劇情對話演繹。
語音合成的企業(yè)應用場景遠被想象的多,而企業(yè)應用場景的開發(fā),或許會操作一種新的商業(yè)模式。
四是覆蓋行業(yè)多樣化。目前,在電信、金融、傳媒等眾多行業(yè),語音合成都得到應用,創(chuàng)造與眾不同的新應用。
例如,新華社打造的A.I.虛擬主播在持續(xù)運營中,為用戶每天實時播報最新的新聞動態(tài)。
廣西衛(wèi)視新媒體平臺AI主播小晴上線“戰(zhàn)疫情”特別報道《戰(zhàn)疫進行時》,為公眾播報最新疫情,解讀疫情防控政策,普及科學防控知識,講述“逆行者”的感人故事,助力全面打響疫情宣傳攻堅戰(zhàn),給廣西衛(wèi)視新媒體矩陣500多萬粉絲帶來全新的用戶體驗。
高德邀請林志玲、郭德綱、TFBOYS、羅永浩、黃曉明、高曉松等眾多流量擔當來錄制導航語音包。經過模型訓練后,高德就推出了用戶喜歡的林志玲聲音導航的方式,提升了用戶的體驗。
02 快速定制專屬的音色已經被攻克
-
隨著語音合成技術的商業(yè)化,現代語音合成系統更關注體驗至上的個性化技術產出。
其中通用TTS,在用戶預期不苛刻的場景中,能滿足商業(yè)化需求。但如果用戶預期比較高,通用TTS會有“機器感/機械感”,不能自然地模擬人聲。
個性化TTS根據數據產品特點提供不同類型的聲音進行個性化定制語音庫,應用在用戶預期不苛刻的場景,能滿足企業(yè)商業(yè)化需求。
而情感TTS更加趨于人類的真實語言,讓機器被賦予情感而不只是一臺冰冷的復讀機。而想要讓這樣一臺機器生動地說話,情感合成語音技術背后的數據庫也將更為豐富多樣。
據介紹,TTS技術正處于重大變革期,端到端(End-to-End)的TTS建模方法,加上WaveNet 的聲碼器思想,是未來TTS的技術發(fā)展方向
AI獨角獸企業(yè)云知聲AI開放平臺上線的“音庫定制”功能,融合了業(yè)界領先的神經網絡聲學模型和神經網絡聲碼器的端到端合成技術,讓合成語音增加了情感和表現力。
音庫定制通過遷移學習技術,在千句級別的錄音上進行深度定制音色,訓練出來的音庫定制效果取決于原始錄音的質量,錄制語音越干凈、穩(wěn)定和自然,合成的語音與原聲的相似度越高,聽感更加自然。
另外,與傳統內容制作方式相比,音庫定制生產效率穩(wěn)定,任務進度量化評估精準,效率提升30倍以上。服務器多任務并行和可長時間運算的特性,周期效率更是可以提升百倍以上。
例如對于100萬字的文檔,單人錄制需要11~21天,而用云知聲的技術,僅需3.5小時。
定制完成后,文字即可完成音頻輸出。不再需要出差、背稿、錄制,耗費大量時間精力,而是通過快速、簡單的后臺操作,實現內容的高效批量生產。
此外,“音庫定制”還可以滿足企業(yè)更多定制化需求,如賦予智能客服更具人情味的生命力,讓智能接待更加真情實感;可以豐富企業(yè)語音助手的聲音形象,拉近與用戶的距離,產生更多情感互動;與有聲閱讀行業(yè)結合,打造專屬的聲音IP形象,用技術賦能有聲閱讀行業(yè)新生態(tài)。
03 讓企業(yè)專屬發(fā)音人更安全
AI技術的應用落地越來越多樣化,通過語音合成技術,用戶可以一秒變聲社會名人或者其他想模仿的聲音。這時,你會感到驚喜還是驚恐?
對企業(yè)來說,在不斷尋求技術突破和商業(yè)價值的同時,也應該樹立對技術安全的責任心。而AI公司在語音合成技術的安全合規(guī)與隱私保護方面也做出更多探索。
為了在語音合成中全面保障隱私和安全,多家語音智能廠商均提供了眾多保障措施。
如微軟,語音服務是微軟Azure認知服務的一部分,通過 SOC、FedRAMP、PCI DSS、HIPAA、HITECH和ISO 。微軟Azure確保:數據仍然是你的數據,數據處理或音頻語音生成期間不會存儲文本數據;可隨時查看和刪除自定義語音數據和合成的語音模型,你的數據在存儲中時是加密的;在Azure基礎結構的支持下,Speech服務提供了企業(yè)級的安全性、可用性、符合性和可管理性。
如云知聲,基于客戶的實際使用場景,為客戶提供定制化制作流程,采用標準模型訓練、最終模型訓練多重非實時語音模型訓,最終通過私有化部署的方式,將定制發(fā)音人部署到客戶自身的服務器上,保證企業(yè)”專屬IP發(fā)音人”的私密性與安全性。
元宇宙概念興起,虛擬數字人先行。虛擬數字人正越來越頻繁地出現在公共視野,成為企業(yè)服務新場景。
一方面,完善好虛擬人功能本就可以去促進用戶高效內容創(chuàng)作、優(yōu)化用戶的創(chuàng)作體驗、滿足不同領域用戶的需求。
另一方面,當我們未來身處元宇宙世界,在娛樂、游戲、工作場景下的視頻創(chuàng)意需求不斷得到滿足,并且通過虛擬人來連接虛擬場景。
總的來看,無論虛擬人最終的發(fā)展形態(tài)如何,首要的是與當下的現實技術和商業(yè)增長合二為一,或許才是最正確的路。
將文本轉換為語音,使數字化語音聽起來像人類,是人工智能領域面臨的巨大挑戰(zhàn)之一?,F在,TTS已經成為語音內容創(chuàng)作的未來。
聲明
水木平臺所發(fā)文章版權歸原作者或機構所有,部分轉載文章未能與原作者取得聯系,如涉及版權問題,請通過微信后臺與我們取得聯系,本文內容不涉及投資建議。