雖然日常和你對話的 Siri 聲音機械,還常常胡亂斷句,但實際上,最新的技術進展顯示,AI 的語音合成能力已經可以說得上是以假亂真。
比如英偉達,最近就發布了一個更懂節奏,更具感情的語音合成 AI。
在英偉達的紀錄片中,她的自我介紹口齒清晰自不必說,氣息頓挫,情緒把控,播音員范兒絕對夠正。
幀級控制合成語音
英偉達將在 9 月 3 日的語音技術頂會 Interspeech 2021 上展示該項目的最新成果。
不過,其背后的技術,此前就已經幫助自家數字人在 SIGGRAPH Real—Time Live 上摘下了最佳展示獎。
核心是名為 RAD—TTS 的語音合成方法。
這是一個并行的端到端 TTS 模型與此前的并行方法不同,RAD—TTS 將語音節奏作為一個單獨的生成分布來建模如此,在推理過程中,語音的持續時間就能被更好地控制
從 RAD—TTS 的演示界面中也可以看出,用戶可以在幀級別上控制合成語音的音調,持續時間和節奏力度。
研究人員還介紹,RAD—TTS 既可以將任意文本轉換成說話人的聲音,也可以將一個說話人的聲音轉換成另一個人的聲音。
也就是說,合成語音的制作人可以像指導配音演員一樣去指導AI,讓它學會哪個單詞應該重點突出,節奏如何把控更符合創作基調等等。
機器語音能有多真實。
其實,不只是英偉達,此前,小冰也發布過超級自然語音技術。
把一句人類的語音混進小冰的語音里,你能分辨到底哪一句來自真正的人類嗎。
不過,小冰公司 CEO 李笛此前曾表示,AI 的聲音太接近真人,就很有可能被濫用因此小冰禁止為普通個人訓練聲音
但這樣的技術,也正在通過電臺,便利店等更多商業場景,走進人們的日常生活。
參考鏈接:
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
|