欧美涩涩

中國金融網

加入收藏設為首頁

國內資訊

您現在的位置：首頁 > 區域經濟 > 正文

近就發布了一個更懂節奏更具感情的語音合成AI

2021-10-13 10:28 來源：IT之家編輯：如思閱讀量：18550

雖然日常和你對話的 Siri 聲音機械，還常常胡亂斷句，但實際上，最新的技術進展顯示，AI 的語音合成能力已經可以說得上是以假亂真。

比如英偉達，最近就發布了一個更懂節奏，更具感情的語音合成 AI。

在英偉達的紀錄片中，她的自我介紹口齒清晰自不必說，氣息頓挫，情緒把控，播音員范兒絕對夠正。

幀級控制合成語音

英偉達將在 9 月 3 日的語音技術頂會 Interspeech 2021 上展示該項目的最新成果。

不過，其背后的技術，此前就已經幫助自家數字人在 SIGGRAPH Real—Time Live 上摘下了最佳展示獎。

核心是名為 RAD—TTS 的語音合成方法。

這是一個并行的端到端 TTS 模型與此前的并行方法不同，RAD—TTS 將語音節奏作為一個單獨的生成分布來建模如此，在推理過程中，語音的持續時間就能被更好地控制

從 RAD—TTS 的演示界面中也可以看出，用戶可以在幀級別上控制合成語音的音調，持續時間和節奏力度。

研究人員還介紹，RAD—TTS 既可以將任意文本轉換成說話人的聲音，也可以將一個說話人的聲音轉換成另一個人的聲音。

也就是說，合成語音的制作人可以像指導配音演員一樣去指導AI，讓它學會哪個單詞應該重點突出，節奏如何把控更符合創作基調等等。

機器語音能有多真實。

其實，不只是英偉達，此前，小冰也發布過超級自然語音技術。

把一句人類的語音混進小冰的語音里，你能分辨到底哪一句來自真正的人類嗎。

不過，小冰公司 CEO 李笛此前曾表示，AI 的聲音太接近真人，就很有可能被濫用因此小冰禁止為普通個人訓練聲音

但這樣的技術，也正在通過電臺，便利店等更多商業場景，走進人們的日常生活。

參考鏈接:

鄭重聲明：此文內容為本網站轉載企業宣傳資訊，目的在于傳播更多信息，與本站立場無關。僅供讀者參考，并請自行核實相關內容。

上一篇：國海證券主要觀點如下保持高增長態勢

下一篇：最后一頁

欄目排行

欄目推薦

二手房“帶押過戶”啟動滿月成功嘗鮮者寥寥無幾

2022年營收78.61億，湯臣倍健迎來VDS行業新

大興國際氫能示范區兼顧產業發展和配套服務打造員工理想

迪麗熱巴穿軍綠色也好美！和吳磊同框絲毫沒有年齡

綠色塞罕壩不朽的奇跡