感謝本站的朋友OC_Formula的線索傳遞!
,微軟最近發(fā)布了一款名為VALL—E的人工智能工具,它可以只用3秒鐘的音頻來(lái)模仿人類說(shuō)話。
這個(gè)工具由6萬(wàn)小時(shí)的英語(yǔ)語(yǔ)音數(shù)據(jù)訓(xùn)練,使用特定語(yǔ)音的3秒片段生成內(nèi)容與目前的許多人工智能工具不同,VALL—E可以復(fù)制說(shuō)話者的情緒和語(yǔ)氣,甚至說(shuō)話者自己從未說(shuō)過(guò)的話也可以模仿
本站了解到,康奈爾大學(xué)的一篇論文用VALL—E合成了幾種聲音,你可以在GitHub上聽(tīng)聽(tīng)AI合成的音頻。
研究人員指出,在許多情況下,Vall—E的性能優(yōu)于當(dāng)前的文本到語(yǔ)音轉(zhuǎn)換模型可是,該研究也寫道,目前人工智能模型存在幾個(gè)問(wèn)題例如,文本提示中的一些單詞可能發(fā)音不清楚,被完全省略或在輸出中出現(xiàn)兩次此外,這種模型目前很難模仿一些聲音,尤其是帶有口音的聲音
像其他新的人工智能技術(shù)一樣,VALL E也引起了安全和道德方面的擔(dān)憂微軟已經(jīng)發(fā)布了一份關(guān)于VALL—E使用的道德聲明,但是對(duì)于其未來(lái)的用途并沒(méi)有明確的解釋
目前微軟Vall—E并沒(méi)有開(kāi)源微軟在GitHub上創(chuàng)建了一個(gè)Vall—E資源庫(kù),但目前只包含一個(gè)描述文件
鄭重聲明:此文內(nèi)容為本網(wǎng)站轉(zhuǎn)載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場(chǎng)無(wú)關(guān)。僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。
|