最近,臉書開放了世界上最大的多語言語音數據集,VoxPopuli:
該數據集涵蓋23種語言,持續時間超過40萬小時。
其中,每種語言都有9000到18000小時的未標記語音數據。
此外,它還包括16種語言的1800小時轉錄語音數據和15種目標語言的17300小時翻譯語音數據。
國外網友迅速稱贊這一行為:
顯然,如果數據集已經存在,就應該以道德的方式使用和改進它。
該數據集龐大的未標記數據量和廣泛的語言覆蓋范圍對改進自我監控模型有很大幫助。
臉書還希望幫助提高語音數據集的質量和魯棒性,并使語音轉換神經網絡的訓練更加可靠。
最后,新的NLP系統開發加速,AI翻譯效果越來越好。
十年歐洲會議文集
在歐洲議會的各種活動中,如全體會議,委員會會議和其他活動,發言者將輪流用不同的歐盟語言發言。
臉書剛剛從歐洲運動會官方網站上搶到了每場演講的文字記錄,演講者信息和開始/結束時間戳。
然后,對所有原始語音數據進行處理,并將其大致分為以下三類:
總共400,000小時的23種語言的無標簽語音數據
每種語言都有超過8000到20000個原始語音數據。
因此,臉書基于能量的語音活動檢測算法將完整的音頻分成15—30秒的小段。
最后,獲得沒有太多數據不平衡和沒有調整數據采樣策略的數據集。
所以非常適合訓練多語言模型。
除了未標記的數據,表中還有轉錄的語音數據,這是第二種類型:
總共1800個小時,用16種語言轉錄語音數據
雖然EC的官方時間戳可以用來定義會議中的發言人,但往往會被截斷或與前后發言的片段混在一起,因此并不完全準確。
因此,臉書對全會音頻采用了聲紋分割聚類。
此時,語音片段的平均持續時間為197秒,然后使用語音識別系統將其細分為大約20秒的短片段。
通過觀察上表,我們可以看到最終的數據包含了很多屬性,比如每種語言的時長,說話者的數量,女性說話者的百分比,分數等等。
15種目標語言的17,300小時口譯語音數據,
每個原話都有相應的同聲傳譯,并且相互關聯。
但是要使這個數據集可用,它必須經過大量的預處理和過濾。
因此,臉書使用語音識別系統將源語音與目標語音在句子層面對齊。
它在域外環境中的半監督學習下是通用的
那么這個數據集是如何工作的呢。
首先,包括域外語言在內的無監督預訓練用于樣本較少的語音識別:
從表中可以看出,在五種VoxPopuli語言中,VP—Mono5K優于XLSR—Mono和XLSR—10。
而VP—100K在10種語言中有8種語言的性能優于XLSR—10。
再者,雖然XLSR—53覆蓋了Zh語言,但在Zh上的性能遠不如VP—100K。
這說明VP—100K在語音表征方面具有很高的普適性。
然后是使用VoxPopuli數據集的自訓練或弱監督語言翻譯和語音識別:
從表中可以看出,無論是對于域內語言還是域外語言,VoxPopuli的自訓練在大多數情況下都能提高性能。
在翻譯中,不需要添加昂貴的標簽數據。
通過自我訓練,可以縮小端到端模型和級聯模型之間的差距。
鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
|