看這蓬松的頭發(fā),再加上帥氣的動作,你以為你是在綠幕前拍大片。
不,不,不
這其實是AI帶來的視頻嗎摳圖后的效果
沒想到,實時視頻摳圖現在可以細化到每一根頭發(fā)。
換到阿爾法通道,再看一下不用說,Dove會買單的
這是來自字節(jié)跳動實習兄弟的最新研究:實時高分辨率視頻摳圖。
在沒有任何輔助輸入的情況下,把視頻丟給這個叫RVM的AI,幾分鐘就能幫你高精度挖出人像,背景換成可以隨意重新處理的綠屏。
不信這么絲滑我們親自嘗試了一波在線演示
相比之下,在目前的在線會議軟件中,一旦頭發(fā)遮住臉,人就會消失helliphellip
頭發(fā)明顯燒焦了。
難怪網友們都直言:
我無法想象你會把這種人工智能塞進手機。
目前,本文已入選WACV 2022。
你也可以試試
目前,RVM已經在GitHub上開源,給出了兩種嘗試的方式:
所以我們很快開始嘗試。
我們先來看看效果:
讓我們從不太難的事情開始。
RVM在畫面中人物基本不動的時候可以說表現的非常好,這和手工摳圖差不多。
如今,王冰冰進入東森,從未違抗。
所以我打開了我的大腦,變得簡單多了,helliphellip
咳咳,言歸正傳當角色移動更多時會發(fā)生什么
對于多人舞蹈視頻,RVM也很不錯。
即使動來動去掉頭發(fā),也不影響它的摳圖效果。
只有當角色被屏蔽時,缺陷才會出現。
與以前的方法MODNet相比,有了很大的進步。
但是,我們也發(fā)現,如果視頻的背景比較暗,就會影響到RVM。
比如在這樣昏暗的背景下,摳圖的效果非常不理想。
可以看出博主哥哥的頭發(fā)完全燒焦了。
而且身體的邊界線不夠清晰。
因此,如果你想嘗試自己的視頻,你必須選擇一個光線充足的場景。
使用時間信息
那么這樣的神奇的具體如何實現。
和往常一樣,我們先看看試卷吧~
與此不同,在本文中,研究者構建了一個循環(huán)架構,該架構利用了視頻的時間信息,在時間一致性和摳圖質量上有了明顯的提升。
從上圖可以看出,RVM的網絡架構包括三個部分:
用于提取單幀特征的特征提取編碼器,
循環(huán)解碼器,用于匯總時間信息,
用于高分辨率上采樣的深度引導濾波模塊。
其中循環(huán)機制的引入使得AI能夠在連續(xù)的視頻流中進行自我學習,從而知道哪些信息需要保留,哪些信息可以遺忘。
特別地,循環(huán)解碼器使用多尺度ConvGRU來聚集時間信息。其定義如下:
在這個編解碼網絡中,AI將完成高分辨率視頻的下采樣,然后使用DGF對結果進行上采樣。
此外,研究人員還提出了一種新的訓練策略:利用摳圖和語義分割對網絡進行訓練。
這樣做的好處是:
首先,人像摳圖與人像分割任務密切相關,因此AI必須學會從語義上理解場景,才能在定位人物時具有魯棒性。
其次,現有的摳圖數據集大多只提供真實的alpha通道和前景信息,因此必須合成背景圖像但是前景和背景的光照往往不同,影響合成效果語義分割數據集的引入可以有效防止過度擬合
最后,語義分割數據集具有更豐富的訓練數據。
經過這次訓練,RVM與前輩相比有什么進步。
從效果對比中可以明顯感覺到:
此外,與MODNet相比,RVM更輕,更快。
從下表可以看出,RVM的處理速度在1080p視頻中最快,為512倍,288比BGMv2稍慢,4K視頻比帶FGF的MODNet稍慢研究人員分析,這是因為RVM不僅預測了阿爾法通道的前景
更直觀的數據是,在NVIDIA GTX 1080Ti上,RVM可以處理76FPS的4K視頻和104FPS的高清視頻。
字節(jié)跳動的實習生
本文由林善川在字節(jié)跳動實習期間完成。
他畢業(yè)于華府大學,獲學士和碩士學位,曾在Adobe,臉書等大公司實習。
2021年3月至6月,林善川在字節(jié)跳動實習我8月份剛加入微軟
事實上,林善川此前憑借AI獲得了CVPR 2021年最佳學生論文榮譽獎。
他將論文《Real—Time High—Resolution Background Matting》作為作品發(fā)表,提出了背景摳圖V2方法。
該方法可以處理30幀/秒的4K視頻和60幀/秒的高清視頻。
值得一提的是,《背景摳圖》不止一次獲得CVPR此前,第一代背景摳圖被列入CVPR 2020
此外,本文的第二部分是的研究型科學家楊清華大學,獲香港中文大學博士學位
對了,除了可以在Colab上試用之外,還可以在網頁版上實時感受到這款AI的效果。記下地址:
鄭重聲明:此文內容為本網站轉載企業(yè)宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。
|