一级A片线上/亚洲无人区电影完整版小视频/妻孝(改编版+续)/欧美涩涩

   中國金融網 加入收藏    設為首頁
首頁
國內資訊社會財經科技教育時尚娛樂房產家居汽車母嬰健康商業區塊鏈生活企業傳媒區域經濟旅游體育
您現在的位置:首頁 > 社會 > 正文
一文梳理視覺Transformer架構進展:與CNN相比,ViT贏在哪兒
2022-03-28 03:57      來源:TechWeb      編輯:笑笑      閱讀量:9857   

Transformer 作為一種基于注意力的編碼器 — 解碼器架構,不僅徹底改變了自然語言處理領域,還在計算機視覺領域做出了一些開創性的工作與卷積神經網絡相比,視覺 Transformer依靠出色的建模能力,在 ImageNet,COCO 和 ADE20k 等多個基準上取得了非常優異的性能

一文梳理視覺Transformer架構進展:與CNN相比,ViT贏在哪兒

最近幾天,一位名為 Nikolas Adaloglou 的博主撰寫了一篇博客長文,綜述了 ViT 領域的進展以及 ViT 與其他學科的交叉應用。

Nikolas Adaloglou 是一名機器學習工程師,他對和 AI 相關的 3D 醫學成像,圖像和視頻分析,基于圖的深度學習模型以及生成式深度學習感興趣,致力于借助機器學習推動醫學工程的發展。

以下是博客原文:

以合理的規模訓練 ViT知識蒸餾

在 Kaggle 等深度學習競賽中,集成是非常流行的一種方法集成大體上是指平均多個已訓練模型的輸出以進行預測這種簡單的方法非常適合提高測試時的性能,可是它在推理過程中會慢 N 倍當在嵌入式設備中部署此類神經網絡時,這就成了一個棘手的問題解決這個問題常用的一種方法是知識蒸餾

在知識蒸餾中,小模型通常是由一個大模型監督,算法的關鍵是如何將教師模型的知識遷移給學生模型。

盡管沒有足夠的基礎理論支持,但知識蒸餾已被證明是一種非常有效的技巧關于為什么集成的輸出分布能提供與集成相當的測試性能,還有待發現而使用集成的輸出相對于真實標簽存在性能增益,這更加神秘

DeiT 模型通過注意力訓練數據高效的圖像 Transformer 和蒸餾,這表明在沒有外部數據的情況下,僅在 ImageNet 上訓練 ViT 是可以的該研究使用來自 Resnet 的已訓練好的 CNN 模型作為單一教師模型直觀地講,強大的數據假設讓 CNN 比 ViT 更適合做教師網絡

自蒸餾

令人驚訝的是,有研究發現類似方法也可以通過對同一架構的單個模型進行知識蒸餾來實現這個過程被稱為自蒸餾,來自于 Zhang et al.2019 年的論文《Be Your Own Teacher: Improve the Performance of Convolutional Neural Networks via Self Distillation》自蒸餾就是一種 N=1 的知識蒸餾,自蒸餾也可以提高測試準確率

ViT 的 Hard—label 蒸餾:DeiT 訓練策略

在這種方法中,一個額外的可學習全局 token,與 ViT 的 patch 嵌入相連最關鍵的是,蒸餾 token 來自訓練有素的教師 CNN 主干網絡通過將 CNN 特征融合到 Transformer 的自注意力層中,研究者們在 Imagenet 的 1M 數據上訓練 DeiT

DeiT 模型概覽。

DeiT 使用如下損失函數進行訓練:

其中 CE 是交叉熵損失函數,sigma, 是 softmax 函數Z_cls 和 Z_distill 分別是來自類 token 和蒸餾 token 的學生模型的輸出,ytrue 和 yteacher 分別是 ground truth 和教師模型的輸出

這種蒸餾技術使模型用更少的數據獲得超強的數據增強,這可能會導致 ground truth 標簽不精確在這種情況下,教師網絡似乎會產生更合適的標簽由此產生的模型系列,即數據高效圖像 Transformer,在準確率 / 步長時間上與 EfficientNet 相當,但在準確率 / 參數效率上仍然落后

除了蒸餾,還有一些研究大量使用圖像增強來彌補缺乏可用的額外數據此外,DeiT 依賴于隨機深度等數據正則化技術最終,強大的增強和正則化限制了 ViT 在小數據機制中的過擬合趨勢

Pyramid 視覺 Transformer

Pyramid 視覺 Transformer的總體架構。

為了克服注意力機制的二次復雜度,Pyramid 視覺 Transformer采用一種稱為空間減少注意力 的自注意力變體其特征是鍵和值的空間減少,類似于 NLP 領域的 Linformer 注意力

通過應用 SRA,整個模型的特征空間維度緩慢減少,并通過在所有 transformer block 中應用位置嵌入來增強順序的概念PVT 已被用作目標檢測和語義分割的主干網絡,以處理高分辨率圖像

后來,該研究團隊推出改進版 PVT—v2,主要改進如下:

重疊 patch 嵌入,卷積前饋網絡,線性復雜度自注意力層。

重疊 patch 是改進 ViT 的一個簡單而通用的想法,尤其是對于密集任務通過利用重疊區域 /patch,PVT—v2 可以獲得圖像表征的更多局部連續性

全連接層之間的卷積消除了每一層中對固定大小位置編碼的需要具有零填充的 3x3 深度卷積 旨在補償模型中位置編碼的移除此過程可以更靈活地處理多種圖像分辨率

最后,使用鍵和值池化,自注意力層就減小到了與 CNN 類似的復雜度。

Swin Transformer:使用移位窗口的分層視覺 Transformer

Swin Transformer 旨在從標準 NLP transformer 中建立局部性的思想,即局部或窗口注意力:

在 Swin Transformer 中,局部自注意力被用于非重疊窗口下一層的窗口到窗口通信通過逐步合并窗口來產生分層表征

如上圖所示,左側是第一層的常規窗口分區方案,其中在每個窗口內計算自注意力右側第二層中的窗口分區被移動了 2 個圖像 patch,導致跨越了先前窗口的邊界

局部自注意力隨圖像大小線性縮放 O 而不是 O ,在用于序列長度 N 和 M 窗口大小。

視覺 Transformer 的自監督訓練:DINO

該自監督框架如下圖所示:

與其他自監督模型相比,他們使用了交叉熵損失,就像在典型的自蒸餾場景中所做的那樣盡管如此,這里的教師模型是隨機初始化的,其參數是根據學生參數的指數移動平均值更新的為了讓它 work,研究者將帶溫度參數的 softmax 應用于具有不同溫度的教師和學生模型具體來說,教師模型得到的溫度參數更小,這意味著更敏銳的預測最重要的是,他們使用了從 SWAV 中獲得的多重裁剪方法,效果更佳,在這種情況下教師只能看到全局視圖,而學生可以訪問轉換后的輸入圖像的全局和局部視圖

對于 CNN 架構來說,該框架并不像對視覺 Transformer 那樣有益那又該如何從圖像中提取什么樣的特征

此屬性也出現在自監督預訓練的卷積神經網絡中,但需要一種特殊的方法來可視化特征更重要的是,自注意力頭學習補充信息并通過為每個頭部使用不同的顏色來說明默認情況下,這根本不是通過自注意力獲得的

DINO 多注意力頭可視化。

Scaling 視覺 Transformer

小樣本學習是指在樣本數量極其有限的情況下對模型進行微調小樣本學習的目標通過將獲得的預訓練知識稍微適應特定任務來激勵泛化如果成功地預訓練了大型模型,那么在對下游任務非常有限的理解的情況下表現良好是有意義的

以下是本文的一些核心貢獻和主要結果:

模型大小可能會限制表征質量,前提是有足夠的數據來提供它,大型模型受益于額外的監督數據,甚至超過 1B 圖像。

上圖描繪了從 300M 圖像數據集 切換到 30 億圖像 而不進行任何進一步縮放的效果中型 和大型 模型都受益于添加數據,大致是一個常數因子結果是在整個訓練過程中通過小樣本評估獲得的

這或許是可以更廣泛地應用于預訓練 ViT 的最有趣的發現。

他們在訓練開始時使用了熱身階段,在訓練結束時使用了冷卻階段,其中學習率線性退火為零此外,他們使用了 Adafactor 優化器,與傳統的 Adam 相比,內存開銷為 50%

在同一個波長,你可以找到另一個大規模的研究:《如何訓練你的 ViT。視覺 Transformer 中的數據,增強和正則化》

替代自注意力:獨立 token + 通道混合方式

眾所周知,自注意力可以作為一種具有快速權重的信息路由機制到目前為止,有 3 篇論文講述了同樣的故事:用 2 個信息混合層替換自注意力,一種用于混合 token,一種用于混合通道 / 特征信息

MLP—Mixer

MLP—Mixer 包含兩個 MLP 層:第一個獨立應用于圖像 patch,另一個跨 patch。

MLP—Mixer 架構。

XCiT:互協方差圖像 Transformer

另一個是最近的架構 XCiT,旨在修改 ViT 的核心構建 block:應用于 token 維度的自注意力。

XCiT 架構。

局部 Patch 交互:為了實現 patch 之間的顯式通信,研究者添加了兩個 depth—wise 3times,3 卷積層,中間有批歸一化和 GELU 非線性Depth—wise 卷積獨立應用于每個通道

ConvMixer

自注意力和 MLP 理論上是更通用的建模機制,因為它們允許更大的感受野和內容感知行為盡管如此,卷積的歸納偏差在計算機視覺任務中具有不可否認的成果

受此啟發,研究者提出了另一種基于卷積網絡的變體,稱為 ConvMixer主要思想是它直接對作為輸入的 patch 進行操作,分離空間和通道維度的混合,并在整個網絡中保持相同的大小和分辨率

更具體地說,depthwise 卷積負責混合空間位置,而逐點卷積用于混合通道位置,如下圖所示:

通過選擇較大的內核大小來創建較大的感受野,可以實現遠距離空間位置的混合。。

多尺度視覺 Transformer

因此,創建了一個多尺度的特征金字塔直觀地說,早期層將學習高空間與簡單的低級視覺信息,而更深層負責復雜的高維特征

視頻分類:Timesformer

在圖像任務成功后,視覺 Transformer 被應用于視頻識別。這里介紹兩種架構:

用于視頻識別的基于 block 與基于架構 / 基于模塊的時空注意力架構。

右圖:縮小架構級別所提出的方法將空間 Transformer 應用于投影圖像 block,然后有另一個網絡負責捕獲時間相關性這類似于基于視頻處理的 CNN+LSTM 獲勝策略左圖:可以在自注意力級別實現的時空注意力,紅框中是最佳組合通過首先將圖像幀視為 token 來在時域中順序應用注意力然后,在 MLP 投影之前應用兩個空間維度的組合空間注意力

使用 Timesformer t—SNE 進行特征可視化。,世界一流半導體廠商瑞薩電子發布了主打超低功耗,低成本的ForgeFPGA系列產品,正式進入FPGA市場。

「每個視頻都可視化為一個點屬于同一動作類別的視頻具有相同的顏色具有分割時空注意力的 TimeSformer 比具有僅空間注意力或 ViT 的 TimeSformer 在語義上學習更多可分離的特征

語義分割中的 ViT:SegFormer

英偉達提出了一種配置良好的設置,名為 SegFormerSegFormer 的設計組件很有趣首先,它由一個輸出多尺度特征的分層 Transformer 編碼器組成其次,它不需要位置編碼,因為當測試分辨率與訓練不同時,這會降低性能

SegFormer 使用一個超級簡單的 MLP 解碼器來聚合編碼器的多尺度特征與 ViT 不同的是,SegFormer 采用了小的圖像 patch,例如 4 x 4 這種,眾所周知,這有利于密集預測任務所提出的 Transformer 編碼器輸出 1/4,1/8,1/16,1/32 多級特征的原始圖像分辨率這些多級特征提供給 MLP 解碼器來預測分割掩碼

Mix—FFN:為了減輕位置編碼的影響,研究者使用 零填充的 3 times, 3 卷積層來泄漏位置信息。Mix—FFN 可以表述為:

高效的自注意力是 PVT 中提出的,它使用縮減比率來減少序列的長度。結果可以通過可視化有效感受野 來定性測量:

「SegFormer 的編碼器自然地產生局部注意力,類似于較低階段的卷積,同時能夠輸出高度非局部注意力,有效地捕捉第 4 階段的上下文如放大補丁所示,MLP 頭部的 ERF 與 Stage—4不同,除了非局部注意力之外,局部注意力明顯更強

醫學成像中的視覺 Transformer:Unet + ViT = UNETR

盡管在醫學成像方面還有其他嘗試,但 UNETR 提供了最有說服力的結果在這種方法中,ViT 適用于 3D 醫學圖像分割研究表明,簡單的適應足以改善幾個 3D 分割任務的基線

本質上,UNETR 使用 Transformer 作為編碼器來學習輸入音頻的序列表示與 Unet 模型類似,它旨在有效捕獲全局多尺度信息,這些信息可以通過長殘差連接傳遞給解碼器,以不同的分辨率形成殘差連接以計算最終的語義分割輸出

UNETR 架構。

以下是論文的一些分割結果:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

 
上一篇: 002521齊峰新材3月28日早盤小幅上漲0.69%
下一篇:最后一頁
 
     欄目排行
  1. 002521齊峰新材3月28日早盤小幅上
  2. 山東濟寧:植一山青綠富一方百姓
  3. 600926杭州銀行3月28日早盤數據:
  4. 002215諾 普 信3月28日早盤數據
  5. 002682龍洲股份3月28日早盤上漲2
  6. 300130新國都3月28日早盤小幅上漲
  7. 方大炭素加工廠創新制作氣動吊具
  8. 603519立霸股份3月28日小幅下跌1
  9. 商湯2021業績:營收47億,172億虧
  10. 太平洋維持凱普生物買入評級:新冠疫情防控
     欄目推薦
二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾
2022年營收78.61億,湯臣倍健迎來VDS行業新2022年營收78.61億,湯臣倍健迎來VDS行業新周期
大興國際氫能示范區兼顧產業發展和配套服務打造員工理想大興國際氫能示范區兼顧產業發展和配套服務打造員工理想生活藍本
迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡
綠色塞罕壩 不朽的奇跡綠色塞罕壩 不朽的奇跡