一级A片线上/亚洲无人区电影完整版小视频/妻孝(改编版+续)/欧美涩涩

   中國金融網 加入收藏    設為首頁
首頁
國內資訊社會財經科技教育時尚娛樂房產家居汽車母嬰健康商業區塊鏈生活企業傳媒區域經濟旅游體育
您現在的位置:首頁 > 國內資訊 > 正文
連百年梗圖都整明白了,微軟多模態「宇宙」搞定IQ測試,僅16億參數
2023-03-04 06:09      來源:IT之家      編輯:顧曉蕓      閱讀量:12637   

微軟亞研院發布了僅 16 億參數的多模態大型語言模型 KOSMOS-1,不僅能看圖回答,還搞定了瑞文智商測試。

大模型的卷,已經不睡覺都趕不上進度了......

這不,微軟亞研院剛剛發布了一個多模態大型語言模型—— KOSMOS-1。

論文題目 Language Is Not All You Need,還得源于一句名言。

文中有這么一句話,「我語言的局限,就是我世界的局限。—— 奧地利哲學家 Ludwig Wittgenstein」

那么問題來了......

拿著圖問 KOSMOS-1「是鴨還是兔」能搞明白嗎?這張有 100 多年歷史的梗圖硬是把谷歌 AI 整不會了。

1899 年,美國心理學家 Joseph Jastrow 首次使用「鴨兔圖」來表明感知不僅是人們所看到的,而且是一種心理活動。

現在,KOSMOS-1 便能將這種感知和語言模型相結合。

-圖中是什么?

-像一只鴨子。

-如果不是鴨子,那是什么?

-看起來更像兔子。

-為什么?

-它有兔子的耳朵。

這么一問,KOSMOS-1 真有點像微軟版的 ChatGPT 了。

不僅如此,Kosmos-1 還能理解圖像、文本、帶有文本的圖像、OCR、圖像說明、視覺 QA。

甚至 IQ 測試也不在話下。

「宇宙」無所不能

據論文介紹,最新 Kosmos-1 模型是一個多模態大型語言模型。

其主干是一個基于 Transformer 的因果語言模型,除了文本之外,其他模態,如視覺、音頻都可以嵌入模型。

Transformer 解碼器用作多模態輸入的通用接口,因此它能感知一般模態,進行上下文學習,并遵循指令。

Kosmos-1 在語言和多模態任務上取得了令人印象深刻的表現,無需進行微調,其中包括帶有文字指示的圖像識別、視覺問答和多模態對話。

如下是 Kosmos-1 生成一些例子式樣。

那么,Kosmos-1 是在哪些數據集上進行預訓練的呢?

訓練所用的數據庫,包括文本語料庫、圖像-字幕對、圖像和文本交叉數據集。

文本語料庫取自 The Pile 和 Common Crawl;

數據庫有了,接下來就是對模型進行預訓練了。

MLLM 組件有 24 層、2,048 個隱藏維度、8,192 個 FFN 和 32 個注意力頭頭,產生了大約 1.3B 的參數。

為了保證優化的穩定性,采用 Magneto 初始化;為了更快地收斂,圖像表示是從一個預先訓練好的具有 1024 個特征維度的 CLIP ViT-L / 14 模型獲取的。在訓練過程中,圖像被預處理成 224×224 分辨率,CLIP 模型的參數除了最后一層均被凍結。

KOSMOS-1 的參數總量約為 16 億。

為了使 KOSMOS-1 更好地與指令保持一致,對其進行了只用語言的指令調整 ,即用指令數據繼續訓練模型,該指令數據是僅有的語言數據,與訓練語料庫混合。

該調優過程是按照語言建模的方式進行的,選取的指令數據集為 Unnatural Instructions 和 FLANv2 (LHV+23)。

結果顯示,指令跟隨能力的提高可以跨模式轉移。

總之,MLLM 可以從跨模態遷移中獲益,將知識從語言遷移到多模態,反之亦然;

5 大類 10 個任務,都拿捏了

一個模型好不好使,拿出來溜溜就知道了。

研究團隊從多角度進行實驗來評價 KOSMOS-1 的性能,包括 5 大類十項任務:

1 語言任務

2 多模態轉移

3 非語言推理

4 感知-語言任務

5 視覺任務

無 OCR 的文本分類

這是一種不依賴于光學字符識別的專注于文本和圖像的理解任務。

KOSMOS-1 對 HatefulMemes 和對 Rendered SST-2 測試集的準確率均高于優于其他模型。

而且 Flamingo 明確提供 OCR 文本到提示中,KOSMOS-1 并沒有訪問任何外部工具或資源,這展示了 KOSMOS-1 閱讀和理解渲染的圖像中的文本的內在能力。

IQ 測試

瑞文智力測試是評估非語言的最常用測試之一。

KOSMOS-1 在沒有進行微調時準確率比隨機選擇提高了 5.3%,經過微調后則提高了 9.3%,表明其具有感知非語言環境中的抽象概念模式的能力。

這是首次有模型能夠完成零樣本 Raven 測試,證明了 MLLMs 通過將感知與語言模型結合起來進行零樣本非言語推理的潛力。

圖像說明

KOSMOS-1 在 COCO 和 Flickr30k 測試中的零樣本性能均表現優秀,相比其他模型,其得分更高,但采用的參數量更小。

在少樣本性能測試中,得分隨著 k 值增大有所增加。

零樣本圖像分類

給定一個輸入圖像,并將該圖像與提示 「The photo of the」連接起來。然后,輸入模型以獲得圖像的類別名稱。

通過在 ImageNet 上評估該模型,在有約束和無約束的條件下,KOSMOS-1 的圖像歸類效果都明顯優于 GIT (WYH+22),展現了完成視覺任務的強大能力。

常識推理

視覺常識推理任務要求模型理解現實世界中日常物體的屬性,如顏色、大小和形狀,這些任務是具有挑戰性的,因為它們可能需要比文本中更多的關于物體屬性的信息。

結果顯示,KOSMOS-1 在尺寸和顏色方面的推理能力都明顯好于 LLM 模型。這主要是因為 KOSMOS-1 具備多模態遷移能力,從而能夠將視覺知識運用到語言任務中,而不必像 LLM 那樣必須依靠文本知識和線索來推理。

對于微軟 Kosmos-1,網友稱贊道,未來 5 年,我可以看到一個高級機器人瀏覽網絡,并僅通過視覺方式基于人類的文本輸入來工作。真是有趣的時代。

參考資料:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

 
上一篇: 回歸產品本質恩威醫藥·超迷你女士護理濕巾喜獲嘉獎
下一篇:最后一頁
 
     欄目排行
  1. 回歸產品本質恩威醫藥·超迷你女士護理濕巾
  2. 美立刻堅定醫學為本,服務更多醫生助推行業
  3. MediBuddy在C輪融資1.25億美
  4. 亮相上海國際消費電子技術展TechG,S
  5. 醫藥行業進入調整改革期,基石藥業創新藥迎
  6. DDC膠原蛋白肽益生菌飲新品上市富含三種
  7. 新冠使患糖尿病風險增加40%,tDCS能
  8. 揭秘精致寶媽高質量喂養秘訣,海普諾凱18
  9. 金可兒“金粉節”大促圓滿落幕,為消費者帶
  10. 悅康藥業聚焦創新人才培養助力研發、推出國
     欄目推薦
二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾
2022年營收78.61億,湯臣倍健迎來VDS行業新2022年營收78.61億,湯臣倍健迎來VDS行業新周期
大興國際氫能示范區兼顧產業發展和配套服務打造員工理想大興國際氫能示范區兼顧產業發展和配套服務打造員工理想生活藍本
迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡
綠色塞罕壩 不朽的奇跡綠色塞罕壩 不朽的奇跡