一级A片线上/亚洲无人区电影完整版小视频/妻孝(改编版+续)/欧美涩涩

   中國金融網 加入收藏    設為首頁
首頁
國內資訊社會財經科技教育時尚娛樂房產家居汽車母嬰健康商業區塊鏈生活企業傳媒區域經濟旅游體育
您現在的位置:首頁 > 國內資訊 > 正文
不用RLHF,匹敵GPT-4,Meta發布LIMA65B,1000個樣本
2023-05-25 12:34      來源:IT之家      編輯:余梓陽      閱讀量:18113   

RLHF 并沒有那么重要!Meta 最新 650 億參數模型 LIMA,僅用 1000 個樣本,實現與 GPT-4 相匹敵的性能。

人人都知,讓 ChatGPT 稱霸天下的秘密武器,就是人類反饋強化學習。

而現在,Meta AI 等機構的爆火研究 LIMA 直接打破這一規則,直言 RLHF 并沒有那么重要!

論文一出,直接在 AI 圈炸了鍋!

就連 LeCun 忍不住發推炫一番:LIMA:LLaMa-65B+1000 監督樣本 = GPT-4 / Bard 級別的性能。

正如標題所稱,LIMA 是「Less is More for Alignment」,暗示著一個強大的預訓練 AI 模型,通過幾個樣本就足以實現高質量的結果。

而 LIMA 僅在 1000 個精心挑選的樣本上微調 LLaMa-65B,而且無需 RLHF,就實現了與 GPT-4 和 Bard 相媲美的性能。

論文中,研究人員將這一突破稱為「表面對齊假設」。

實驗證明了,大語言模型在預訓練階段就已習得大部分知識,僅用有限的指令微調數據,足以教會模型產生高質量的內容。

高質量的數據就可以克服小樣本量?訓練這樣模型的成本是多少,這是否意味著小型 LLM 玩家可以與 OpenAI / 谷歌競爭?

還有網友質疑,GPT-4 在 57% 情況中擊敗 LIMA,還能說性能相當?

RLHF 并非王者?

大語言模型經過預訓練,能在大規模上預測下一個 token,讓其學習通用表征。這些表征可以轉移到幾乎任何語言理解或生成任務中。

為了實現這種轉移,人們已經提出各種「對齊」語言模型的方法,主要側重在百萬級 token 上進行指令調優。

而最近采用較多的是,從人類反饋中進行強化學習。這些反饋便是在與人類標注者進行數百萬次互動中收集的。

ChatGPT 令人深刻的表現,主要歸功于 RLHF。根據 OpenAI 的思路,RLHF 分為三步。

然而,現有的對齊方法代價是高昂的,需要大量算力,以及專門的數據才能實現像 ChatGPT 一樣的性能。

Meta AI 卻要逆行其道,證明了,一個預訓練語言模型可以通過簡單地微調精心挑選的 1000 個樣本,就能實現強大的性能。

在此,研究人員提出「表面對齊假設」,假設「對齊」可以是一個簡單的過程,。

在這個過程中,模型的知識和能力幾乎完全是在預訓練期間學習的,而「對齊」只告訴模型學習與用戶交互的風格或格式

為了驗證這個假設,Meta 等研究者挑選了 1000 個近似于真實用戶提示,以及高質量響應的樣本。

此外,研究者手動編寫了 250 個提示和響應的樣本,同時對任務的多樣性進行了優化。

最后,研究人員對預訓練 LLaMa 65B 模型在 1000 個樣本集上進行微調,并進行了人類評估。

評估結果

Meta 將 LIMA 與 5 個模型基準進行了比較:

Alpaca 65B—— 利用 52,000 個樣本對 LLaMa 65B 微調后得到的大模型

DaVinci003—— 基于 RLHF 訓練的大語言模型

Bard—— 基于谷歌的 PaLM 模型

Claude—— 通過強化學習 Constitutional AI 訓練的 52B 參數模型

GPT-4—— 目前使用 RLHF 訓練的最強的模型

為了比較 LIMA 和其他 SOTA 模型,Meta 為每個測試提示生成一個單一的響應。

然后,要求人類參與者將 LIMA 的輸出與每個基準進行比較,并標記他們更喜歡哪一個。

在人類偏好研究中,盡管 Alpaca 65B 的訓練數據量是 LIMA 的 52 倍,但它產生的輸出往往比 LIMA 的不如人意。

讓人大跌眼鏡的是,DaVinci003 也是同樣的情況,雖然程度較小。該模型使用了 RLHF 進行訓練,這本應是一種更優越的對齊方法。

而 Bard 在 42% 的時間中,其產生的回答優于 LIMA。這也意味著,剩下的 58% 時間里,LIMA 的響應至少和 Bard 一樣優秀。

最后,研究者發現,雖然 Claude 和 GPT-4 通常表現得比 LIMA 更好,但在一些情況下,LIMA 實際上能產生更好的回答。

另外,諷刺的是,在 GPT-4 的偏好研究中,有 19% 的時間,GPT-4 更喜歡 LIMA 的輸出。

「表面對齊假設」

Meta 將這一發現定義為「表面對齊假設」。

它表明,所謂預訓練后的對齊階段,主要是讓模型學會一種特定的風格或格式,這種風格或格式在與用戶交互時可以被模型回憶起來。

因此,「微調」更多是關于風格,而不是實質。

LIMA 的結果表明,實際上,利用簡單的方法就可以解決對齊和微調 AI 模型這類復雜問題。

這與諸如 OpenAI 的 RLHF 那些,特別繁瑣和復雜的微調過程,形成了鮮明的對比。

不過,LIMA 也不是萬能的。Meta 認為,該方法存在兩個明顯的局限:

第一,用高質量的示例構建數據集是一種非常具有挑戰性的方法,很難擴展。

第二,LIMA 并不像已經有產品的模型那樣強大,比如 GPT-4。

團隊表示,雖然 LIMA 的生成結果,在大部分情況下質量都很高。但一個「對抗性的提示」或一個「不走運的樣本」,依然會讓模型產生不理想的答案。

Yann LeCun 對 GPT-4 和類似模型背后努力的相對貶值采取了務實的看法。

他將大型語言模型看作是近期的一個元素,至少在中期內不會「在沒有重大變化」的情況下發揮作用。

以上,主要評估是根據最先進的模型對 LIMA 進行評估,但需要明確的是,其中一些模型實際上已經在訓練期間使用了數百萬真實用戶的提示。

對此,研究人員通過手動分析 50 個隨機示例來進行絕對的評估。

并將每個示例標記成 3 個類別:Fail,響應不符合提示符的要求;Pass,響應符合;Excellent,對提示提供了優秀的響應。

實驗結果顯示,50% 的 LIMA 回答被認為是優秀的,它能夠遵循所有的 50 個分析提示中的 44 個。

如下,LIMA 針對育兒建議和生成食譜的示例進行的輸出。

另外,一個僅在 1000 個樣本上微調的模型在多輪對話中表現又如何?

在零樣本上,LIMA 的響應出奇地連貫,并引用了前面對話的信息。在 10 次對話中,LIMA 有 3 次未能遵循提示。

為了提高對話能力,研究人員收集了 30 個多輪對話。其中 10 個是由作者手動編寫,20 個來自 Stack Exchange,并根據助手風格進行編輯。

研究者使用組合的 1,030 個示例對預訓練模型進行微調,得到一個新版本的 LIMA,并針對相同的提示進行了 10 次實時對話。

實驗發現加入這 30 個示例后生成質量顯著提升,優質響應比例從 45.2%提高到 76.1%!

LIMA 如何以「少」勝「多」

團隊通過消融實驗,研究了訓練數據多樣性、質量和數量的影響。

Meta 發現,為了對齊目的,提高輸入多樣性和輸出質量有可測量的正面效應,而單獨增加數量卻沒有。

實驗設置

團隊在各種數據集上微調了一個擁有 70 億參數的 LLaMa 模型,并控制了相同的超參數。

團隊對每個測試集提示抽取 5 個回應,并通過讓 ChatGPT在 1-6 的 Likert 量表上評級回應的幫助性來評估回應質量。

多樣性

為了測試提示多樣性的影響,同時控制質量和數量,團隊比較了在質量過濾后的 Stack Exchange 數據和 wikiHow 數據上的訓練效果。

圖 5 顯示,更多樣的 Stack Exchange 數據顯著提升了模型的性能。

質量

為了測試響應質量的影響,團隊從 Stack Exchange 抽取了 2000 個沒有任何質量或風格過濾的示例,并比較了在這個數據集和過濾后的數據集上訓練的模型。

圖 5 顯示,在過濾和未過濾的數據源上訓練的模型之間存在著 0.5 點的差異。

數量

在眾多機器學習設置中,都會采用增加示例數量的策略,來提升性能。

為了測試其影響,團隊從 Stack Exchange 中抽取了呈指數增長的訓練集。

但實際上,如圖 6 所示,數據翻倍的訓練集并未改善響應質量。

如此一來也暗示了,對齊的規模法則不必然只受數量影響,而更可能是在保持高質量響應的同時,提升提示的多樣性。

作者介紹

Chunting Zhou 是 Meta AI 的一名研究科學家。

2022 年 5 月,她在卡內基梅隆大學語言技術研究所獲得博士學位,在那里從事自然語言處理工作,導師是 Graham Neubig。Zhou 的主要研究興趣在于自然語言處理和機器學習的交叉領域,并對開發對分布變化具有魯棒性的方法感興趣,目的是學習模型能夠在各種群體中表現統一。

此外,Zhou 還研究生成模型,及其在自然語言處理任務中的應用。

參考資料:

鄭重聲明:此文內容為本網站轉載企業宣傳資訊,目的在于傳播更多信息,與本站立場無關。僅供讀者參考,并請自行核實相關內容。

 
上一篇: 惠普戰99銳龍版筆記本電腦開啟預售:R57640HS/R77840HS處
下一篇:最后一頁
 
     欄目排行
  1. 惠普戰99銳龍版筆記本電腦開啟預售:R5
  2. 馬斯克:AI是一把“雙刃劍”,具有控制人
  3. 聯想小新PadPro2022迅鯤版平板開
  4. SimplyNUC推出新款電腦主機P36
  5. 古爾曼稱蘋果在iOS17中改進鎖屏界面,
  6. 三星推出新一代玄龍騎士電競顯示器OLED
  7. 佳能RF系列首款“餅干”鏡頭RF28mm
  8. FastIPS面板+170Hz高刷:KT
  9. 哈弗大狗對決長安CS75 PLUS,誰才
  10. 美聯儲紀要:對未來利率前景有分歧,現在評
     欄目推薦
二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾二手房“帶押過戶”啟動滿月 成功嘗鮮者寥寥無幾
2022年營收78.61億,湯臣倍健迎來VDS行業新2022年營收78.61億,湯臣倍健迎來VDS行業新周期
大興國際氫能示范區兼顧產業發展和配套服務打造員工理想大興國際氫能示范區兼顧產業發展和配套服務打造員工理想生活藍本
迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡迪麗熱巴穿軍綠色也好美!和吳磊同框絲毫沒有年齡
綠色塞罕壩 不朽的奇跡綠色塞罕壩 不朽的奇跡