亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看

登錄
首頁 > 汽車測評 > Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

Meta超級智能實驗室新論文陷爭議!被指忽略大量前人研究

發布時間:2025-09-13 12:07:07

Meta超級智能實驗室(MSL)又被送上爭議的風口浪尖了。

不過,這次不是人事風波,而是他們的第二篇論文《Language Self-Play For Data-Free Training》被質疑忽視前人研究、缺乏創新

究竟是啥論文?

讓模型在博弈中學習

總的來說,MSL這篇新論文的核心思想是通過一種Language Self-Play(LSP)的方法,讓大型語言模型在沒有額外訓練數據的情況下實現自我提升

這一方法旨在應對當前大語言模型高度依賴大規模、高質量訓練數據,且訓練數據有限所帶來的困境。

為此,LSP將模型的學習過程設計成一個博弈框架,讓同一個語言模型扮演兩個角色進行對抗,從而實現無數據訓練。

具體來說,這兩個角色分別是:

  • 挑戰者:負責生成越來越有挑戰性的問題或指令。
  • 解決者:負責回答或執行這些指令。

在對抗過程中,挑戰者不斷生成越來越刁鉆的問題或指令,以降低解決者的預期回報;而解決者則必須努力理解并回答這些指令,以最大化自身回報——這其實就是我們熟悉的極小極大博弈(minimax game)。

通過這樣的對抗訓練,模型能夠在不斷博弈中持續改進,逐步提升能力。

此外,與傳統對抗訓練不同,LSP讓單個語言模型同時扮演“挑戰者”和“解決者”兩個角色,研究人員給模型設計了一個特殊的“挑戰者提示”(Challenger Prompt):當接收到該提示時,模型進入挑戰者模式,生成難題;否則,它就扮演解決者角色,回答問題。

這種單一模型的設計避免了訓練獨立對抗模型所帶來的額外開銷和不穩定性。整個過程完全自主,模型在自我對抗中不斷迭代,從而在沒有外部數據輸入的情況下提升自身能力

為了將這個博弈轉化成模型強化學習的過程,研究中采用了GRPO技巧,讓模型在每輪訓練中進行如下操作:

  • 挑戰者生成問題:每輪生成N個問題。

  • 解決者回答問題:對于每個問題,解決者生成一定數量的答案,并分別計算獎勵。

  • 計算組價值與優勢:把解決者對同一個問題的所有答案的獎勵進行平均,得到這個問題整體的難度或表現水平。然后用每個答案的實際獎勵減去組價值,判斷這個答案比平均水平高還是低。 - 更新挑戰者優勢:通過計算優勢函數獲得問題和答案的反饋,優化自己出題的策略。

通過這種獎勵機制,挑戰者生成的問題會針對解決者的薄弱環節,從而推動模型不斷改進。

研究將這一方法稱為Language Self-Play Zero(LSP-Zero),其中 Zero 表示零和。

此外,在實踐中,研究者發現LSP-Zero有時會退化,例如模型為了獲取獎勵而生成無意義但能獲得高分的內容(即獎勵 hacking)。

針對解決這個問題,他們在LSP算法中引入了“自我質量獎勵”(RQ),引導博弈朝高質量交互發展,使訓練可長期進行。

(注:LSP的具體算法如下表)

最后,為了驗證LSP算法的有效性,研究者使用Llama-3.2-3B-Instruct模型在Alpaca Eval基準上進行了兩組實驗。

實驗一將算法與基礎模型本身以及一個通過傳統強化學習微調的大語言模型進行比較。

實驗結果顯示,沒有使用任何數據的LSP和LSP-Zero和使用了數據的GRPO相當,并且顯著優于原始模型。而在 Vicuna這類對話型和開放式指令的數據集上,LSP 的表現遠超GRPO。

實驗二以實驗一中通過數據驅動 RL(GRPO)訓練得到的模型為起點,進一步使用 LSP-Zero 和 LSP 進行訓練,計算這些模型相對于Llama-3.2-3B-Instruct的勝率,并與初始的 RL 模型進行對比。

實驗顯示,經過LSP的進一步訓練后,模型的整體勝率從40.9%顯著提升到了43.1%。

同樣的,LSP在Vicuna數據集上的提升尤為明顯。這表明 LSP 可以作為一種有效的方法,在數據驅動的訓練之后繼續挖掘模型潛力。

總的來說,實驗結果表明,LSP-Zero和LSP算法能夠在無需訓練數據的情況下提升預訓練LLM的性能,尤其是在對話類任務上表現顯著,而這可能意味著AI正在從依賴人類數據過渡到自主學習系統。

網友:感覺忽略了大量前人研究?

雖然(……)但是,LSP一經發布后,在網友們這倒是出了些小插曲。

一位推特網友直言:LSP自稱是突破性工作,但實際上忽視了大量前人研究,還順帶翻了一些舊賬。

抱歉了,Meta“超級智能”實驗室,但 @_AndrewZhao 等人的工作做得更好,而你們卻沒有引用。其實很多人都做過類似研究(比如 @Benjamin_eecs),無論是聯合最大化還是極小極大,不管是驗證器還是獎勵模型。為什么要把這說成是突破呢?你們在Vicuna上的評測確實做得不錯,簡直是2023年LLaMA社區的典型操作。

而且,就連失敗的模型也大同小異。

評論區有網友表示這可能是一篇老工作,然后拿到MSL發的:

Copyright 2017-2025 新車測評網 版權所有  ICP備18049689號-30
亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看
欧美视频免费播放| japanese在线视频| 日韩精品一区中文字幕| www欧美激情| 国产乱子伦精品无码专区| wwwxxx黄色片| 国产女主播av| 无限资源日本好片| 超碰97在线看| 九九视频精品在线观看| 日韩人妻一区二区三区蜜桃视频| 日本特级黄色大片| 99视频免费播放| 国产freexxxx性播放麻豆| 亚洲综合123| 人人爽人人av| 黄色片视频在线免费观看| 特大黑人娇小亚洲女mp4| 国产嫩草在线观看| 欧美 日韩 亚洲 一区| 激情成人在线观看| 成人在线观看a| 国产真人做爰毛片视频直播| 深爱五月综合网| 成人在线看视频| 成人午夜免费在线| 中文字幕在线视频一区二区| 久热精品在线播放| 国产自产在线视频| 国产一级黄色录像片| 精品日韩久久久| 乱子伦视频在线看| 大陆极品少妇内射aaaaa| www.av91| 久久久久99精品成人片| 日本老太婆做爰视频| 天天综合成人网| 天堂中文av在线| 五月婷婷六月合| 欧美私人情侣网站| 国产精品333| 黄色一级在线视频| 日韩精品视频在线观看视频| 污污视频网站在线| 五月天av在线播放| 日本在线观看免费视频| 免费在线观看的av网站| 国模无码视频一区二区三区| 18禁免费观看网站| www一区二区www免费| 欧美日韩成人免费视频| 人妻少妇精品无码专区二区 | 日韩人妻精品无码一区二区三区| 女人色极品影院| 国产精彩视频一区二区| 第九区2中文字幕| 男同互操gay射视频在线看| 国产免费色视频| 男女男精品视频站| 中文字幕第38页| 五月天婷婷在线观看视频| 日韩不卡的av| 2022中文字幕| 鲁一鲁一鲁一鲁一色| 男人天堂1024| 成人免费xxxxx在线视频| 亚洲欧美自拍另类日韩| 91 视频免费观看| 五月天男人天堂| 久久最新免费视频| 国产xxxx振车| 大陆极品少妇内射aaaaa| 日本熟妇人妻xxxxx| 中文字幕天天干| www.桃色.com| 亚洲精品偷拍视频| 久久成人福利视频| 超碰97人人射妻| 日韩免费高清在线| 亚洲五码在线观看视频| 日韩精品在线视频免费观看| 亚洲乱码中文字幕久久孕妇黑人| 亚欧美在线观看| 97精品国产97久久久久久粉红| 91精品国产毛片武则天| 北条麻妃在线视频观看| 亚洲77777| bt天堂新版中文在线地址| 免费无码国产v片在线观看| 久久久国产欧美| 国内精品国产三级国产aⅴ久| 青青草精品视频在线| 狠狠热免费视频| 天天干天天综合| www.桃色.com| 日韩a∨精品日韩在线观看| 成人性做爰aaa片免费看不忠| 日韩av影视大全| av之家在线观看| 亚洲三级在线观看视频| 欧美成人三级在线视频| 天堂网在线免费观看| 极品粉嫩国产18尤物| 日韩高清第一页| 日本a视频在线观看| 国产精品嫩草影院8vv8| 日本欧美黄色片| 成人羞羞国产免费网站| 欧美黄色免费网址| 久久精品午夜福利| www.激情网| 五月天中文字幕在线| 一二三四视频社区在线| 亚洲综合123| 精品www久久久久奶水| 欧美美女黄色网| www亚洲成人| 欧美视频免费看欧美视频| а 天堂 在线| 草草草在线视频| 国产亚洲黄色片| 成人网站免费观看入口| 亚洲小视频网站| 99视频精品免费| 国产69精品久久久久久久| 欧美一级黄色录像片| 日韩黄色片视频| 日韩极品视频在线观看| 五月天六月丁香| 91制片厂毛片| 欧美日韩中文在线视频| 全黄性性激高免费视频| 777久久精品一区二区三区无码| 日韩精品视频一二三| 99热这里只有精品在线播放| 无码中文字幕色专区| 人人妻人人澡人人爽欧美一区| 亚洲免费黄色录像| 一道本视频在线观看| 国产免费成人在线| 丁香花在线影院观看在线播放| 成年人三级视频| 色婷婷综合在线观看| 国内av一区二区| 亚洲人视频在线| 久久撸在线视频| 日本激情视频在线播放| 免费国产成人av| 亚洲一区二区三区av无码| 日本福利视频在线观看| 无码毛片aaa在线| 热久久最新地址| 免费看av软件| 日日噜噜夜夜狠狠久久丁香五月| 欧美在线a视频| 亚洲第一区第二区第三区| 极品粉嫩美女露脸啪啪| www.日本一区| 亚洲精品www.| 五月婷婷激情久久| 老司机午夜性大片| 天堂av8在线| 两性午夜免费视频| 97超碰人人爱| 成人在线免费观看视频网站| 精品欧美一区免费观看α√| 成人免费观看毛片| 中文字幕国产免费| 成人一级生活片| 久久久久国产一区| 日本a在线天堂| 男人透女人免费视频| 色黄视频免费看| 成人免费在线小视频| 欧美丝袜在线观看| 久久精品国产sm调教网站演员 | 成人黄色一区二区| 日本xxxxx18| 一本久道中文无码字幕av| 男人的天堂成人| 日本男人操女人| 日韩亚洲欧美一区二区| 欧美性猛交xxx乱久交| 50度灰在线观看| 在线观看av日韩| 97超碰在线人人| 久久6免费视频| 日本三级免费网站| 一区二区三区日韩视频| 北条麻妃视频在线| 欧美午夜小视频| 欧美激情第一区| 免费激情视频在线观看| 日韩视频在线视频| 男女视频在线观看网站| 日本黄网站免费| 欧洲精品在线播放| 国产精品探花在线播放| 99久久国产宗和精品1上映 | 免费在线观看日韩视频|