亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看

登錄
首頁(yè) > 別克 > 全新MoE架構(gòu)!阿里開(kāi)源Qwen3-Next,訓(xùn)練成本直降9成

全新MoE架構(gòu)!阿里開(kāi)源Qwen3-Next,訓(xùn)練成本直降9成

發(fā)布時(shí)間:2025-09-13 12:22:00 發(fā)布用戶: kangbai
訓(xùn)練、推理性價(jià)比創(chuàng)新高。

大語(yǔ)言模型(LLM),正在進(jìn)入 Next Level。

周五凌晨,阿里通義團(tuán)隊(duì)正式發(fā)布、開(kāi)源了下一代基礎(chǔ)模型架構(gòu) Qwen3-Next。總參數(shù) 80B 的模型僅激活 3B ,性能就可媲美千問(wèn) 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實(shí)現(xiàn)了模型計(jì)算效率的重大突破。

新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。

  • 新模型網(wǎng)頁(yè)版:https://chat.qwen.ai/
  • HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
  • Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b

Qwen3-Next 針對(duì)大模型在上下文長(zhǎng)度擴(kuò)展(Context Length Scaling)和參數(shù)量擴(kuò)展(Total Parameter Scaling)的未來(lái)趨勢(shì)而設(shè)計(jì)。通義團(tuán)隊(duì)表示,其模型結(jié)構(gòu)相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術(shù)并進(jìn)行了核心改進(jìn),包括混合注意力機(jī)制、高稀疏度 MoE 結(jié)構(gòu)、一系列提升訓(xùn)練穩(wěn)定性的優(yōu)化,以及提升推理效率的多 token 預(yù)測(cè)(MTP)機(jī)制等。

模型結(jié)構(gòu)示意圖:

通義團(tuán)隊(duì)介紹了新架構(gòu)使用的一些機(jī)制。

  • 混合架構(gòu):Gated DeltaNet + Gated Attention

線性注意力打破了標(biāo)準(zhǔn)注意力的二次復(fù)雜度,在處理長(zhǎng)上下文時(shí)有著更高的效率。通義團(tuán)隊(duì)發(fā)現(xiàn),單純使用線性注意力或標(biāo)準(zhǔn)注意力均存在局限:前者在長(zhǎng)序列建模上效率高但召回能力弱,后者計(jì)算開(kāi)銷大、推理不友好。

通過(guò)系統(tǒng)實(shí)驗(yàn),人們發(fā)現(xiàn) Gated DeltaNet 相比常用的滑動(dòng)窗口注意力(Sliding Window Attention)和 Mamba2 有更強(qiáng)的上下文學(xué)習(xí)(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標(biāo)準(zhǔn)注意力)下能一致超過(guò)超越單一架構(gòu),實(shí)現(xiàn)性能與效率的雙重優(yōu)化。

在保留的標(biāo)準(zhǔn)注意力中,通義進(jìn)一步引入多項(xiàng)增強(qiáng)設(shè)計(jì):

(1)沿用先前工作中的輸出門控機(jī)制,緩解注意力中的低秩問(wèn)題;

(2)將單個(gè)注意力頭維度從 128 擴(kuò)展至 256;

(3)僅對(duì)注意力頭前 25% 的位置維度添加旋轉(zhuǎn)位置編碼,提高長(zhǎng)度外推效果。

  • 極致稀疏 MoE:僅激活 3.7% 參數(shù)

Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構(gòu),總參數(shù)量達(dá) 80B,每次推理僅激活約 3B 參數(shù)。實(shí)驗(yàn)表明,在使用全局負(fù)載均衡后,當(dāng)激活專家固定時(shí),持續(xù)增加專家總參數(shù)可帶來(lái)訓(xùn)練 loss 的穩(wěn)定下降。

相比 Qwen3 MoE 的 128 個(gè)總專家和 8 個(gè)路由專家,Qwen3-Next 擴(kuò)展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。

  • 訓(xùn)練穩(wěn)定性友好設(shè)計(jì)

通義團(tuán)隊(duì)發(fā)現(xiàn), 注意力輸出門控機(jī)制能消除注意力池與極大激活等現(xiàn)象,保證模型各部分的數(shù)值穩(wěn)定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會(huì)出現(xiàn)異常高的情況。為緩解這一現(xiàn)象,進(jìn)一步提高模型的穩(wěn)定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎(chǔ)上對(duì) norm weight 施加 weight decay,以避免權(quán)重?zé)o界增長(zhǎng)。

通義還在初始化時(shí)歸一化了 MoE router 的參數(shù),確保每個(gè) expert 在訓(xùn)練早期都能被無(wú)偏地選中,減小初始化對(duì)實(shí)驗(yàn)結(jié)果的擾動(dòng)。

  • Multi-Token Prediction

Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機(jī)制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優(yōu)化了 MTP 多步推理性能,通過(guò)訓(xùn)練推理一致的多步訓(xùn)練,進(jìn)一步提高了實(shí)用場(chǎng)景下的 Speculative Decoding 接受率。

通義千問(wèn)大模型負(fù)責(zé)人林俊旸在 X 上分享了新一代模型開(kāi)發(fā)的細(xì)節(jié)。他表示團(tuán)隊(duì)已經(jīng)在混合模型和線性注意力機(jī)制上進(jìn)行了大約一年的實(shí)驗(yàn)。新的解決方案應(yīng)該足夠穩(wěn)定可靠,能夠應(yīng)對(duì)超長(zhǎng)上下文。

Gated DeltaNet 加混合是經(jīng)過(guò)大量嘗試和錯(cuò)誤才實(shí)現(xiàn)的,而 Gated Attention 的實(shí)現(xiàn)就像是免費(fèi)的午餐,可以獲得額外好處。

得益于創(chuàng)新的混合模型架構(gòu),Qwen3-Next 在推理效率方面表現(xiàn)出顯著優(yōu)勢(shì)。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預(yù)填充(prefill)階段展現(xiàn)出卓越的吞吐能力:在 4k tokens 的上下文長(zhǎng)度下,吞吐量接近前者的七倍;當(dāng)上下文長(zhǎng)度超過(guò) 32k 時(shí),吞吐提升更是達(dá)到十倍以上。

在解碼(decode)階段,該模型同樣表現(xiàn)優(yōu)異 —— 在 4k 上下文下實(shí)現(xiàn)近四倍的吞吐提升,而在超過(guò) 32k 的長(zhǎng)上下文場(chǎng)景中,仍能保持十倍以上的吞吐優(yōu)勢(shì)。

基于 Qwen3-Next 的模型結(jié)構(gòu),通義團(tuán)隊(duì)訓(xùn)練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(shù)(僅激活 30 億參數(shù)),實(shí)現(xiàn)了與 Qwen3-32B dense 模型相近甚至略好的性能,同時(shí)訓(xùn)練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實(shí)現(xiàn)了極致的訓(xùn)練和推理性價(jià)比。

通義團(tuán)隊(duì)開(kāi)源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機(jī)制 + 高稀疏度 MoE 架構(gòu)在強(qiáng)化學(xué)習(xí)訓(xùn)練中長(zhǎng)期存在的穩(wěn)定性與效率難題,實(shí)現(xiàn)了 RL 訓(xùn)練效率與最終效果的雙重提升。

在編程(LiveCodeBench v6)、人類偏好對(duì)齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評(píng)測(cè)中,Qwen3-Next-Instruct 表現(xiàn)甚至超過(guò)了千問(wèn)的開(kāi)源旗艦?zāi)P停⒃诎ㄓ弥R(shí)(SuperGPQA)、數(shù)學(xué)推理(AIME25)等核心測(cè)評(píng)中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數(shù)學(xué)推理 AIME25 評(píng)測(cè)中獲得了 87.8 分。而達(dá)到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數(shù) 80B 中的 3B。

目前,Qwen3-Next 模型也已經(jīng)在很多第三方平臺(tái)中上線。

使用新模型在 anycoder 中的 vibe coding 示例:

Copyright 2017-2026 微學(xué)堂 版權(quán)所有  ICP備18049689號(hào)-30
亚洲一级免费观看_五十路熟女丰满大屁股_国产高清精品软男同_日本久久久精品视频_中文字幕色呦呦_欧美精品久久96人妻无码_亚洲一二区在线观看_少妇高清精品毛片在线视频_黄色影视在线观看_eeuss中文_午夜探花在线观看_日韩精品在线视频免费观看
中文字幕亚洲影视| 91麻豆国产自产在线观看亚洲| 日韩不卡免费高清视频| 亚洲综合三区| 日韩欧美精品综合| 蜜桃视频在线观看一区| 欧美xxxx中国| 日韩高清国产一区在线| 91精品观看| 麻豆mv在线观看| 国产精品黄色| 激情综合网站| 欧美一区久久久| 精品国产亚洲一区二区三区在线| 综合亚洲视频| 久久精品av| 日韩高清欧美| 成人国产精品久久| 国产精品一卡| 日韩二区三区四区| 免费在线观看不卡| 91久久中文| 婷婷中文字幕一区| 成人国产精品| 欧美丰满日韩| 91麻豆国产自产在线观看亚洲| 欧美一区网站| 日韩午夜视频在线| 视频一区中文字幕精品| 免费精品视频在线| 在线免费观看亚洲| 亚洲视频电影在线| 日韩午夜视频在线| 91av一区| 国产一区二区三区91| 国产精品66| 国产成人免费精品| 国产高清不卡| 99久久九九| 99视频一区| 在线视频亚洲欧美中文| 免费在线看一区| 97精品国产99久久久久久免费| 91精品国产经典在线观看| 欧美日韩调教| 精品91福利视频| 久久久国产精品一区二区中文| аⅴ资源天堂资源库在线| 色综合www| 视频在线观看一区| 欧美精品影院| 亚洲精品在线影院| 亚洲激情婷婷| 国产丝袜一区| 日本蜜桃在线观看视频| 99视频在线精品国自产拍免费观看| 不卡一区综合视频| 天堂av一区| 成人在线视频区| 99成人超碰| 天海翼亚洲一区二区三区| 国产激情综合| 99久久亚洲精品蜜臀| 麻豆成人在线| 欧美国产另类| 欧美日韩免费观看一区=区三区| 香蕉久久夜色精品国产| 久久国产麻豆精品| 99久精品视频在线观看视频| 免费日韩av片| 国产一区二区三区91| 亚洲国产成人精品女人| 青草av.久久免费一区| 五月天av在线| 日韩在线观看中文字幕| 久久久一本精品| 日本在线视频一区二区| 久久激情网站| 国产精品一二| 亚洲天堂日韩在线| 国产一在线精品一区在线观看| 久久国产三级| 日韩中文字幕区一区有砖一区| 成人精品久久| 91亚洲精品视频在线观看| 亚洲午夜av| 欧美国产精品| 日韩精品一区二区三区中文| 欧美日韩国产高清电影| 精品久久不卡| 日韩av电影一区| 热久久国产精品| 在线视频免费在线观看一区二区| 国产精品mv在线观看| 亚洲日本欧美| 亚洲欧美日本日韩| 亚洲激情中文在线| 国产精品久久久久久久久久10秀| 日韩成人午夜精品| 在线国产日韩| 亚洲我射av| 亚洲深爱激情| 久久成人一区| 国产农村妇女精品一二区| 青青久久av| 久久国产中文字幕| 99成人超碰| 久久亚洲成人| 久久中文字幕av| 欧美1区免费| 好吊日精品视频| 久久影视一区| 九一精品国产| 亚洲欧美日韩视频二区| 伊人www22综合色| 日韩精品高清不卡| 亚洲91网站| 免费亚洲一区| 黄毛片在线观看| 视频二区不卡| 亚洲一区二区成人| 中文字幕亚洲影视| 国产欧美日韩一区二区三区四区 | 首页国产欧美日韩丝袜| 亚洲成人免费| 视频国产精品| 精品视频黄色| 久久久影院免费| 在线观看一区| 麻豆精品在线播放| 91麻豆国产自产在线观看亚洲| 中文字幕在线视频网站| 香蕉国产精品| 国产精品va视频| 久久精品卡一| 婷婷久久免费视频| 成人午夜在线| 美女久久一区| 国产成人精品一区二区三区在线| 日韩精品电影| 亚洲免费婷婷| 色爱综合网欧美| 中文字幕中文字幕精品| 久久一区国产| 亚洲欧洲一区二区天堂久久| 日韩精品成人在线观看| 美女性感视频久久| 国产视频一区三区| 精品精品国产三级a∨在线| 午夜久久黄色| 六月丁香综合在线视频| 激情久久五月| 国产精品一区二区美女视频免费看| 日韩欧美一区二区三区免费看| 亚洲一级影院| 免费日韩一区二区三区| 午夜视频精品| 欧美精品导航| 亚洲一区二区三区在线免费| 中文字幕在线官网| 日本视频一区二区| 欧美日韩精品一区二区视频| 欧美久久精品| 日韩中文字幕av电影| 成人羞羞在线观看网站| 国产精品视频一区二区三区综合 | 亚洲一区二区三区免费在线观看| 国产欧美91| 亚洲主播在线| 91精品国产成人观看| 成人高清一区| 嫩呦国产一区二区三区av| 日本大胆欧美人术艺术动态| av亚洲一区二区三区| 久久国产免费看| 中文字幕日韩亚洲| 欧美在线亚洲| 久久久久一区| 亚洲精品一区三区三区在线观看| 国产欧美88| 亚洲va久久久噜噜噜久久| 99国产精品久久久久久久| 日韩一区二区中文| 福利一区二区免费视频 | 国产精品主播| 亚洲日本欧美| 在线精品视频一区| 亚洲一区二区动漫| 国产视频一区在线观看一区免费| 日韩国产一区| 日韩欧美一区二区三区在线观看 | 青草国产精品久久久久久| 国产精品免费看| 亚洲一区日韩在线| 欧美日韩日本国产亚洲在线 | 日韩免费小视频| 婷婷中文字幕一区| 久久福利影视| 亚洲我射av| 麻豆国产精品一区二区三区|