
MoE混合专家模型实现稀疏激活,大容量低算力
AI摘要
北海のAI
今天看到群里讨论关于模型的事,后面了解到MOE模型,其实在DeepSeek出的时候听到过这个混合专家模型,当时只是以为提出了一种新的算法处理数据,今天才知道还有很多的内容,其实就是在减少算力成本下,一个模型可以装下更多的内容
一、知识前瞻
1、总知识库
- 训练阶段会将互联网所有文本喂进去,然xx个专家各自“认领”不同主题的语句
- 结果:
– expert-5 手册里全是“老年、痴呆、谵妄、苯二氮卓”
– expert-27 手册里全是“ICU、术后、感染、代谢紊乱”
– …… - 这些手册一起存到硬盘里,就是所谓的“总知识库”(235B、309B这种大数字)
- 推理的时候全部放到显存或内存,但不会全部查阅
2、专科模型
当用户输入一个问题例如:“我的朋友术后晚上胡言乱语,是什么状况”
-
前台分诊(Gate,0.1 ms)
token 序列 → 线性层 + Softmax → 得到 64 维概率 → 挑 top-2:
[ expert-5 概率 0.42 | expert-27 概率 0.31 | 其余 <0.05 ]
-
只把这两位专家“叫醒”
把 token 向量只送进 expert-5 与 expert-27 的小 FFN;其余 62 个直接短路。
这一步就是“找专科”——不是额外再加载模型,而是从已驻留的 64 份权重里选 2 份做矩阵乘。
-
合并结果 → 后续自注意力 → 输出“考虑术后谵妄,建议复查电解质、控制疼痛、减少夜间干扰……”
3、激活参数
在MoE模型中,激活参数就是先有个小门去为你的每个token去挑选专家的决策过程, 门控网络 为每个token选出的 Top-k 个专家,只让这k个小网络做矩阵乘法,其它的都自动跳过。于是这种总参数可以很大(200 B),但一次前向只算 10 B 左右的“激活参数”,实现大容量、低算费。
- 门控打分:每个token先进入门控网络(通常是一个线性层 + Softmax),得到对所有专家的权重分数。
- Top-k 稀疏选择:只保留分数最高的 k 个专家(k≪N,常见 1 或 2),我看一些大模型源码中配置强制为2,其余专家权重直接置零——这一步就是“稀疏激活”的核心 。
例如:k=2 时,一个 token 仅被送到 2 个 FFN 专家做前向计算,其余 62 个专家完全跳过。 - 加权融合:被选专家的输出按门控权重加权求和,形成该 MoE 层的最终表示 。
最终就是这样可以存的多可以装下200B+的知识,却只用10B的算力。
二、MOE模型
| 推荐序 | 模型名称 | 总/激活参数 | 训练成本* | 推理成本*(AWQ4) | 下载地址 | 点评 |
|---|---|---|---|---|---|---|
| 1 | OLMoE-1B-7B | 7B / 1.3B | 极低 | 8 GB 显存 | HF 仓库 | 最小 MoE,边缘盒子也能跑,实验性价比之王 |
| 2 | GPT-OSS-20B | 20B / 3.6B | 低 | 12 GB 显存 | HF 仓库 | 单卡 3090 实时,代码/数学场景超越同尺寸 Dense |
| 3 | Qwen3-235B-MoE-A14B | 235B / 14B | 中 | 20 GB 显存 | HF 仓库 | 中文医疗已对齐,14B 激活拿到 60B+ 稠密效果,落地最甜点 |
| 4 | DeepSeek-V2.5 | 236B / 21B | 低† | 28 GB 显存 | GitCode 镜像 | 训练成本仅 550 万美元≈GPT-4 的 1/20,性能持平 |
| 5 | MiMo-V2-Flash-309B | 309B / 15B | 中 | 22 GB 显存 | GitCode 镜像 | 2025 新 SOTA,15B 激活碾压 60B 稠密,中文稍弱 |
| 6 | ERNIE-4.5-VL-28B-A3B | 28B / 3B | 低 | 10 GB 显存 | GitCode 镜像 | 多模态,能看图/表/影像,3B 激活边缘可跑 |
本文是原创文章,采用CC BY-NC-SA 4.0协议,完整转载请注明来自北海博客-码海撷贝
评论 ()






