MoE混合专家模型实现稀疏激活，大容量低算力

AI摘要

北海のAI

今天看到群里讨论关于模型的事，后面了解到MOE模型，其实在DeepSeek出的时候听到过这个混合专家模型，当时只是以为提出了一种新的算法处理数据，今天才知道还有很多的内容，其实就是在减少算力成本下，一个模型可以装下更多的内容

一、知识前瞻

1、总知识库

训练阶段会将互联网所有文本喂进去，然xx个专家各自“认领”不同主题的语句
结果：
– expert-5 手册里全是“老年、痴呆、谵妄、苯二氮卓”
– expert-27 手册里全是“ICU、术后、感染、代谢紊乱”
– ……
这些手册一起存到硬盘里，就是所谓的“总知识库”（235B、309B这种大数字）
推理的时候全部放到显存或内存，但不会全部查阅

2、专科模型

当用户输入一个问题例如：“我的朋友术后晚上胡言乱语，是什么状况”

前台分诊（Gate，0.1 ms）

token 序列 → 线性层 + Softmax → 得到 64 维概率 → 挑 top-2：

[ expert-5 概率 0.42 | expert-27 概率 0.31 | 其余 <0.05 ]
只把这两位专家“叫醒”

把 token 向量只送进 expert-5 与 expert-27 的小 FFN；其余 62 个直接短路。

这一步就是“找专科”——不是额外再加载模型，而是从已驻留的 64 份权重里选 2 份做矩阵乘。
合并结果 → 后续自注意力 → 输出“考虑术后谵妄，建议复查电解质、控制疼痛、减少夜间干扰……”

3、激活参数

在MoE模型中，激活参数就是先有个小门去为你的每个token去挑选专家的决策过程， 门控网络 为每个token选出的 Top-k 个专家，只让这k个小网络做矩阵乘法，其它的都自动跳过。于是这种总参数可以很大（200 B），但一次前向只算 10 B 左右的“激活参数”，实现大容量、低算费。

门控打分：每个token先进入门控网络（通常是一个线性层 + Softmax），得到对所有专家的权重分数。
Top-k 稀疏选择：只保留分数最高的 k 个专家（k≪N，常见 1 或 2），我看一些大模型源码中配置强制为2，其余专家权重直接置零——这一步就是“稀疏激活”的核心。
例如：k=2 时，一个 token 仅被送到 2 个 FFN 专家做前向计算，其余 62 个专家完全跳过。
加权融合：被选专家的输出按门控权重加权求和，形成该 MoE 层的最终表示。

最终就是这样可以存的多可以装下200B+的知识，却只用10B的算力。

二、MOE模型

推荐序	模型名称	总/激活参数	训练成本*	推理成本*(AWQ4)	下载地址	点评
1	OLMoE-1B-7B	7B / 1.3B	极低	8 GB 显存	HF 仓库	最小 MoE，边缘盒子也能跑，实验性价比之王
2	GPT-OSS-20B	20B / 3.6B	低	12 GB 显存	HF 仓库	单卡 3090 实时，代码/数学场景超越同尺寸 Dense
3	Qwen3-235B-MoE-A14B	235B / 14B	中	20 GB 显存	HF 仓库	中文医疗已对齐，14B 激活拿到 60B+ 稠密效果，落地最甜点
4	DeepSeek-V2.5	236B / 21B	低†	28 GB 显存	GitCode 镜像	训练成本仅 550 万美元≈GPT-4 的 1/20，性能持平
5	MiMo-V2-Flash-309B	309B / 15B	中	22 GB 显存	GitCode 镜像	2025 新 SOTA，15B 激活碾压 60B 稠密，中文稍弱
6	ERNIE-4.5-VL-28B-A3B	28B / 3B	低	10 GB 显存	GitCode 镜像	多模态，能看图/表/影像，3B 激活边缘可跑