AI摘要
北海のAI

今天看到群里讨论关于模型的事,后面了解到MOE模型,其实在DeepSeek出的时候听到过这个混合专家模型,当时只是以为提出了一种新的算法处理数据,今天才知道还有很多的内容,其实就是在减少算力成本下,一个模型可以装下更多的内容

一、知识前瞻

1、总知识库

  • 训练阶段会将互联网所有文本喂进去,然xx个专家各自“认领”不同主题的语句
  • 结果:
    – expert-5 手册里全是“老年、痴呆、谵妄、苯二氮卓”
    – expert-27 手册里全是“ICU、术后、感染、代谢紊乱”
    – ……
  • 这些手册一起存到硬盘里,就是所谓的“总知识库”(235B、309B这种大数字)
  • 推理的时候全部放到显存或内存,但不会全部查阅

2、专科模型

当用户输入一个问题例如:“我的朋友术后晚上胡言乱语,是什么状况”

  • 前台分诊(Gate,0.1 ms)

    token 序列 → 线性层 + Softmax → 得到 64 维概率 → 挑 top-2:

    [ expert-5 概率 0.42 | expert-27 概率 0.31 | 其余 <0.05 ]

  • 只把这两位专家“叫醒”

    把 token 向量只送进 expert-5 与 expert-27 的小 FFN;其余 62 个直接短路。

    这一步就是“找专科”——不是额外再加载模型,而是从已驻留的 64 份权重里选 2 份做矩阵乘

  • 合并结果 → 后续自注意力 → 输出“考虑术后谵妄,建议复查电解质、控制疼痛、减少夜间干扰……”

3、激活参数

在MoE模型中,激活参数就是先有个小门去为你的每个token去挑选专家的决策过程门控网络 为每个token选出的 Top-k 个专家,只让这k个小网络做矩阵乘法,其它的都自动跳过。于是这种总参数可以很大(200 B),但一次前向只算 10 B 左右的“激活参数”,实现大容量、低算费。

  • 门控打分:每个token先进入门控网络(通常是一个线性层 + Softmax),得到对所有专家的权重分数。
  • Top-k 稀疏选择:只保留分数最高的 k 个专家(k≪N,常见 1 或 2),我看一些大模型源码中配置强制为2,其余专家权重直接置零——这一步就是“稀疏激活”的核心 。
    例如:k=2 时,一个 token 仅被送到 2 个 FFN 专家做前向计算,其余 62 个专家完全跳过。
  • 加权融合:被选专家的输出按门控权重加权求和,形成该 MoE 层的最终表示 。

最终就是这样可以存的多可以装下200B+的知识,却只用10B的算力。


二、MOE模型

推荐序 模型名称 总/激活参数 训练成本* 推理成本*(AWQ4) 下载地址 点评
1 OLMoE-1B-7B 7B / 1.3B 极低 8 GB 显存 HF 仓库 最小 MoE,边缘盒子也能跑,实验性价比之王
2 GPT-OSS-20B 20B / 3.6B 12 GB 显存 HF 仓库 单卡 3090 实时,代码/数学场景超越同尺寸 Dense
3 Qwen3-235B-MoE-A14B 235B / 14B 20 GB 显存 HF 仓库 中文医疗已对齐,14B 激活拿到 60B+ 稠密效果,落地最甜点
4 DeepSeek-V2.5 236B / 21B 低† 28 GB 显存 GitCode 镜像 训练成本仅 550 万美元≈GPT-4 的 1/20,性能持平
5 MiMo-V2-Flash-309B 309B / 15B 22 GB 显存 GitCode 镜像 2025 新 SOTA,15B 激活碾压 60B 稠密,中文稍弱
6 ERNIE-4.5-VL-28B-A3B 28B / 3B 10 GB 显存 GitCode 镜像 多模态,能看图/表/影像,3B 激活边缘可跑