MoE架构，全量上线，MiniMax的abab6跨过玫瑰三段论了吗？

2024-01-20 09:53 0 比特币

原文来源：硅星GenAI

作者｜油醋

图片来源：由无界 AI生成

好像这年份从2023跨到2024之后，大模型的追随标杆也纷纷从GPT-3.5变成了GPT-4。GLM-4拿出了到目前为止最接近GPT-4的表现，然后又冒出了个新的竞争者。

——MiniMax新的大语言模型abab6。

“沉默寡言”的MiniMax前段时间难得发声。副总裁魏伟在12月末透露MiniMax将会发布一个对标GPT-4的大模型。而在经过了半个月的部分客户的内测和反馈后，全新的大语言模型abab6终于全量发布。性能上弱于GPT-4，但有些能力已经大幅超过 GPT-3.5。

MiniMax展示了abab6在三个复杂任务测试基准上的表现。

IFEval：这个评测主要测试模型遵守用户指令的能力。我们会问模型一些带有约束条件的问题，例如“以XX为标题，列出三个具体对方法，每个方法的描述不超过两句话”，然后统计有多少回答严格满足了约束条件。

MT-Bench：这个评测衡量模型的英文综合能力。我们会问模型多个类别的问题，包括角色扮演、写作、信息提取、推理、数学、代码、知识问答。我们会用另一个大模型（GPT-4）对模型的回答打分，并统计平均分。

AlignBench：该评测反映了模型的中文综合能力测试，测试形式与 MT-Bench 类似。

结果如下。看上去离GPT-4还有距离，但有些能力已经超过 GPT-3.5和Claude 2.1不少：

MoE架构，全量上线，MiniMax的abab6跨过玫瑰三段论了吗？

图源：MiniMax

这个成绩单里最陌生的就是Mistral，但abab6有趣的地方也在这里——它用上了最近很火的MoE架构，而MoE正是Mistral不久前带火的。

简单来说，MoE (Mixture of Experts 混合专家模型）架构会把模型参数划分为多组“专家”，每次推理时只有一部分专家参与计算。这种架构可以让模型在小参数的情况下把计算变得更精细，然后拥有大参数才有的处理复杂任务的能力，同时模型在单位时间内能够训练足够多的数据，计算效率也可以得到大幅提升。

一个月前，法国 AI 初创公司Mistral AI发布了首个开源MoE大模型Mixtral 8x7B——一个只有87GB的，8个7B模型的组合——清理下内存就能下载到自己电脑上，性能上直接击倒了700亿参数的Llama 2。之前Dylan Patel爆料的GPT-4模型架构里，16个1110亿参数组成的MoE是最重大的信息之一。

现在abab6也采用了MoE架构。并且为了训练 abab6，MiniMax自研了高效的MoE训练和推理框架，并且发明了一些 MoE 模型的训练技巧。到目前为止，abab6是国内第一个千亿参数量以上的基于MoE架构的大语言模型。

既然是概念如此新鲜的大模型，那我们不如自己上手浅测一下，当然，都2024年了，简单的问题就不问了。

咱看看给外国人做的中文八级考试，abab6行不行：

中国有俩体育项目根本不用看：一个是乒乓球，一个是足球。

前者是谁也赢不了。

后者是谁也赢不了。

提问：分别解释两句话的意思。

中文语义理解上，abab6的能力无懈可击，甚至能读懂幽默：

MoE架构，全量上线，MiniMax的abab6跨过玫瑰三段论了吗？