比传统语言模型快10倍,首个商业规模的扩散语言模型,究竟是什么来头?

内容摘要来源:DeepTech深科技前不久,硅谷的一家初创公司 Inception Labs 正式从隐身模式中浮出水面,推出了 Mercury,这是全球首个基于扩散模型(Diffusion Model)的商业级语言模型。与传统的自回归大语言模型不同

来源:DeepTech深科技

前不久,硅谷的一家初创公司 Inception Labs 正式从隐身模式中浮出水面,推出了 Mercury,这是全球首个基于扩散模型(Diffusion Model)的商业级语言模型。与传统的自回归大语言模型不同,Mercury 采用了一种全新的方法来生成文本和代码,这使其在速度、效率和潜在应用方面都具有许多特殊的优势。

(来源:Inception Labs)

从一对一到并行处理

传统的大语言模型如都采用自回归方式工作。这种架构使得它们必须从左到右、一个标记(token)一个标记地预测和生成文本。这种顺序处理方式成为这类模型速度的主要瓶颈。

而 Mercury 却采用了扩散模型架构。我们都知道这种架构之前主要应用于图像、视频和音频生成模型,如 Midjourney、DALL-E 和 Sora 等。但 Inception Labs 却成功将这一技术引入文本生成领域:“我们从一个粗略的答案估计开始,然后通过神经网络不断精炼,直到得到最终答案。”Ermon 解释道,“关键优势在于神经网络能够并行修改多个标记、多个词语。”

具体来说,Mercury 以一种特殊的方式处理文本数据。虽然 Inception Labs 还未透露模型的参数数量、输入输出大小、训练数据和训练方法等详细信息,但我们可以从 2023 年 10 月由 Inception Labs 联合创始人共同发表的一篇研究论文中了解一些细节。该研究采用“分数熵”(score entropy)训练文本扩散模型,使模型学会估计两个标记之间的转换比率——即标记 y 正确的概率相对于当前标记 x 正确的概率。

在他们的实验中,研究者通过在多个步骤中随机逐渐掩盖越来越多的标记,来向标记添加“噪声”。在推理阶段,模型从掩盖的标记开始,然后通过多个步骤逐渐取消掩盖。估计的转换比率决定了在每个步骤中如何改变每个标记。这与图像扩散模型类似,后者通过逐步去除噪声来改善输出。

这种设计让它生成速度比传统的语言模型快了非常多,运行在英伟达 H100 图形处理单元上时,Mercury Coder Small 能够以每秒 737 个标记的速度生成文本,而 Mercury Coder Mini 甚至达到了每秒 1,109 个标记。相比之下,同类型的模型如 Qwen 2.5 Coder 7B 每秒能生成 207 个标记,GPT-4o Mini 则为每秒 59 个标记。相当于 Mercury 的 Small 和 Mini 版本比类似规模的编码模型快 3.5 至 18 倍。

图丨输出速度对比(来源:Inception Labs)

而在性能表现上,在六项编码基准测试中,Mercury Coder Small 在至少四项中超过了 Gemini 2.0 Flash-Lite、Claude 3.5 Haiku、GPT-4o Mini 和 Qwen 2.5 Coder 7B 等竞争对手。同时,体积更小的 Mercury Coder Mini 也在至少两项基准测试中击败了这些模型。不过,在所有六项基准测试中,DeepSeek Coder V2 Lite 都优于两个版本的 Mercury Coder。

图丨基准测试结果(来源:Inception Labs)

笔者用一道经典的小球碰撞题目进行了实测,并与其他模型进行了比较。prompt 如下:写一段 html 代码,网页中间是一个正六边形,有一个具有初速度的质点在六边形中,碰到六边形的边界就反弹,每次碰到边界都时边界都随机变换颜色。

先让尖子生 o3-mini-high 来打个样。

(来源:OpenAI o3-mini-high 生成)

相比之下,Mercury Coder 的表现可以说,要速度有速度,要质量有速度。碰撞检测非常简单粗暴,六边形实现也有误。

(来源:Mercury Coder 生成)

同类模型 Gpt-4o-mini 在碰撞效果和六边形实现上表现更好一点,但却没有变色效果。

(来源:GPT-4o-mini 生成)

当然这一道题目无法完全说明模型的真实能力,不过从各大社交媒体的用户实测来看,Mercury Coder 目前的能力的确相对有限,不过作为一种新的模型范式,我们也确实该给它更多的发展时间。

来自扩散模型作者的成果

Mercury 背后的故事始于 2019 年,当时美国斯坦福大学计算机科学教授 Stefano Ermon 开始探索将扩散模型应用于内容生成的可能性。当时主流的图像生成模型还在使用 GAN(生成对抗网络),但 Ermon 及其团队认为结果“不够好”,于是开始应用 Diffusion,这最终成为了 Midjourney、DALL-E 等图像生成模型采用的关键方法。

Ermon 的团队同时也在思考如何将扩散技术应用于文本和代码生成,但这是一个更具挑战性的问题,经过多年研究才取得突破。他们于 2023 年 10 月发表了关键性研究论文,详细描述了这一技术,并在 2024 年的国际机器学习会议(ICML)上获得了最佳论文奖。

在这篇论文中,Stefano Ermon 与 Aaron Lou 和 Chenlin Meng(Pika 的联合创始人)合作,提出了一种名为 Score Entropy Discrete Diffusion models(SEDD)的模型。

SEDD 的核心创新在于提出了“分数熵”(score entropy)这一全新损失函数,它巧妙地将连续空间的分数匹配理论扩展到了离散数据领域。传统扩散模型在图像等连续数据上取得了巨大成功,但在文本等离散数据上却一直面临挑战。研究者们设计了一种能够估计数据分布比率的参数化方法,使用分数熵作为训练目标,让模型学会预测标记之间的转换概率比。在推理过程中,模型从完全掩码状态开始,通过多个步骤逐渐去除“噪声”(即掩码)。

论文中报告的实验结果表明,SEDD 在语言建模任务上明显优于当时已有的语言模型,减少了 25-75% 的困惑度。

认识到这一技术的巨大潜力,Ermon 于 2024 年夏天创立了 Inception Labs,并邀请美国加利福尼亚大学洛杉矶分校教授 Aditya Grover 和美国康奈尔大学教授 Volodymyr Kuleshov 加入。这三位学者共同领导公司发展,希望“改变生成式 AI 技术的运作方式,不仅针对图像,还包括语言”。

图丨创始团队(来源:Inception Labs)

虽然 Ermon 拒绝透露具体的融资细节,但据 TechCrunch 报道,Mayfield Fund 已向该公司投资。Ermon 表示公司已经“资金充足”,目前不在融资阶段。

目前,Inception Labs 已经推出了一系列基于扩散技术的大语言模型,名为 Mercury 系列,首款产品是一个名为 Mercury Coder 的编码助手,同时也能进行文本响应。该公司还计划推出 AI 聊天机器人和面向开发者的 API。

Mercury 以专有模型(非开源)的形式提供。该公司表示已经与多家财富 500 强企业建立合作关系,主要解决这些企业在 AI 延迟和速度方面的关键需求。Inception Labs 提供 API 以及本地部署和边缘设备部署选项,支持模型微调,并为各种用例提供开箱即用的扩散语言模型。

扩散语言模型的未来

虽然从性能表现上来说,它并不算出色,但其优势在于它比传统的大模型快 5-10 倍,这对一些实时应用来说非常重要,能显著提升用户体验和系统响应能力。官方宣称,由于 GPU 利用率更高,它的运行成本也能降低约 10 倍,让大规模部署 AI 系统变得更加经济实惠,也更便于在资源有限的端侧部署。

不过要注意的是,由于扩散模型的结构特性,其每次推理的成本实际上要高得多,这就抵消了其提高的速度优势。所以其具体能降低多少成本,还有待考量。

另外,扩散模型本质上更易于控制,类似于图像生成中的草图控制,为精确引导输出提供了更多可能性。最重要的是,这种技术为统一多模态创造了条件,意味着同一类型的生成式 AI 模型有潜力处理所有不同模态,包括文本、代码、图像、视频和音频,从而实现知识共享和跨模态学习。

Andrej Karpathy 在社交媒体上评论说,这种模型“有可能真正不同,并可能展示出全新的、独特的心理特性,或新的优势和弱点”。

图丨相关推文(来源:X)

比如从文本处理层面来说,扩散语言模型或许具有非常出色的风格处理能力——接收现有文本,添加“噪声“,然后在精确引导下逆转这一过程——在翻译和风格迁移方面可能会具有较大潜力。而且,扩散模型能同时处理文本的多个部分,在生成过程中考虑全局一致性,这也解决了自回归模型难以保证长文本连贯性的固有缺陷。

不过就目前而言,这种模型在性能表现上还有很大的进步空间。至于更大规模的扩散模型是否能够匹配 ChatGPT、Claude 和 DeepSeek 等顶级模型的性能,能否在不产生大量幻觉的情况下产生可靠结果,以及这种方法是否能够处理日益复杂的模拟推理任务,让我们拭目以待。

参考资料:

1.2025/02/26/inception-emerges-from-stealth-with-a-new-type-of-ai-model/

2.news

3.pdf/2310.16834

4.the-batch/mercury-coder-may-be-the-first-commercially-available-language-diffusion-model/?utm_campaign=The%20Batch utm_content=326668060 utm_medium=social utm_source=twitter hss_channel=tw-992153930095251456

运营/排版:何晨龙

 
举报 收藏 打赏 评论 0
24小时热闻
今日推荐
浙ICP备19001410号-1