2025 年 7 月 5 日,苹果公司在 Hugging Face 悄然发布了一款名为 DiffuCode-7B-cpGRPO 的开源 AI 模型,其最大创新在于打破了传统代码生成的顺序约束,能以非从左到右的方式生成代码,且性能表现可与业界顶级开源编码模型比肩。

苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型:突破顺序约束,性能媲美顶级开源模型
技术突破:从线性生成到灵活扩散
传统大语言模型(LLM)如 GPT 系列采用自回归(Autoregression)机制生成代码,就像人类阅读文本一样,严格遵循从左到右、从上到下的顺序。这种机制下,模型需逐 token 预测,先处理整个问题,预测第一个 token 后,再带着该 token 重新处理问题以预测第二个 token,如此循环。LLM 中 “温度”(Temperature)参数用于调控输出随机性,低温使模型倾向选择最可能的 token,高温则赋予更多创作自由。
而苹果的 DiffuCode-7B-cpGRPO 另辟蹊径,基于扩散(Diffusion)模型原理。这类模型通常用于图像生成,初始从模糊带噪声的图像开始,通过迭代去噪并结合用户需求,逐步优化至目标图像。该模型基于上月发表的《DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation》论文,当采样温度从默认的 0.2 提升至 1.2 时,DiffuCoder 在 token 生成顺序上变得更为灵活,成功摆脱了严格的线性约束。
模型架构:融合阿里基础与苹果创新
这款模型建立在阿里开源的 Qwen2.5-7B 模型基础之上,具体改造路径如下:首先按 DiffuCoder 论文描述,将 Qwen2.5-7B 改造成基于扩散的 decoder;接着对其进行调整,使其能更好地遵循指令;最后,使用超过 20000 个精心挑选的编码示例对模型进行进一步训练。
在技术实现上,其采用扩散优先策略,通过耦合 GRPO(Gradient Regularized Policy Optimization)技术,实现了代码生成顺序的灵活调控。
性能验证:跑分数据彰显实力
在主流编程任务跑分中,DiffuCode-7B-cpGRPO 即便不依赖严格的从左到右生成方式,性能依然表现出色。与主流基于扩散的编程模型相比,其测试得分提高了 4.4%。以下是具体跑分数据对比:
Model | HumanEval Plus | MBPP Plus | EvalPlus Full | BigCodeBench (C) Hard | Avg. |
Qwen2.5-Coder | 61.6 | 51.8 | 75.9 | 61.4 | 52.2 |
OpenCoder* | 66.5 | 63.4 | 79.9 | 70.4 | 55.0 |
DiffuCoder | 67.1 | 60.4 | 74.2 | 60.9 | 52.6 |
Qwen2.5-Coder-Instruct | 90.2 | 85.4 | 83.9 | 72.0 | 67.3 |
DiffuCoder-Instruct | 72.0 | 65.2 | 75.1 | 61.9 | 53.7 |
DiffuCode-7B-cpGRPO(+coupled-GRPO) | 73.2 | 68.3 | 78.6 | 67.5 | 56.5 |
GPT 4o | 90.2 | – | 82.4 | – | – |
技术意义:重塑代码生成范式
苹果此次发布的 DiffuCode-7B-cpGRPO 编程 AI 模型,突破了传统代码生成的线性顺序限制,为编程 AI 领域带来了新的思路。这种不按顺序生成代码的能力,使得模型在处理复杂编程任务时,能够更灵活地组织代码结构,有望提升软件开发的效率和质量。
同时,该模型基于开源模型进行创新,体现了 AI 领域开源协作的力量。其在性能上的优异表现,也为开源编程 AI 模型与商业模型的竞争增添了新的变量。随着该模型的开源,预计将吸引更多开发者参与优化和应用,推动编程 AI 技术的进一步发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...