苹果发布 DiffuCode-7B-cpGRPO 编程 AI 模型：突破顺序约束，性能媲美顶级开源模型

2025 年 7 月 5 日，苹果公司在 Hugging Face 悄然发布了一款名为 DiffuCode-7B-cpGRPO 的开源 AI 模型，其最大创新在于打破了传统代码生成的顺序约束，能以非从左到右的方式生成代码，且性能表现可与业界顶级开源编码模型比肩。

技术突破：从线性生成到灵活扩散

传统大语言模型（LLM）如 GPT 系列采用自回归（Autoregression）机制生成代码，就像人类阅读文本一样，严格遵循从左到右、从上到下的顺序。这种机制下，模型需逐 token 预测，先处理整个问题，预测第一个 token 后，再带着该 token 重新处理问题以预测第二个 token，如此循环。LLM 中 “温度”（Temperature）参数用于调控输出随机性，低温使模型倾向选择最可能的 token，高温则赋予更多创作自由。

而苹果的 DiffuCode-7B-cpGRPO 另辟蹊径，基于扩散（Diffusion）模型原理。这类模型通常用于图像生成，初始从模糊带噪声的图像开始，通过迭代去噪并结合用户需求，逐步优化至目标图像。该模型基于上月发表的《DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation》论文，当采样温度从默认的 0.2 提升至 1.2 时，DiffuCoder 在 token 生成顺序上变得更为灵活，成功摆脱了严格的线性约束。

模型架构：融合阿里基础与苹果创新

这款模型建立在阿里开源的 Qwen2.5-7B 模型基础之上，具体改造路径如下：首先按 DiffuCoder 论文描述，将 Qwen2.5-7B 改造成基于扩散的 decoder；接着对其进行调整，使其能更好地遵循指令；最后，使用超过 20000 个精心挑选的编码示例对模型进行进一步训练。

在技术实现上，其采用扩散优先策略，通过耦合 GRPO（Gradient Regularized Policy Optimization）技术，实现了代码生成顺序的灵活调控。

性能验证：跑分数据彰显实力

在主流编程任务跑分中，DiffuCode-7B-cpGRPO 即便不依赖严格的从左到右生成方式，性能依然表现出色。与主流基于扩散的编程模型相比，其测试得分提高了 4.4%。以下是具体跑分数据对比：

Model	HumanEval Plus	MBPP Plus	EvalPlus Full	BigCodeBench (C) Hard	Avg.
Qwen2.5-Coder	61.6	51.8	75.9	61.4	52.2
OpenCoder*	66.5	63.4	79.9	70.4	55.0
DiffuCoder	67.1	60.4	74.2	60.9	52.6
Qwen2.5-Coder-Instruct	90.2	85.4	83.9	72.0	67.3
DiffuCoder-Instruct	72.0	65.2	75.1	61.9	53.7
DiffuCode-7B-cpGRPO（+coupled-GRPO）	73.2	68.3	78.6	67.5	56.5
GPT 4o	90.2	–	82.4	–	–