微软发布Phi-4-mini-flash-reasoning端侧AI模型：吞吐量提升10倍，推理能力显著升级

科技媒体NeoWin于7月10日发布博文称，微软推出了Phi-4-mini-flash-reasoning 小语言模型，该模型的核心亮点是着重提升了端侧AI模型在数学与逻辑推理方面的能力。

Phi-4-mini-flash-reasoning的突出优势在于，能够在边缘设备、移动应用及嵌入式系统等资源有限的场景中，顺畅引入先进的推理功能。

在架构设计上，该模型创新性地采用了SambaY架构，此架构的一大特色是包含名为Gated Memory Unit（GMU，门控存储单元）的组件。该组件可实现模型内部信息的高效共享，进而有效提升模型的运行效率。

得益于这些改进，模型生成答案和完成任务的速度大幅提升，即便面对超长输入也能从容应对。同时，Phi系列模型还具备处理海量数据的能力，能够理解超长文本或对话内容。

性能方面，与其他Phi模型相比，Phi-4-mini-flash-reasoning的吞吐量最高提升10倍，这意味着在相同时间内，它可以处理10倍以上的请求或生成10倍以上的文本，对实际应用而言是一项重大进步。此外，其延迟也降至其他Phi模型的1/2到1/3。

目前，Phi-4-mini-flash-reasoning新型模型已在Azure AI Foundry、NVIDIA API Catalog和Hugging Face平台正式上线。

文章版权归作者所有，未经允许请勿转载。

暂无评论...

暂无评论