英特尔推AutoRound算法提升大模型量化效率

当地时间12月8日,英特尔宣布将AutoRound算法集成至LLM Compressor,以优化大语言模型的低比特量化性能。该技术通过引入可训练参数与符号梯度下降法,在保持模型精度的同时实现更高效推理,并支持W4A16、FP8等多种数据格式。AutoRound兼容英特尔Xeon处理器、Gaudi加速器、数据中心GPU及CUDA生态GPU,未来“Crescent Island”GPU将原生支持相关量化格式。目前该方案已适配Llama、Qwen等主流模型,仅需百步调优即可部署于vLLM框架,无额外推理开销。英特尔计划扩展至MoE模型与混合比特搜索,构建多策略压缩体系。

上一篇:

下一篇:

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

公众号
公众号
新媒体群
新媒体群
联系邮箱

1284674160@qq.com

分享本页
返回顶部
新媒体之家(狐呼网)免费入驻互联网领域个人自媒体,企业自媒体,媒体网站等。入驻合作可以联系:m1284674160