DeepSeek今日正式推出实验性版本DeepSeek-V3.2-Exp模型,作为新一代架构演进的重要步骤。该模型在V3.1-Terminus基础上引入创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,在保持模型性能基本不变的前提下,显著提升了长文本训练和推理效率。
通过严格的训练设置对齐验证,新模型在各项公开评测中表现与V3.1-Terminus持平。值得一提的是,本次更新伴随API价格大幅下调,开发者调用成本降低超过50%。目前该模型已在官方应用、网页端及小程序同步更新,并开源发布于HuggingFace和魔搭平台,相关技术论文也同步公开。
原创文章,作者:狐呼网,如若转载,请注明出处:https://www.ihuho.cn/10711.html