DeepSeek 发布 Prover-V2 模型，参数量达 6710 亿

分类：科技来源：微资讯发布时间：2025-05-02

DeepSeek 于 AI 开源社区Hugging Face 上发布了一个名为 DeepSeek-Prover-V2-671B 的新模型。据悉，DeepSeek-Prover-V2-671B 使用了更高效的 safetensors 文件格式，并支持多种计算精度，方便模型更快、更省资源地训练和部署，参数达 6710 亿，或为去年发布的 Prover-V1.5 数学模型升级版本。在模型架构上，该模型使用了 DeepSeek-V3 架构，采用 MoE（混合专家）模式，具有 61 层 Transformer 层，7168 维隐藏层。同时支持超长上下文，最大位置嵌入达 16.38 万，使其能处理复杂的数学证明，并且采用了 FP8 量化，可通过量化技术减小模型大小，提高推理效率。