术语表

核心模型
术语说明特点
DeepSeek-V3多任务通用对话模型响应快、覆盖面广,适合日常问答、文案生成、多语言翻译等任务
DeepSeek-R1深度推理模型(671B 参数)专注复杂逻辑问题,如数学推导、代码生成、工程决策;支持“深度思考”模式
R1-Zero纯强化学习训练版本语言表达弱于 R1,逻辑能力较强但一致性稍差
MoE 架构(Mixture of Experts)模型设计框架总参数 6710 亿,单次调用仅激活 370 亿参数,实现高性能低计算成本


技术原理
术语说明应用场景
知识蒸馏(Distillation)将大模型能力压缩至小模型的技术降低部署成本(如 70B 模型蒸馏自 R1)
Tokens文本处理基本单位(1 Token ≈ 0.75 个汉字)影响模型输入输出长度上限(DeepSeek 默认支持 64K Tokens)
深度思考(DeepThinking)R1 的自主推理模式用户仅需提供目标而非步骤,模型自动拆解逻辑链(如工程方案设计)
参数规模(14B/32B/70B/671B)模型参数量级(B = 亿)参数越多能力越强,但硬件要求越高(例:671B 需 1300GB 显存)


部署与使用
术语说明注意事项
本地部署模型安装到自有设备(PC/NAS/车载系统)仅推荐 7B/8B 轻量版(显存 4-8GB);671B 需专业级硬件
提示词设计(Prompt)用户输入指令的优化方法V3 适用:结构化指令(步骤+示例);R1 适用:目标描述(背景+需求)
开源策略代码与模型架构公开(部分版本)支持二次开发,区别于 OpenAI 闭源模式


文档最后更新时间:2025-06-04 18:33:47

深色
模式

切换
宽度

回到
顶部