术语表

核心模型
术语	说明	特点
DeepSeek-V3	多任务通用对话模型	响应快、覆盖面广，适合日常问答、文案生成、多语言翻译等任务
DeepSeek-R1	深度推理模型（671B 参数）	专注复杂逻辑问题，如数学推导、代码生成、工程决策；支持“深度思考”模式
R1-Zero	纯强化学习训练版本	语言表达弱于 R1，逻辑能力较强但一致性稍差
MoE 架构（Mixture of Experts）	模型设计框架	总参数 6710 亿，单次调用仅激活 370 亿参数，实现高性能低计算成本

技术原理
术语	说明	应用场景
知识蒸馏（Distillation）	将大模型能力压缩至小模型的技术	降低部署成本（如 70B 模型蒸馏自 R1）
Tokens	文本处理基本单位（1 Token ≈ 0.75 个汉字）	影响模型输入输出长度上限（DeepSeek 默认支持 64K Tokens）
深度思考（DeepThinking）	R1 的自主推理模式	用户仅需提供目标而非步骤，模型自动拆解逻辑链（如工程方案设计）
参数规模（14B/32B/70B/671B）	模型参数量级（B = 亿）	参数越多能力越强，但硬件要求越高（例：671B 需 1300GB 显存）

部署与使用
术语	说明	注意事项
本地部署	模型安装到自有设备（PC/NAS/车载系统）	仅推荐 7B/8B 轻量版（显存 4-8GB）；671B 需专业级硬件
提示词设计（Prompt）	用户输入指令的优化方法	V3 适用：结构化指令（步骤+示例）；R1 适用：目标描述（背景+需求）
开源策略	代码与模型架构公开（部分版本）	支持二次开发，区别于 OpenAI 闭源模式

文档最后更新时间：2025-06-04 18:33:47

← 企业知识库搭建

深色
模式

切换
宽度

回到
顶部