术语表
核心模型 | ||
术语 | 说明 | 特点 |
DeepSeek-V3 | 多任务通用对话模型 | 响应快、覆盖面广,适合日常问答、文案生成、多语言翻译等任务 |
DeepSeek-R1 | 深度推理模型(671B 参数) | 专注复杂逻辑问题,如数学推导、代码生成、工程决策;支持“深度思考”模式 |
R1-Zero | 纯强化学习训练版本 | 语言表达弱于 R1,逻辑能力较强但一致性稍差 |
MoE 架构(Mixture of Experts) | 模型设计框架 | 总参数 6710 亿,单次调用仅激活 370 亿参数,实现高性能低计算成本 |
技术原理 | ||
术语 | 说明 | 应用场景 |
知识蒸馏(Distillation) | 将大模型能力压缩至小模型的技术 | 降低部署成本(如 70B 模型蒸馏自 R1) |
Tokens | 文本处理基本单位(1 Token ≈ 0.75 个汉字) | 影响模型输入输出长度上限(DeepSeek 默认支持 64K Tokens) |
深度思考(DeepThinking) | R1 的自主推理模式 | 用户仅需提供目标而非步骤,模型自动拆解逻辑链(如工程方案设计) |
参数规模(14B/32B/70B/671B) | 模型参数量级(B = 亿) | 参数越多能力越强,但硬件要求越高(例:671B 需 1300GB 显存) |
部署与使用 | ||
术语 | 说明 | 注意事项 |
本地部署 | 模型安装到自有设备(PC/NAS/车载系统) | 仅推荐 7B/8B 轻量版(显存 4-8GB);671B 需专业级硬件 |
提示词设计(Prompt) | 用户输入指令的优化方法 | V3 适用:结构化指令(步骤+示例);R1 适用:目标描述(背景+需求) |
开源策略 | 代码与模型架构公开(部分版本) | 支持二次开发,区别于 OpenAI 闭源模式 |
文档最后更新时间:2025-06-04 18:33:47
← 企业知识库搭建