本地部署 DeepSeek-R1-671B 满血版：完整教程与优化指南

2025-02-24 11:10 浏览: 次

DeepSeek-R1 大模型凭借其强大的推理与深度思考能力，在数学计算、编程及自然语言推理等任务上表现卓越。然而，在线服务存在不稳定性，同时数据隐私问题也是许多个人和企业关注的焦点。因此，选择本地部署 DeepSeek-R1 开源模型不仅可以提高稳定性，还能保障数据安全。

1. 了解 DeepSeek-R1 模型

DeepSeek-R1 模型的最大参数规模为 671B（6710 亿参数），同时官方提供 1.5B ~ 70B 版本的蒸馏模型，用户可根据显存和计算资源选择合适的版本：

1.5B - 32B 版本：可在高端个人电脑或单张 GPU 运行。
70B 及以上版本：建议至少 2 张 24GB 显存的 GPU（如 3090/4090）。

蒸馏模型介绍：
DeepSeek 提供的 1.5B ~ 70B 小参数模型是通过知识蒸馏生成的，即使用 DeepSeek-R1 大模型训练较小参数的模型，使其在大幅降低计算需求的同时，仍能保留部分推理能力。

量化与存储需求：

DeepSeek-R1 671B 原始 FP8 精度模型：约 700GB
Ollama 提供的 INT4 量化版本：约 404GB

本教程采用 Ollama 作为模型管理框架，该工具可下载、运行、管理大模型，是目前最便捷的本地推理工具。

2. 部署前准备

2.1 硬件需求

本次部署以 8 块 A800 GPU 为例，配置如下：

GPU：8 × A800（至少 6 卡）
显存：8 × 80GB（共 640GB）
CPU：112 核 vCPU
内存：224GB

成本预估：

A100/A800 单张显卡价格约 10 万元

租赁价格约 5 元/小时/卡

高端配置可选 H100/H800、H20 等显卡

2.2 软件环境

操作系统：Ubuntu 20.04
PyTorch：2.6.0
CUDA：12.2
Ollama：最新版本

检查显卡状态（Linux 终端命令）：


nvidia-smi

3. 安装 Ollama

Ollama 支持 Windows、MacOS、Linux，安装步骤如下：

3.1 Linux 下载安装


curl -fsSL https://ollama.com/install.sh | sh

安装成功后，运行：


ollama -v

如能正确显示版本号，则说明安装成功。

4. 运行 Ollama 并配置环境

4.1 设置环境变量

在运行 DeepSeek-R1 671B 前，需要调整 Ollama 运行参数以优化性能：


export OLLAMA_MODELS=/datadisk      # 更改模型存储路径（默认 ~/.ollama/models）

export OLLAMA_DEBUG=1               # 开启 debug 日志

export OLLAMA_LOAD_TIMEOUT=120m     # 设置模型加载超时时间（默认 5 分钟）

export OLLAMA_KEEP_ALIVE=-1         # 让模型常驻显存，防止自动卸载

export OLLAMA_SCHED_SPREAD=1        # 多 GPU 均衡调度

export OLLAMA_NUM_PARALLEL=8        # 允许并发请求（根据显存调整）

注意事项：

并发配置 OLLAMA_NUM_PARALLEL 需根据显存情况合理调整，每增加 1 并发请求，额外占用 10~15GB 显存。

OLLAMA_KEEP_ALIVE=-1 可防止模型长时间无访问后被卸载。

4.2 启动 Ollama 服务


nohup ollama serve &   # 在后台运行 Ollama

查看日志：
```
tail -f nohup.out
```
查看进程：
```
ps -ef | grep ollama
```
关闭 Ollama：
```
kill -9 <进程 ID>
```

5. 下载并运行 DeepSeek-R1-671B

5.1 下载 671B 量化模型


ollama pull deepseek-r1:671b

注意：

模型大小：404GB
下载速度取决于服务器带宽和 Ollama 仓库限速
断点续传：若速度大幅下降，可 Ctrl+C 终止并重新运行下载命令，下载会从当前进度继续。

5.2 运行模型


nohup ollama run deepseek-r1:671b > run.out 2>&1 < /dev/null &

查看模型加载进度：
```
tail -f run.out
```
GPU 负载监控：
```
nvidia-smi
```

加载时间：

671B 大模型加载显存需 1 小时以上

加载完成后终端输出：


model load progress 1.00

llama runner started in 3770.15 seconds

6. 使用 DeepSeek-R1-671B

6.1 命令行交互


ollama run deepseek-r1:671b

输入问题，即可与模型对话。

6.2 API 调用

Ollama 兼容 OpenAI API，本地服务器监听 0.0.0.0:11434，可用 curl 访问：


curl --request POST   --url http://127.0.0.1:11434/v1/chat/completions   --header "Content-Type: application/json;charset=utf-8" \

  --data "{

  "model": "deepseek-r1:671b",

  "messages": [

    {

      "role": "user",

      "content": "你是什么模型"

    }

  ]

}"

7. 性能压力测试

DeepSeek-R1-671B 的推理速度取决于 token 长度与并发量。评估方式：

关键指标：每秒生成的 tokens 数量 (tokens/s/req)
方法：编写 Python 脚本模拟并发请求

7.1 运行压测


python3 model_stress_test.py

部分测试结果（tokens/s/req）：

并发数	速率
1	17.05
16	3.13
64	0.93
128	0.85

优化方向：

提高 GPU 利用率（当前 <15%）
尝试更高效的推理框架，如 vLLM

总结

本教程详细介绍了 DeepSeek-R1-671B 的本地部署，包括环境搭建、下载运行、API 调用及性能优化。如果你希望在本地体验大模型推理，按本教程操作即可快速上手！DeepSeek大模型一体机部署方案找天下數据专注于IDC行业20多年，经验丰富，咨询电话4--0-0-6-3--8-8-8-0-8 ！

【免责声明】：部分内容、图片来源于互联网，如有侵权请联系删除，QQ：228866015