行业资讯

本地部署 DeepSeek-R1-671B 满血版:完整教程与优化指南

2025-02-24 11:10  浏览:

 DeepSeek-R1 大模型凭借其强大的推理与深度思考能力,在数学计算、编程及自然语言推理等任务上表现卓越。然而,在线服务存在不稳定性,同时数据隐私问题也是许多个人和企业关注的焦点。因此,选择本地部署 DeepSeek-R1 开源模型不仅可以提高稳定性,还能保障数据安全。

 

1. 了解 DeepSeek-R1 模型

DeepSeek-R1 模型的最大参数规模为 671B(6710 亿参数),同时官方提供 1.5B ~ 70B 版本的蒸馏模型,用户可根据 显存 和 计算资源 选择合适的版本:

  • 1.5B - 32B 版本:可在高端个人电脑或单张 GPU 运行。
  • 70B 及以上版本:建议至少 2 张 24GB 显存的 GPU(如 3090/4090)。

蒸馏模型介绍:
DeepSeek 提供的 1.5B ~ 70B 小参数模型是通过 知识蒸馏 生成的,即使用 DeepSeek-R1 大模型 训练较小参数的模型,使其在大幅降低计算需求的同时,仍能保留部分推理能力。

量化与存储需求:

  • DeepSeek-R1 671B 原始 FP8 精度模型:约 700GB
  • Ollama 提供的 INT4 量化版本:约 404GB

本教程采用 Ollama 作为模型管理框架,该工具可 下载、运行、管理 大模型,是目前最便捷的本地推理工具。

2. 部署前准备

2.1 硬件需求

本次部署以 8 块 A800 GPU 为例,配置如下:

  • GPU:8 × A800(至少 6 卡)
  • 显存:8 × 80GB(共 640GB)
  • CPU:112 核 vCPU
  • 内存:224GB

成本预估:

  • A100/A800 单张显卡 价格约 10 万元
  • 租赁价格 约 5 元/小时/卡
  • 高端配置可选 H100/H800、H20 等显卡

2.2 软件环境

  • 操作系统:Ubuntu 20.04
  • PyTorch:2.6.0
  • CUDA:12.2
  • Ollama:最新版本

检查显卡状态(Linux 终端命令):

nvidia-smi

3. 安装 Ollama

Ollama 支持 Windows、MacOS、Linux,安装步骤如下:

3.1 Linux 下载安装

curl -fsSL https://ollama.com/install.sh | sh

安装成功后,运行:

ollama -v

如能正确显示版本号,则说明安装成功。

4. 运行 Ollama 并配置环境

4.1 设置环境变量

在运行 DeepSeek-R1 671B 前,需要调整 Ollama 运行参数 以优化性能:

export OLLAMA_MODELS=/datadisk      # 更改模型存储路径(默认 ~/.ollama/models)
export OLLAMA_DEBUG=1               # 开启 debug 日志
export OLLAMA_LOAD_TIMEOUT=120m     # 设置模型加载超时时间(默认 5 分钟)
export OLLAMA_KEEP_ALIVE=-1         # 让模型常驻显存,防止自动卸载
export OLLAMA_SCHED_SPREAD=1        # 多 GPU 均衡调度
export OLLAMA_NUM_PARALLEL=8        # 允许并发请求(根据显存调整)

注意事项:

  • 并发配置 OLLAMA_NUM_PARALLEL 需根据显存情况合理调整,每增加 1 并发请求,额外占用 10~15GB 显存。
  • OLLAMA_KEEP_ALIVE=-1 可防止模型 长时间无访问 后被卸载。

4.2 启动 Ollama 服务

nohup ollama serve &   # 在后台运行 Ollama
  • 查看日志:
    tail -f nohup.out
    
  • 查看进程:
    ps -ef | grep ollama
    
  • 关闭 Ollama:
    kill -9 <进程 ID>

5. 下载并运行 DeepSeek-R1-671B

5.1 下载 671B 量化模型

ollama pull deepseek-r1:671b

注意:

  • 模型大小:404GB
  • 下载速度 取决于 服务器带宽 和 Ollama 仓库限速
  • 断点续传:若速度大幅下降,可 Ctrl+C 终止 并重新运行下载命令,下载会从当前进度继续。

5.2 运行模型

nohup ollama run deepseek-r1:671b > run.out 2>&1 < /dev/null &
  • 查看模型加载进度:
    tail -f run.out
    
  • GPU 负载监控:
    nvidia-smi
    

加载时间:

  • 671B 大模型 加载 显存 需 1 小时以上
  • 加载完成后 终端输出:
    model load progress 1.00
    llama runner started in 3770.15 seconds

6. 使用 DeepSeek-R1-671B

6.1 命令行交互

ollama run deepseek-r1:671b

输入问题,即可与模型对话。

6.2 API 调用

Ollama 兼容 OpenAI API,本地服务器监听 0.0.0.0:11434,可用 curl 访问:

curl --request POST   --url http://127.0.0.1:11434/v1/chat/completions   --header "Content-Type: application/json;charset=utf-8" \
  --data "{
  "model": "deepseek-r1:671b",
  "messages": [
    {
      "role": "user",
      "content": "你是什么模型"
    }
  ]
}"

7. 性能压力测试

DeepSeek-R1-671B 的 推理速度 取决于 token 长度 与 并发量。评估方式:

  • 关键指标:每秒生成的 tokens 数量 (tokens/s/req)
  • 方法:编写 Python 脚本模拟并发请求

7.1 运行压测

python3 model_stress_test.py

部分测试结果(tokens/s/req):

并发数 速率
1 17.05
16 3.13
64 0.93
128 0.85

优化方向:

  • 提高 GPU 利用率(当前 <15%)
  • 尝试更高效的推理框架,如 vLLM

总结

本教程详细介绍了 DeepSeek-R1-671B 的本地部署,包括 环境搭建、下载运行、API 调用及性能优化。如果你希望在本地体验 大模型推理,按本教程操作即可快速上手!DeepSeek大模型一体机部署方案找天下數据专注于IDC行业20多年,经验丰富,咨询电话4--0-0-6-3--8-8-8-0-8 !

【免责声明】:部分内容、图片来源于互联网,如有侵权请联系删除,QQ:228866015

下一篇:暂无 上一篇:政务系统引入DeepSeek:人工智能助力政府提升效率
24H服务热线:4006388808 立即拨打