DeepSeek安装

FCAT 2025/2/20 AI大语言模型

用户想在他的Windows 10主机上本地部署最小版的DeepSeek。首先，我需要确认他的硬件配置是否足够。
他列出的配置看起来挺高端的，i9 14900HX有24核32线程，32GB DDR5内存，1TB NVMe SSD，这些应该没问题。
不过显卡是Intel UHD核显，可能对某些AI模型支持不够，但如果是纯CPU推理的话，可能还是可以的。
接下来，用户提到有十年Java开发经验，熟悉虚拟机和docker-compose，所以技术层面应该没问题。
不过DeepSeek可能指的是深度求索公司的某个AI模型，比如大型语言模型。最小化部署可能需要考虑模型的大小和运行环境。
首先，我需要确认用户具体指的是哪个模型。比如，是DeepSeek-R1还是其他版本。假设是类似LLM的模型，通常需要GPU加速，
尤其是NVIDIA的CUDA支持。但用户只有Intel核显，可能无法使用GPU加速，这时候可能需要依赖CPU运行，但速度会受影响。
然后，查看内存是否足够。32GB对于较小的模型可能够用，比如7B参数的模型，但如果是更大的模型可能需要更多内存。
另外，硬盘空间也要足够，1TB应该没问题，但具体要看模型文件大小。
接下来，操作系统是Windows 10，但大多数深度学习框架在Linux环境下更方便，所以用户可能需要用虚拟机或者WSL2。
不过用户已经熟悉虚拟机，所以可能倾向于使用Docker。在Windows上运行Docker通常需要Docker Desktop，并且配置WSL2后端。
另外，用户提到使用docker-compose，所以可能需要编写一个compose文件来部署服务。需要确保Docker镜像支持CPU推理，或者配置正确的环境变量。
可能的步骤包括：安装WSL2和Docker Desktop，拉取适合CPU的模型镜像，配置模型路径和端口，处理性能优化比如线程数设置，内存分配等。
不过用户的主板是英特尔的Z790，可能不支持PCIe Passthrough来使用独立GPU（如果有的话），但用户目前没有独立显卡，
所以只能依赖CPU。需要提醒用户推理速度可能较慢，建议尝试量化版本的模型，比如4位或8位量化，以减少内存占用和提高速度。
另外，可能需要使用像llama.cpp这样的项目，它针对CPU优化，支持GGUF格式的模型。用户需要下载对应的模型文件，并用llama.cpp的Docker镜像来运行。
总结下来，用户的硬件基本满足最小部署，但需要注意模型的选择和性能优化。建议使用CPU优化的框架，并考虑模型量化。
同时，指导用户安装必要的环境，下载合适的模型，配置Docker，并调整参数以优化性能。

您的硬件配置已经非常强大，可以满足本地部署最小版DeepSeek模型的需求。以下是具体分析和操作建议：

# 一、硬件分析

CPU：i9-14900HX (24核32线程) 完全满足CPU推理需求
内存：32GB DDR5 可支持7B级别模型运行
存储：1TB NVMe SSD 可存放模型文件
系统环境：建议通过WSL2运行Linux环境更高效

# 二、推荐方案

graph TD
    A[Windows 10] --> B[WSL2 Ubuntu]
    B --> C[Docker Desktop]
    C --> D[llama.cpp镜像]
    D --> E[GGUF量化模型]
    E --> F[API服务部署]

1
2
3
4
5
6

# 三、具体操作步骤

# 1. 系统环境准备

# 启用WSL和虚拟化功能
dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart
dism.exe /online /enable-feature /featurename:VirtualMachinePlatform /all /norestart

# 设置WSL2为默认版本
wsl --set-default-version 2

# 安装Ubuntu 22.04
wsl --install -d Ubuntu-22.04

1
2
3
4
5
6
7
8
9

# 2. Docker环境配置

# 在WSL中安装Docker
sudo apt update
sudo apt install docker.io
sudo usermod -aG docker $USER

# 安装Docker Compose
sudo curl -L "https://github.com/docker/compose/releases/download/v2.27.0/docker-compose-$(uname -s)-$(uname -m)" -o /usr/local/bin/docker-compose
sudo chmod +x /usr/local/bin/docker-compose

1
2
3
4
5
6
7
8

# 3. 模型部署（以DeepSeek-7B-Chat为例）

# 创建项目目录
mkdir deepseek-deploy && cd deepseek-deploy

# 下载量化版模型（需提前获取下载权限）
wget https://huggingface.co/deepseek-ai/deepseek-llm-7b-chat-gguf/resolve/main/deepseek-llm-7b-chat.Q4_K_M.gguf

# 创建docker-compose.yml
cat > docker-compose.yml <<EOF
version: '3'

services:
  api:
    image: ghcr.io/ggerganov/llama.cpp:latest
    volumes:
      - ./deepseek-llm-7b-chat.Q4_K_M.gguf:/models/deepseek.gguf
    command: [
      "--model", "/models/deepseek.gguf",
      "--n-gpu-layers", "0",
      "--threads", "24",
      "--ctx-size", "4096",
      "--port", "8080"
    ]
    ports:
      - "8080:8080"
    restart: unless-stopped
EOF

# 启动服务
docker-compose up -d

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29

# 4. 性能优化配置

# 在docker-compose.yml中添加资源限制
deploy:
  resources:
    limits:
      cpus: '24'
      memory: 24G

1
2
3
4
5
6

# 5. 测试API接口

curl http://localhost:8080/completion \
  -H "Content-Type: application/json" \
  -d '{
    "prompt": "介绍一下深度求索公司",
    "temperature": 0.7,
    "max_tokens": 512
  }'

1
2
3
4
5
6
7

# 四、升级建议（如需更好性能）

显卡升级：增加RTX 4090显卡可将推理速度提升5-8倍
内存扩展：升级到64GB可支持更大模型
存储优化：增加第二块NVMe SSD作为专用模型存储

# 五、监控建议

# 安装ctop监控容器资源
docker run --rm -ti \
  --name=ctop \
  -v /var/run/docker.sock:/var/run/docker.sock:ro \
  quay.io/vektorlab/ctop:latest

1
2
3
4
5

注意事项：

首次加载模型需要约2分钟初始化时间
建议prompt长度控制在3000token以内
可调整--threads参数优化CPU利用率（推荐设置为物理核心数）
如需多并发请求，建议配置Nginx反向代理

此方案可在您的设备上实现约8-12 tokens/s的推理速度，完全满足本地开发和测试需求。如需生产级部署，建议使用云服务或配备专业显卡。

本地主机无显卡安装

技术架构笔记

Choose mode

DeepSeek安装

DeepSeek安装

# 一、硬件分析

# 二、推荐方案

# 三、具体操作步骤

# 1. 系统环境准备

# 2. Docker环境配置

# 3. 模型部署（以DeepSeek-7B-Chat为例）

# 4. 性能优化配置

# 5. 测试API接口

# 四、升级建议（如需更好性能）

# 五、监控建议