AI：4090部署Qwen3-VL-30B-A3B-Instruct-FP8

最近有业务需要用到AI大模型，遂评审采购硬件。

配置简介

处理器：AMD 9950X
内存：48G DDR5 * 2
硬盘：PCIE5.0 NVME 1T + PCIE5.0 NVME 2T
主板：华硕X870E
电源：长城2000W 白金 80plus
其他：机箱+360水冷

装机备用
略~~~

环境搭建

看来看去，觉得采用docker部署方式。

安装系统，直接使用最新lts版本Ubuntu-24.04
打显卡驱动，一定要记得关闭“安全启动”，不然显示不出来4090
安装docker和nvidia-container-toolkit，具体参考：
- https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
- https://docs.docker.com/engine/install/ubuntu/
CUDA Toolkit安装：
- https://developer.nvidia.com/cuda-downloads?target_os=Linux&target_arch=x86_64&Distribution=Ubuntu&target_version=24.04&target_type=deb_local

模型部署

模型链接：https://huggingface.co/Qwen/Qwen3-VL-30B-A3B-Instruct-FP8

参考命令：

# Deploy with docker on Linux:
docker run --runtime nvidia --gpus all \
    --name my_vllm_container \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
     --env "HUGGING_FACE_HUB_TOKEN=<secret>" \
    -p 8000:8000 \
    --ipc=host \
    vllm/vllm-openai:latest \
    --model Qwen/Qwen3-VL-30B-A3B-Instruct-FP8

Enjoy

开始享受吧！！！

本文链接：

http://www.wanyor.com/2025/12/17/289.html