破茧重生!挑战极限,6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek掀起新浪潮
凭借卓越性能表现与先天开源优势,DeepSeek正在迅速成为推动全球大规模模型应用实践的核心力量。作为英特尔在GPU领域的重要布局之一,英特尔锐炫™显卡不仅受到游戏爱好者和视频生产力用户的青睐,同时也适合作为计算卡使用,能够有效加速DeepSeek的运行,为企业用户部署相关AI应用提供了高性价比的选择。具体而言,通过与英特尔®至强®可扩展处理器或英特尔®至强®W处理器的组合,采用多卡配置的方式,可以显著提升DeepSeek在推理任务中的处理效率。 这样的技术组合不仅展示了硬件与软件协同工作的强大潜力,也为未来人工智能应用的发展奠定了坚实的基础。通过这种方式,企业可以在保证高性能的同时,还能有效控制成本,从而加速其数字化转型进程。这无疑是一个值得行业内外关注的重要趋势。
本文将以DeepSeek-R1-Distill-Qwen-32B推理场景为例,介绍一种面向企业级应用且成本可控在5-6万元人民币的解决方案,该方案采用4路英特尔锐炫™A770显卡和至强®W处理器。文章将详细阐述如何搭建硬件环境、配置驱动与软件、优化参数设置等步骤,手把手指导大家完成这一方案的部署与配置。
1. 软硬件安装配置与初始化
1.1 硬件安装配置
硬件配置
处理器:英特尔® 至强® W 处理器(可选20核/24核/28核/32核)
内存:8 x 32GB DDR5-3200
存储:2TB M.2 固态盘
电源:≥2000瓦
GPU:4 x英特尔锐炫™ A770显卡
BIOS:设置Re-Size BAR Support为[Enabled]
图. 安装4路英特尔锐炫™ A770显卡的AI工作站
在BIOS设置中,将Re-Size BAR Support设为[Enabled]
1.2 软件安装配置
软件配置
操作系统:Ubuntu22.04.1 LTS
内核:6.5.0 - 35 - general
驱动程序:23.43.27642.67
vLLM Serving:intelanalytics/ipex-llm-serving-xpu:b11
`安装操作系统Ubuntu22.04.1 LTS(镜像文件可访问https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso获取)。
在进行硬件验证时,确保每块GPU显卡都有足够的功耗以保证其正常运行。安装完操作系统后,你可以使用以下命令来检查英特尔锐炫™A770显卡是否已正确加载。
~$ lspci | grep 56a0
18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)
在确保 APT 网络已连接,且你的账号已具有 sudo 权限的情况下,需严格按以下步骤安装驱动程序:
~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg
~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list
~$ sudo apt update
如果内核版本不是6.5.0-35,则通过以下命令安装6.5.0-35版本:
~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic
~$ sudo apt install intel-i915-dkms
~$ sudo vim /etc/default/grub
GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"
~$ sudo update-grub
~$ sudo reboot
然后通过以下命令安装计算、媒体和显示运行时库:
~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo
通过以下命令将当前用户添加到 render 组:
~$ sudo gpasswd -a $(USER) render
~$ sudo newgrp render
驱动程序安装完成后,建议使用以下命令进行验证:
~$ clinfo | grep "Driver Version"
Driver Version 23.43.27642.67
1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示
首先禁用 ast 卡:
~$ sudo vim /etc/modprobe.d/blacklist.conf
在文件底部添加“blacklist ast”:
~$ sudo update-initramfs -u
然后将窗口系统配置为wayland模式:
~$ sudo vim /etc/gdm3/custom.conf
将WaylandEnable设置为true:
完成后更新初始RAM文件系统(initramfs)并重启系统,然后将HDMI线插入第一块英特尔锐炫™ A770显卡即可完成显示终端设置。
]# sudo update-initramfs -u
~$ sudo reboot
1.4 监控工具xpu-smi安装
可以根据xpumanagerrepo安装用于监控和管理XPU设备状态信息的xpu-smi工具。下载xpumanager后,请执行以下命令:
~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb --no-check-certificate
~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb
~$ xpu-smi discovery
结果显示如下:
大模型服务与聊天机器人演示
2.1容器(Docker)安装及服务设置
用户可以通过Docker在英特尔锐炫™A770显卡上运行IPEX-LLM来提供vLLM服务。Docker的安装指南可以在这里找到:https://docs.docker.com/engine/install/ubuntu/。通过执行以下命令,可以将CPU频率调整到最高睿频,并将显卡频率锁定在2.4GHz。
~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic
# Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:
~$ sudo cpupower frequency-set -d 4.8GHz
~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400,2400
~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400,2400
2.2 安装并启动vLLM服务
下载并安装以下vllm版本:
~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11
最近,我注意到一个趋势,即从开源平台下载大型语言模型(LLM)变得越来越流行。比如,可以从https://hf-mirror.com下载LLM模型,并将其存储在本地文件夹中,如“/home/worker/LLM”。此外,还可以从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下载蒸馏版模型。这种做法不仅使得研究者能够更方便地获取这些模型,而且也有助于推动人工智能技术的发展。开源模型的广泛传播无疑为研究人员提供了更多可能性,使他们能够在不同项目中尝试和应用这些先进的技术。同时,这也表明了开源社区在促进知识共享和技术进步方面的重要作用。
将以下脚本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件(以下操作都以DeepSeek-R1-Distill-Qwen-32B版为例):
将以下脚本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:
然后启动容器和vLLM 服务:
~$ sudo bash backend-ipex-docker.sh
~$ docker exec -it ipex-llm-b11 bash
~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh
如下日志表明DeepSeek推理服务已启动成功:
2.3 使用Chatbox AI进行性能测试
开发者现在有机会在本地环境使用ChatboxAI来测试大型语言模型(LLM)的推理性能。比如,如果DeepSeek推理服务的IP地址为192.168.10.110,那么在Windows PowerShell中可以运行特定命令,并提供相应密码,以便将远程服务的端口映射到本地环境。这种方式不仅为开发人员提供了极大的便利,还极大地促进了开发效率和测试精度,使得他们能够更加灵活地在本地环境中调整和优化模型性能,而无需频繁连接远程服务器。这无疑为开发者提供了一个高效且便捷的工具,以确保其在各种环境下都能获得一致的性能表现。
User> ssh -L 8001:localhost:8001 worker@192.168.10.110
打开Chatbox AI的Url(https://web.chatboxai.app/)
选择 “User My Own API Key / Local Model”,点击 “Add Custom Provider”,并根据下图所示进行配置,手动输入DeepSeek整流的模型名称等信息:
由此,使用者可以在Chatbox AI中向大语言模型提问,测试其推理性能:
vllm服务的日志能够反映当前的性能状况,如下所示,使用多路英特尔锐炫™A770显卡的推理服务一直维持在30tokens/s的性能水平。
创新不止步:全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上
尽管本部署指南主要针对4路英特尔锐炫™A77公牌的方案进行阐述,并以DeepSeek-R1-Distill-Qwen-32B版本为例,但我们实际操作的范围并不限于此。
一方面,该解决方案能够为DeepSeek的不同蒸馏版本提供相同的灵活性。用户可以通过更改输入模型的名称,并设置并行运行的GPU数量来进行相应的调整(通过--tensor-parallel-size参数进行控制)。
另一方面,多路英特尔锐炫™显卡搭配英特尔®至强®可扩展处理器或至强®W处理器的解决方案,主要针对的是DeepSeek-R1-671B这一顶级性能版本。该配置与优化策略即将发布。预计该技术路线将涵盖两种方案:一种是基于KTransformer,能够更好地发挥至强®处理器内置AI加速技术AMX潜力的方法;另一种则是配置更高密度GPU的方案,即单台机器配备16路英特尔锐炫™显卡。
另一项令人期待的进步是,新一代专为提高生产力设计的英特尔锐炫™显卡B58024G显存版本即将问世。这款显卡每四张就能提供96GB的显存容量,使得用户能够更方便地在单一系统中配置更大规模的DeepSeek服务(如DeepSeek-R1-671B版本)。这将使用户能够在实际操作中以较低成本和简便的方式启动完整的DeepSeek服务。