首页 > 电脑硬件 > 电脑硬件
发布日期:2025-03-06 11:15:09

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

破茧重生!挑战极限,6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek掀起新浪潮

   凭借卓越性能表现与先天开源优势,DeepSeek正在迅速成为推动全球大规模模型应用实践的核心力量。作为英特尔在GPU领域的重要布局之一,英特尔锐炫™显卡不仅受到游戏爱好者和视频生产力用户的青睐,同时也适合作为计算卡使用,能够有效加速DeepSeek的运行,为企业用户部署相关AI应用提供了高性价比的选择。具体而言,通过与英特尔®至强®可扩展处理器或英特尔®至强®W处理器的组合,采用多卡配置的方式,可以显著提升DeepSeek在推理任务中的处理效率。 这样的技术组合不仅展示了硬件与软件协同工作的强大潜力,也为未来人工智能应用的发展奠定了坚实的基础。通过这种方式,企业可以在保证高性能的同时,还能有效控制成本,从而加速其数字化转型进程。这无疑是一个值得行业内外关注的重要趋势。

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   本文将以DeepSeek-R1-Distill-Qwen-32B推理场景为例,介绍一种面向企业级应用且成本可控在5-6万元人民币的解决方案,该方案采用4路英特尔锐炫™A770显卡和至强®W处理器。文章将详细阐述如何搭建硬件环境、配置驱动与软件、优化参数设置等步骤,手把手指导大家完成这一方案的部署与配置。

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   1. 软硬件安装配置与初始化

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   1.1 硬件安装配置

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   硬件配置

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   处理器:英特尔® 至强® W 处理器(可选20核/24核/28核/32核)

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   内存:8 x 32GB DDR5-3200

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   存储:2TB M.2 固态盘

《挑战极限!6万内打造4路锐炫显卡+至强W深度搜索配置,助力DeepSeek》

   电源:≥2000瓦

   GPU:4 x英特尔锐炫™ A770显卡

   BIOS:设置Re-Size BAR Support为[Enabled]

   图. 安装4路英特尔锐炫™ A770显卡的AI工作站

   在BIOS设置中,将Re-Size BAR Support设为[Enabled]

   1.2 软件安装配置

   软件配置

   操作系统:Ubuntu22.04.1 LTS

   内核:6.5.0 - 35 - general

   驱动程序:23.43.27642.67

   vLLM Serving:intelanalytics/ipex-llm-serving-xpu:b11

   `安装操作系统Ubuntu22.04.1 LTS(镜像文件可访问https://old-releases.ubuntu.com/releases/22.04.1/ubuntu-22.04.1-desktop-amd64.iso获取)。

   在进行硬件验证时,确保每块GPU显卡都有足够的功耗以保证其正常运行。安装完操作系统后,你可以使用以下命令来检查英特尔锐炫™A770显卡是否已正确加载。

   ~$ lspci | grep 56a0

   18:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

   36:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

   54:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

   cc:00.0 VGA compatible controller: Intel Corporation Device 56a0 (rev 08)

   在确保 APT 网络已连接,且你的账号已具有 sudo 权限的情况下,需严格按以下步骤安装驱动程序:

   ~$ wget -qO - https://repositories.intel.com/gpu/intel-graphics.key | sudo gpg --yes --dearmor --output /usr/share/keyrings/intel-graphics.gpg

   ~$ echo "deb [arch=amd64,i386 signed-by=/usr/share/keyrings/intel-graphics.gpg] https://repositories.intel.com/gpu/ubuntu jammy/lts/2350 unified" | sudo tee /etc/apt/sources.list.d/intel-gpu-jammy.list

   ~$ sudo apt update

   如果内核版本不是6.5.0-35,则通过以下命令安装6.5.0-35版本:

   ~$ sudo apt-get install -y linux-image-6.5.0-35-generic linux-headers-6.5.0-35-generic linux-modules-6.5.0-35-generic linux-modules-extra-6.5.0-35-generic

   ~$ sudo apt install intel-i915-dkms

   ~$ sudo vim /etc/default/grub

   GRUB_DEFAULT="Advanced options for Ubuntu>Ubuntu, with Linux 6.5.0-35-generic"

   ~$ sudo update-grub

   ~$ sudo reboot

   然后通过以下命令安装计算、媒体和显示运行时库:

   ~$ sudo apt install -y intel-opencl-icd intel-level-zero-gpu level-zero intel-media-va-driver-non-free libmfx1 libmfxgen1 libvpl2 libegl-mesa0 libegl1-mesa libegl1-mesa-dev libgbm1 libgl1-mesa-dev libgl1-mesa-dri libglapi-mesa libgles2-mesa-dev libglx-mesa0 libigdgmm12 libxatracker2 mesa-va-drivers mesa-vdpau-drivers mesa-vulkan-drivers va-driver-all vainfo hwinfo clinfo

   通过以下命令将当前用户添加到 render 组:

   ~$ sudo gpasswd -a $(USER) render

   ~$ sudo newgrp render

   驱动程序安装完成后,建议使用以下命令进行验证:

   ~$ clinfo | grep "Driver Version"

   Driver Version 23.43.27642.67

   1.3 在英特尔® 至强® W平台上设置GPU的HDMI显示

   首先禁用 ast 卡:

   ~$ sudo vim /etc/modprobe.d/blacklist.conf

   在文件底部添加“blacklist ast”:

   ~$ sudo update-initramfs -u

   然后将窗口系统配置为wayland模式:

   ~$ sudo vim /etc/gdm3/custom.conf

   将WaylandEnable设置为true:

   完成后更新初始RAM文件系统(initramfs)并重启系统,然后将HDMI线插入第一块英特尔锐炫™ A770显卡即可完成显示终端设置。

   ]# sudo update-initramfs -u

   ~$ sudo reboot

   1.4 监控工具xpu-smi安装

   可以根据xpumanagerrepo安装用于监控和管理XPU设备状态信息的xpu-smi工具。下载xpumanager后,请执行以下命令:

   ~$ wget https://github.com/intel/xpumanager/releases/download/V1.2.27/xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb  --no-check-certificate

   ~$ sudo apt install ./xpu-smi_1.2.27_20240103.051106.5eeb3f13.u22.04_amd64.deb

   ~$ xpu-smi discovery

   结果显示如下:

   大模型服务与聊天机器人演示

   2.1容器(Docker)安装及服务设置

   用户可以通过Docker在英特尔锐炫™A770显卡上运行IPEX-LLM来提供vLLM服务。Docker的安装指南可以在这里找到:https://docs.docker.com/engine/install/ubuntu/。通过执行以下命令,可以将CPU频率调整到最高睿频,并将显卡频率锁定在2.4GHz。

   ~$ apt-get install linux-tools-6.5.0-35-generic linux-cloud-tools-6.5.0-35-generic

   # Query max turbo frequency, like W3445, Max Turbo Frequency is 4.8GHz:

   ~$ sudo cpupower frequency-set -d 4.8GHz

   ~$ sudo xpu-smi config -d 0 -t 0 --frequencyrange 2400,2400

   ~$ sudo xpu-smi config -d 1 -t 0 --frequencyrange 2400,2400

   ~$ sudo xpu-smi config -d 2 -t 0 --frequencyrange 2400,2400

   ~$ sudo xpu-smi config -d 3 -t 0 --frequencyrange 2400,2400

   2.2 安装并启动vLLM服务

   下载并安装以下vllm版本:

   ~$ docker pull intelanalytics/ipex-llm-serving-xpu:2.2.0-b11

   最近,我注意到一个趋势,即从开源平台下载大型语言模型(LLM)变得越来越流行。比如,可以从https://hf-mirror.com下载LLM模型,并将其存储在本地文件夹中,如“/home/worker/LLM”。此外,还可以从https://hf-mirror.com/collections/deepseek-ai/deepseek-r1-678e1e131c0169c0bc89728d下载蒸馏版模型。这种做法不仅使得研究者能够更方便地获取这些模型,而且也有助于推动人工智能技术的发展。开源模型的广泛传播无疑为研究人员提供了更多可能性,使他们能够在不同项目中尝试和应用这些先进的技术。同时,这也表明了开源社区在促进知识共享和技术进步方面的重要作用。

   将以下脚本放入/home/intel/Demo-4xArc中的 bachkend-ipex-docker.sh文件(以下操作都以DeepSeek-R1-Distill-Qwen-32B版为例):

   将以下脚本放入vllm-deepseek-r1-distill-qwen-32b-openaikey.sh文件:

   然后启动容器和vLLM 服务:

   ~$ sudo bash backend-ipex-docker.sh

   ~$ docker exec -it ipex-llm-b11 bash

   ~$ cd workspace & bash vllm-deepseek-r1-distill-qwen-32b-openaikey.sh

   如下日志表明DeepSeek推理服务已启动成功:

   2.3 使用Chatbox AI进行性能测试

   开发者现在有机会在本地环境使用ChatboxAI来测试大型语言模型(LLM)的推理性能。比如,如果DeepSeek推理服务的IP地址为192.168.10.110,那么在Windows PowerShell中可以运行特定命令,并提供相应密码,以便将远程服务的端口映射到本地环境。这种方式不仅为开发人员提供了极大的便利,还极大地促进了开发效率和测试精度,使得他们能够更加灵活地在本地环境中调整和优化模型性能,而无需频繁连接远程服务器。这无疑为开发者提供了一个高效且便捷的工具,以确保其在各种环境下都能获得一致的性能表现。

   User> ssh -L 8001:localhost:8001 worker@192.168.10.110

   打开Chatbox AI的Url(https://web.chatboxai.app/)

   选择 “User My Own API Key / Local Model”,点击 “Add Custom Provider”,并根据下图所示进行配置,手动输入DeepSeek整流的模型名称等信息:

   由此,使用者可以在Chatbox AI中向大语言模型提问,测试其推理性能:

   vllm服务的日志能够反映当前的性能状况,如下所示,使用多路英特尔锐炫™A770显卡的推理服务一直维持在30tokens/s的性能水平。

   创新不止步:全新24GB锐炫™ 显卡与满血版DeepSeek R1方案正在路上

   尽管本部署指南主要针对4路英特尔锐炫™A77公牌的方案进行阐述,并以DeepSeek-R1-Distill-Qwen-32B版本为例,但我们实际操作的范围并不限于此。

   一方面,该解决方案能够为DeepSeek的不同蒸馏版本提供相同的灵活性。用户可以通过更改输入模型的名称,并设置并行运行的GPU数量来进行相应的调整(通过--tensor-parallel-size参数进行控制)。

   另一方面,多路英特尔锐炫™显卡搭配英特尔®至强®可扩展处理器或至强®W处理器的解决方案,主要针对的是DeepSeek-R1-671B这一顶级性能版本。该配置与优化策略即将发布。预计该技术路线将涵盖两种方案:一种是基于KTransformer,能够更好地发挥至强®处理器内置AI加速技术AMX潜力的方法;另一种则是配置更高密度GPU的方案,即单台机器配备16路英特尔锐炫™显卡。

   另一项令人期待的进步是,新一代专为提高生产力设计的英特尔锐炫™显卡B58024G显存版本即将问世。这款显卡每四张就能提供96GB的显存容量,使得用户能够更方便地在单一系统中配置更大规模的DeepSeek服务(如DeepSeek-R1-671B版本)。这将使用户能够在实际操作中以较低成本和简便的方式启动完整的DeepSeek服务。

    

电脑硬件最新资讯
友情链接 百度权重≥3友情链接交换
数界探索  |  科技快讯中文网  |  经济脉动  |  科技先锋  |  财智慧  |  慧算财经  |  财经探秘  |  财经日报  |  今日财经  |  财经风向标
Copyright © 2025 智慧科技官网 网暻网络
备案号:陇ICP备16003923号-4 版权所有