首页 > 互联网 > 正文

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持

chenlijuan 2025-02-10 18:24 互联网 33 0

  2月10日,DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持,而对于AI大模型来说,使用GPU运行无疑是最高效的,比如AMD,无论是Instinct加速卡还是Radeon游戏卡,都已经适配到位。

  你只需要任意一块AMD RX 7000系列显卡,就可以在本地体验DeepSeek。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第1张

  AMD Radeon游戏卡本地部署DeepSeek非常简单,只需打开AMD官网(中英文均可),搜索“15.1.1”,进入第一个结果,下载AMD Adrenalin 25.1.1测试版驱动,安装并重启。

  直接下载地址:

  https://www.amd.com/zh-cn/resources/support-articles/release-notes/RN-RAD-WIN-25-1-1.html

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第2张

  然后打开LM Studio官网网站的锐龙专栏(https://lmstudio.ai/ryzenai),并下载LM Studio for Ryzen AI安装包,安装并运行。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第3张

  启动之后,点击右下角设置(可选中文语言),找到并开启“Use LM Studio's Hugging Face”这个选项。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第4张

  回到主界面,在左侧菜单栏点击搜索图标,输入“DeepSeek R1”,就可以看到已经训练好的各种DeepSeek模型。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第5张

  至于如何选择,可以参考如下的AMD官方推荐列表,比如旗舰级的RX 7900 XTX可以支持到32B参数,主流的RX 7600则仅支持8B模型。

  顺带一提,最新的中国特供版显卡RX 7650 GRE也同样支持本地部署DeepSeek,只待正式发布。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第6张

  然后下载合适的模型,在主界面上方选择已下载的模型,然后调高“GPU Offload”的数值,不同选项的具体含义可自行搜索或者直接询问DeepSeek。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第7张

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第8张

  模型加载完毕后,就可以尽情地在本地体验DeepSeek了。

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第9张

  与此同时,AMD Instinct GPU加速卡也已经部署集成DeepSeek V3模型,并优化了SGLang性能,支持完整的671B参数,开发者可以借助AMD ROCm平台快速、高效地开发AI应用。

  1、启动Docker容器

  docker run -it --ipc=host --cap-add=SYS_PTRACE --network=host \

  --device=/dev/kfd --device=/dev/dri --security-opt seccomp=unconfined \

  --group-add video --privileged -w /workspace lmsysorg/sglang:v0.4.2.post3-rocm630

  2、开始使用

  (1)、使用CLI登陆进入Hugging Face。

  huggingface-cli login

  (2)、启动SGLang Server,在本地部署DeepSeekV3 FP8模型。

  python3 -m sglang.launch_server --model-path deepseek-ai/DeepSeek-V3 --port 30000 --tp 8 --trust-remote-code

  (3)、服务器启动后,打开新的终端,发送请求。

  curl http://localhost:30000/generate \

  -H "Content-Type: application/json" \

  -d '{

  "text": "Once upon a time,",

  "sampling_params": {

  "max_new_tokens": 16,

  "temperature": 0

  }

  }'

  3、基准测试

  export HSA_NO_SCRATCH_RECLAIM=1

  python3 -m sglang.bench_one_batch --batch-size 32 --input 128 --output 32 --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

  python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-V3 --tp 8 --trust-remote-code

  python3 benchmark/gsm8k/bench_sglang.py --num-questions 2000 --parallel 2000 --num-shots 8

  Accuracy: 0.952

  Invalid: 0.000

  另外,如果需要BF16精度,可以自行转换:

  cd inference

  python fp8_cast_bf16.py --input-fp8-hf-path /path/to/fp8_weights --output-bf16-hf-path /path/to/bf16_weights

DeepSeek火得一塌糊涂,国内外的相关企业都在积极适配支持--第10张



发表评论 取消回复

暂无评论,欢迎沙发
最近发表
友情链接
关灯 顶部