亚搏英伟达适配DeepSeek-V4 AI模子, 开箱性能超150 tokens/sec/user

亚搏英伟达适配DeepSeek-V4 AI模子，开箱性能超150 tokens/sec/user

IT之家4月25日音问，英伟达今天（4月25日）发布博文，秘书其NVIDIABlackwell平台已适配DeepSeek-V4-Pro与DeepSeek-V4-Flash两款模子，缔造者可通过NVIDIANIM微就业下载部署，或诈欺SGLang与vLLM框架进行定制化推理。

英伟达在博文指出，DeepSeek-V4-Pro领有1.6T总参数目与49B激活参数，定位高档推理任务；DeepSeek-V4-Flash版块则为284B总参数目与13B激活参数，主打高速高效场景。

两款模子均撑捏100万Token凹凸文窗口与最高38.4万Token输出长度，隐蔽长文本编码、文档分析等中枢应用，亚博体育并取舍MIT开源合同。

实测数据露出，DeepSeek-V4-Pro在NVIDIAGB200NVL72上开箱即用性能超150tokens/sec/user，借助vLLM的Day0配方，缔造者可在BlackwellB300上快速部署。跟着Dynamo、NVFP4及CUDA内核的深度优化，预期性能将进一步进步。

部署生态方面，缔造者可通过NVIDIANIM微就业下载部署，或诈欺SGLang与vLLM框架进行定制化推理。SGLang提供低蔓延、平衡及最大隐约量三种配方；vLLM则撑捏多节点推广至100个以上GPU，具备用具调用与测度解码才气。

IT之家附上参考亚搏

开云app登录入口

亚搏 英伟达适配DeepSeek-V4 AI模子, 开箱性能超150 tokens/sec/user