deepseek新版是被国产芯片耽误了

君思睿

混世魔头

帖子: 2397
精华: 0
积分: 2674
激骚: 46 度
爱车
主机
相机
手机
注册时间: 2023-3-11

发短消息
加为好友
当前离线

1^# 大中小发表于 2025-8-14 15:46 显示全部帖子

posted by wap, platform: Chrome
来自《金融时报》的文章《DeepSeek’s launch of new AI model delayed by Huawei chip issues》

因为DS新版训练使用某品牌国产芯片，结果搞不定，又换回黄皮衣家的，导致迟迟出不来：

中国人工智能公司深势（DeepSeek）因未能使用华为芯片完成新模型的训练，推迟了新品发布，这凸显了北京在取代美国技术方面的局限性。

据三位知情人士透露，自今年1月推出R1模型以来，深势在官方鼓励下，尝试采用华为昇腾（Ascend）处理器，而不是英伟达（Nvidia）系统进行训练。但在用昇腾芯片进行R2模型训练过程中，这家初创公司遇到了持续的技术问题，最终不得不在训练阶段使用英伟达芯片，而在推理阶段才用华为芯片。

一位知情人士表示，这些问题是导致该模型从5月推迟发布的主要原因，使其在竞争中失去先机。训练是指模型从大规模数据集中学习，而推理则是指利用已训练好的模型进行预测或生成内容（例如回答聊天机器人问题）的过程。

深势的困境表明，在关键任务上，中国芯片仍落后于美国对手，这也凸显了中国在科技自给自足道路上的挑战。本周，《金融时报》报道称，北京要求中国科技公司对采购英伟达H20芯片的理由作出说明，以鼓励他们推广华为和寒武纪等国产替代品。

业内人士指出，与英伟达产品相比，中国芯片在稳定性、芯片间互联速度以及软件水平方面仍存在差距。两位知情人士表示，华为曾派出工程师团队前往深势总部，协助其用昇腾芯片开发R2模型，但即便在工程师团队现场支持下，深势仍未能在昇腾芯片上完成一次成功的训练。

据知情人士透露，深势目前仍在与华为合作，使R2模型在推理阶段能兼容昇腾芯片。公司创始人梁文峰在内部表示，他对R2的进展并不满意，并推动团队投入更多时间打造能够保持公司AI领先地位的先进模型。另一位知情人士补充，R2推迟发布还与更新模型所需的数据标注时间比预期更长有关。中国媒体报道称，该模型可能会在未来几周内发布。

加州大学伯克利分校AI研究员Ritwik Gupta表示：“模型是可以轻易替换的商品，很多开发者正在使用阿里巴巴的Qwen3，它既强大又灵活。”Gupta指出，Qwen3借鉴了深势的核心理念，例如让模型具备推理能力的训练算法，但在使用效率上进行了优化。他还表示，华为在用昇腾芯片进行训练时正经历“成长的阵痛”，不过他相信这家中国科技巨头最终会适应这一过程。

“今天我们没有看到基于华为训练的顶尖模型，并不意味着未来不会出现。这只是时间问题。”他说。

英伟达近期同意将其在中国销售H20芯片的部分收入上缴美国政府，以恢复该产品在华销售。英伟达表示，中国公司使用其芯片的开发者“将在打造获胜的AI生态系统中发挥关键作用”，“放弃整个市场和开发者只会损害美国的经济和国家安全”。

深势与华为均未回应置评请求。

TOP