» 您尚未登录:请 登录 | 注册 | 标签 | 帮助 | 小黑屋 |


发新话题
打印

deepseek新版是被国产芯片耽误了

posted by wap, platform: Chrome
来自《金融时报》的文章《DeepSeek’s launch of new AI model delayed by Huawei chip issues》

因为DS新版训练使用某品牌国产芯片,结果搞不定,又换回黄皮衣家的,导致迟迟出不来:


中国人工智能公司深势(DeepSeek)因未能使用华为芯片完成新模型的训练,推迟了新品发布,这凸显了北京在取代美国技术方面的局限性。

据三位知情人士透露,自今年1月推出R1模型以来,深势在官方鼓励下,尝试采用华为昇腾(Ascend)处理器,而不是英伟达(Nvidia)系统进行训练。但在用昇腾芯片进行R2模型训练过程中,这家初创公司遇到了持续的技术问题,最终不得不在训练阶段使用英伟达芯片,而在推理阶段才用华为芯片。

一位知情人士表示,这些问题是导致该模型从5月推迟发布的主要原因,使其在竞争中失去先机。训练是指模型从大规模数据集中学习,而推理则是指利用已训练好的模型进行预测或生成内容(例如回答聊天机器人问题)的过程。

深势的困境表明,在关键任务上,中国芯片仍落后于美国对手,这也凸显了中国在科技自给自足道路上的挑战。本周,《金融时报》报道称,北京要求中国科技公司对采购英伟达H20芯片的理由作出说明,以鼓励他们推广华为和寒武纪等国产替代品。

业内人士指出,与英伟达产品相比,中国芯片在稳定性、芯片间互联速度以及软件水平方面仍存在差距。两位知情人士表示,华为曾派出工程师团队前往深势总部,协助其用昇腾芯片开发R2模型,但即便在工程师团队现场支持下,深势仍未能在昇腾芯片上完成一次成功的训练。

据知情人士透露,深势目前仍在与华为合作,使R2模型在推理阶段能兼容昇腾芯片。公司创始人梁文峰在内部表示,他对R2的进展并不满意,并推动团队投入更多时间打造能够保持公司AI领先地位的先进模型。另一位知情人士补充,R2推迟发布还与更新模型所需的数据标注时间比预期更长有关。中国媒体报道称,该模型可能会在未来几周内发布。

加州大学伯克利分校AI研究员Ritwik Gupta表示:“模型是可以轻易替换的商品,很多开发者正在使用阿里巴巴的Qwen3,它既强大又灵活。”Gupta指出,Qwen3借鉴了深势的核心理念,例如让模型具备推理能力的训练算法,但在使用效率上进行了优化。他还表示,华为在用昇腾芯片进行训练时正经历“成长的阵痛”,不过他相信这家中国科技巨头最终会适应这一过程。

“今天我们没有看到基于华为训练的顶尖模型,并不意味着未来不会出现。这只是时间问题。”他说。

英伟达近期同意将其在中国销售H20芯片的部分收入上缴美国政府,以恢复该产品在华销售。英伟达表示,中国公司使用其芯片的开发者“将在打造获胜的AI生态系统中发挥关键作用”,“放弃整个市场和开发者只会损害美国的经济和国家安全”。

深势与华为均未回应置评请求。


TOP

发新话题
     
官方公众号及微博