DeepSeek被美国科技圈盯上了|钛媒体AGI
发布时间:2025-01-27 09:01
(图片起源:Shutterstock US)正如各人所知,“西方奥秘力气”DeepSeek近期在中国、美国的科技圈遭到普遍存眷,乃至被以为是年夜模子行业最年夜“黑马”。近期,中国 AI 年夜模子创业公司DeepSeek(深度求索)正式宣布 DeepSeek-R1年夜模子,称在数学、代码、天然言语推理等义务上,机能比肩OpenAI o1正式版。这一新闻震撼了寰球 AI 圈,也让美国 AI 公司研讨职员觉得受惊于中国赶超了美国年夜模子技巧。一位Meta的工程师在美国科技公司员工社区Blind中如许写道,“Meta的天生式AI部分正处于惊恐中。这所有始于DeepSeek,它使得 Llama 4 在基准测试中曾经落伍。落井下石的是:谁人不著名的中国公司,仅有550万美元的练习估算。工程师们正在猖狂地分析DeepSeek,并试图从中复制所有可能的货色。”钛媒体AGI懂得到,停止发稿前,DeepSeek挪动端在苹果 App Store利用市肆排行第八,超出Google Gemini、Microsoft Copilot等美国天生式 AI 产物,下载热度仅次于ChatGPT。同时,OpenAI、字节跳动、阿里通义以及智谱、Kimi月之暗面等海内外团队都在踊跃研讨DeepSeek,OpenAI跟字节跳动都在斟酌与DeepSeek开展研讨配合。达沃斯天下经济论坛时期,Scale AI开创人亚历山年夜·王(Alexandr Wang)直言,DeepSeekAI年夜模子机能大抵与美国最好的模子相称。他以为,从前十年来,美国可能始终在 AI 比赛中当先于中国,但DeepSeek的AI年夜模子宣布可能会“转变所有”。值得细品的是Alexandr Wang说的另一段话:“DeepSeek大概有5万张H100盘算卡,他们显然不克不及念叨这件事,由于这违背了美国实行的出口控制。我以为这是真的,我以为他们的筹码比其余人预期的要多,但也会持续行进。他们将遭到芯片把持跟出口控制的限度。” 开展全文
Alexandr Wang表示DeepSeek将会遭到美国控制。
DeepSeek开创人、头部量化私募幻方量化开创人梁文锋曾表现,DeepSeek面对的重要制约要素不是资金,而是高端算力的应用权,这些芯片对练习进步AI模子至关主要。
跟着AMD证明DeepSeek正在应用最强 AI 芯片之一的MI300X停止年夜模子练习,对中国 AI 怎样冲破围栏实行年夜模子练习,将成为要害话题。
DeepSeek朝美国硅谷开的“这一枪”用时4年
假如你在 AI 圈,对DeepSeek跟梁文锋曾经有良多文章停止先容了。总结来说有多少点:
1、梁文锋是典范的“小镇做题家”:诞生于广东湛江的五(三)线都会、17岁考入浙江年夜学,2010年硕士结业于浙江年夜学信息与通讯工程专业。
2、硕士结业后,梁文锋就率领团队开端应用呆板进修等技巧摸索全主动量化买卖。2010年,他跟浙江年夜黉舍友创建了雅克比投资。
3、2015年6月,30岁的梁文锋与“股东出轨女上司”的徐进结合开办杭州幻方科技无限公司(幻方量化、High-Flyer),依附数学与人工智能停止量化投资,破志成为天下顶级的量化对冲基金。
4、2021年,幻方量化治理范围已冲破了1000亿元,统一年,梁文锋开端找寻“副业”,找供给商买了数千张英伟达GPU显卡(事先应当买的是RTX4090、A100、L40等),发力AI技巧。而到2023年,幻方量化治理总范围已降到400多亿元。
5、2023年终,幻方量化曾发布本身领有1万张英伟达A100 GPU卡,厥后咱们懂得到,事先幻方量化说了谎话,它事先仅领有数千张A100卡罢了,剩下则是花费卡、老款显卡,另有用云效劳方法租用A100显卡。业内子士将其视为,一个亿万大亨寻觅新喜好时的“怪僻行动”。
6、DeepSeek高潮很年夜水平上与海内媒体所谓“中国年夜模子企业超出美国”这类东升西降的热捧是分不开。实在,DeepSeek技巧并未稀罕到“赞叹”水平,DeepSeek V1版本的时间很毛糙,事先大批应用GPT的开源数据,乃至一度挪用过GPT-3.5 API接口。现在的“AI界的拼多多”,自身是AI infra技巧跟团队 AI 技巧才能强。因而,媒体用DeepSeek单一模子证明中国 AI 技巧超出美国,是逻辑上的“以偏概全”过错,DeepSeek是 AI 技巧迭代的受益者,但这并不代表它在技巧上具有了超出OpenAI等当先企业的气力。
7、DeepSeek的实例进一步标明,AI技巧并不存在显明的“护城河”,模子技巧的超出已成为常态,“六小虎”并不是独一头部。但是,AI算力范围的增加以及临时的模子迭代能否可能真正超出OpenAI,才是决议AI年夜模子开展的要害要素。
8、DeepSeek不融资、短期不上市志愿,精良的现金流促使DeepSeek应聘大批 AI 研讨人才,构成所谓“研讨院”气氛,只担任前沿,不担任贸易,乃至团队十分懂基本设备跟芯片道理。别的,他还从对冲基金行业带走了最好的团队参加DeepSeek。
正如图灵奖得主、Meta AI首席迷信家杨乐昆(Yann LeCun)所说,“给那些看到 DeepSeek 的表示后,感到‘中国在 AI 方面正在超出美国’的人,你们的解读是错的。准确的解读应当是,‘开源模子正在超出专有模子’。”
现实上,从购置千张GPU搭建 AI 算力开端,DeepSeek年夜模子超出OpenAI之路用时4年。
客岁 12 月尾,DeepSeek宣布的DeepSeek-V3开源基本模子机能,与GPT-4o跟Claude Sonnet 3.5等顶尖模子邻近,但练习本钱极低。全部练习在2048块英伟达H800 GPU集群上实现,仅破费约557.6万美元,不到其余顶尖模子练习本钱的非常之一。
GPT-4o等模子的练习本钱约为1亿美元,至少在万个GPU量级的盘算集群上练习,并且应用的是机能更为优胜的H100 GPU。比方,同为顶尖年夜模子,客岁宣布的Llama 3.1在练习进程中应用了16,384块H100 GPU,耗费了DeepSeek-V3 11倍的盘算资本,本钱超越6000万美元。
现在,只管DeepSeek当初尚未颁布练习推理模子R1的完全本钱,但它颁布了API的订价,每百万输入 tokens 1 元-4元国民币,每百万输出 tokens 16 元。这个收费大概是 OpenAI o1运转本钱的三非常之一。
本钱进一步下降的同时,DeepSeek R1的技巧要害点在于其翻新的练习方式——DeepSeek-R1-Zero道路,该道路直接将强化进修(RL)利用于基本模子,无需依附监视微调(SFT)跟已标注数据。经由过程树立简略的正确性嘉奖跟格局请求规矩,DeepSeek R1在无监视数据的情形下实现自我退化,取得强盛的推理才能。在AIME 2024基准测试中,DeepSeek R1-Zero展示了高达86.7%的正确率,证实了直接强化进修在练习高等推理模子中的无效性。
艾伦人工智能研讨所迷信家内森·兰伯特(Nathan Lambert)表现,R1的论文是推理模子研讨不断定性中的一个主要转机点,由于到现在为止,AI 推理模子始终是产业研讨的一个主要范畴,但缺少一篇存在首创性的论文。
据常识分子,中山年夜学集成电路学院助理教学王美琪表现,直接强化进修方式与 DeepSeek 团队在多版模子迭代中的一系列工程优化技巧(如简化赏罚模子计划等)相联合,无效下降了年夜模子的练习本钱。直接强化进修防止了大批人工标注数据的任务,而赏罚模子的简化计划等则增加了对盘算资本的需要。
“DeepSeek 的运转方法就像DeepMind晚期一样,”一位 AI 投资者表现,它纯洁专一于研讨跟工程,而非贸易化。
英伟达高等研讨迷信家Jim Fan直言,“DeepSeek是今年度开源年夜言语模子范畴的最年夜黑马。”
算力需要还是年夜模子资本“窘境”,美国出口控制影响不小
对DeepSeek,英国《天然》杂志以为,只管美国对华半导体出口控制停止限度,但中国公司仍是胜利制作了DeepSeek R1。但西雅图 AI 研讨员 Francois Chollet以为,“高效应用资本比纯真的盘算范围更主要。”
梁文锋此前也指出,对DeepSeek来说,算力更高的进步 AI 芯片对练习进步AI模子至关主要。
现在,Alexander Wang直抒己见地表白美国当局须要为了当先上风对DeepSeek的 AI 芯片停止考察跟控制。
Alexandr Wang诞生于1997年,他于19岁那年从美国麻省理工学院停学,创建的AI公司Scale AI估值超百亿美元,取得了包含Y Combinator、英伟达、AMD风投、亚马逊、Meta等巨子科技公司投资,该公司为OpenAI、谷歌跟 Meta等供给练习数据。
此前,Alexandr Wang发文表白对中国 AI 追逐美国的担心。他以为,DeepSeek-V3的宣布给外界的经验是,在美国人苏息时,中国人在任务,并以更廉价、更快、更强的产物奋起直追。
OpenAI 首席财政官 Sarah Friar也以为,中美之间的 AI 竞争不是简略的口水战,这是一场实在的竞争,两边正在鼎力投资这一范畴。“咱们曾经看到特朗普当局乐意踊跃参加,无论是从经济角度,仍是从羁系跟贸易竞争的角度。咱们很等待开端本质性的配合。”
以后,美国出口控制成为中国 AI 行业开展的要害要素之一。
北京时光1月15日晚,美国商务部产业跟保险局 (BIS) 订正了《出口控制条例》(EAR),在实体清单平分两批,共增添了25其中国实体,包含智谱旗下9个实体等。
这是首其中国AI年夜模子公司被美国列入“实体清单”。
对此,智谱发申明回应称,“美国商务部产业跟保险局(BIS)拟将智谱及子公司增列至出口控制实体清单。这一决议缺少现实根据,咱们对此表现激烈支持。鉴于智谱控制全链路年夜模子中心技巧的现实,被列入实体清单不会对公司营业发生本质影响。智谱有才能也将更专一地为咱们的用户跟搭档供给天下一流的年夜模子技巧、产物跟效劳。同时公司将持续参加寰球人工智能竞争,保持最高保险尺度跟公正、通明、可连续准则,推进人工智能技巧开展。”
在此之前,旷视、依图、云从、摩尔线程等大批 AI 公司被列入美国“实体清单”,对一些 AI 软件公司来说有必定影响——无奈再练习出万亿范围年夜模子。
但是,DeepSeek、字节跳动等中国企业的呈现跟发力 AI 范畴,让美国认识到控制无奈禁止中国对标OpenAI,连续推动 AI 技巧当先。
《福布斯》发文指出,DeepSeek让天下意识到,“中国并未退出这场(人工智能的)比赛。”
“假如最好的开源技巧来自中国,美国开辟职员将在这些技巧的基本上构建他们的体系。从久远来看,这可能会让中国成为研发 AI 的核心。”《纽约时报》称。
不外,DeepSeek仍然面对竞争敌手囤积大批算力挑衅。本周,特朗普发布,OpenAI与甲骨文、日本软银团体独特创建一家5000亿美金投资新打算公司“星际之门”,破即在美国至少投资 1000 亿美元用于 AI 基本设备。同时,马斯克的 xAI 也正在年夜范围扩大其超等盘算机,以包容超越100万个 GPU,以辅助练习其 Grok AI 模子。
这时我就想起了百度开创人、CEO李彦宏的话:“开源模子会越来越落伍”。
现在看来,DeepSeek证实开源并未落伍,乃至给中国 AI 超出美国的目的带来更多的盼望。然而,DeepSeek是否因而面对美国当局的针对性限度,终极招致模子练习跟算力层面面对制约,仍然存在宏大不断定性。
“以后,DeepSeek 领有中国最年夜的进步盘算集群之一,”梁文锋的贸易配合搭档对外称,“他们当初有充足的资本容量,但不会太久。”
(本文首发于钛媒体App,作者|林志佳,编纂|胡润峰)前往搜狐,检查更多