在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑:LY她是“央视名嘴”,凭借《开心词典》...
2025-10-12 0
为了争夺有限的GPU,OpenAI内部一度打得不可开交。2024年总算力投入70亿美元,但算力需求依旧是无底洞。恰恰,微软发布了全球首台GB300超算,专供OpenAI让万亿LLM数天训完。
过去一年,OpenAI在算力上斥资70亿美元。
其中,大模型研发占了最大头——50亿美元,而推理计算仅用了20亿美元。
可见,LLM训练正吞噬无尽的算力,这也是OpenAI最近一直在大举扩展超算建设与合作的重要原因。
采访中,OpenAI总裁Greg Brockman坦言,「内部如何分配GPU,简直就是一场痛苦与煎熬」。
OpenAI各个团队争抢GPU,那叫一个激烈。最头疼的是,如何去合理分配。
如今,甲骨文、英伟达、AMD等芯片巨头/云服务巨头,纷纷与OpenAI联结,能够解其燃眉之急。
这不,就连曾经最大的「金主爸爸」微软也上阵了。
纳德拉官宣,全球首个配备4600+ GB300的超算率先上线,专攻OpenAI。预计,未来将扩展到十万块GPU。
英伟达称,这一算力巨兽,可以让OpenAI不用数周,仅在数天内训练万亿参数模型。
就在昨天,微软Azure宣布成功交付了,全球首个生产级超大规模AI集群。
它搭载了超4600个GB300 NVL72,配备通过下一代InfiniBand网络互联的Blackwell Ultra GPU。
今年早些时候,微软曾推出GB200 v6虚拟机(VM),通过大规模GB200 NVL2集群,已在OpenAI内部训练部署得到应用。
这一次,GB300 v6虚拟机再次树立了行业标杆。
该系统基于机架级设计,每个机架包含18个虚拟机,共计72个GPU:
为打造出最强超算,微软对计算、内存、网络、数据中心、散热和供电等技术栈的每一层,都进行了重新设计。
机架层:低延迟高吞吐
通过NVLink和NVSwitch,GB300 v6在机架层面实现了高达130TB/s的机架内数据传输速率,连接了总计37TB的高速内存,由此消除了内存和带宽瓶颈。
在大模型和长上下文场景下,推理吞吐量大幅提升,为AI智能体和多模态AI带来前所未有的响应速度和扩展性。
同时,Azure部署了采用当今最快网络 fabric——Quantum-X800 Gbp/s InfiniBand——的全连接胖树(fat-tree)无阻塞架构,能够跨机架扩展数万个GPU。
此外,Azure散热系统采用独立的「散热器单元」和「设施级冷却方案」。
在为GB300 NVL72这类高密度、高性能集群保持热稳定性的同时,最大限度地减少了水资源消耗。
软件层:全面优化
不仅如此,微软为存储、编排和调度重构的软件栈也经过全面优化,能够在超算规模上充分利用计算、网络、存储和数据中心基础设施,提供前所未有的高性能和高效率。
在OpenAI内部,正上演一场GPU激烈争夺战。
上周四,Greg在一期「Matthew Berman」播客节目中,自曝管理算力资源分配的过程,令人揪心且筋疲力尽。
这太难了,你总能看到各种绝妙的点子,然后又有人带着另一个绝妙的点子来找你,你心想,这个也太棒了。
在OpenAI内部,将算力资源主要分配给「研究」和「应用产品」两个方向。
为了应对算力分配的挑战,OpenAI建立了一套相对清晰的资源分配机制:
OpenAI复杂算力关系网络图
Greg提到,当一个项目接近尾声时,Kevin会重新分配硬件资源,以支持新启动的项目。
算力驱动着整个团队的生产力,此事干系重大。
大家对此都非常在意。人们对「我能否分到算力」这件事所投入的精力与情感强度远超想象。
一直以来,OpenAI多次公开表达其对算力永不满足的需求。
OpenAI首席产品官Kevin Weil曾表示,「我们每次拿到新的 GPU,它们都会被立刻投入使用」。
OpenAI对算力的需求逻辑很简单——
GPU的数量直接决定了AI应用的能力上限。获得的GPU越多,所有人就能使用越多的AI。
不仅OpenAI,整个行业科技巨头也在加码算力投入。小扎透露,Meta正将「人均算力」打造为核心竞争优势。
上个月,奥特曼称,OpenAI正在推出「算力密集型服务」。
当我们以当前模型的成本,将海量算力投入到有趣的新想法上时,能创造出怎样的可能性?
这场算力争夺战中,谁手握最多的算力,将决定谁在AI竞赛中脱颖而出。
https://x.com/satyanadella/status/1976322455288545343
https://x.com/Azure/status/1976319720472138045 https://azure.microsoft.com/en-us/blog/microsoft-azure-delivers-the-first-large-scale-cluster-with-nvidia-gb300-nvl72-for-openai-workloads/
https://www.businessinsider.com/openai-president-allocate-gpu-compute-internally-greg-brockman-2025-10
本文来自微信公众号“新智元”,作者:桃子 ,36氪经授权发布。
相关文章
在阅读此文之前,辛苦您点击一下“关注”,既方便您进行讨论和分享,又能给您带来不一样的参与感,感谢您的支持!编辑:LY她是“央视名嘴”,凭借《开心词典》...
2025-10-12 0
日本软银集团刚刚宣布,将以54亿美元(约390亿人民币)全盘收购瑞士ABB旗下的机器人业务。这笔巨额交易震动了科技界,在当前经济形势不明朗的时期,孙正...
2025-10-12 0
10月10日,据北京广播电视台消息,江西景德镇“一家三口被撞身亡案”受害人家属称,已收到法院通知,“审限期为10月20日”,希望“廖某某死刑,立即执行...
2025-10-12 0
央行的人总爱说,利率这东西是调控经济和物价的“钝器”,意思很明白,它不像手术刀那么精准,没法一刀下去就解决问题。但最近这些年,不少人都在琢磨一个事儿:...
2025-10-12 0
巴基斯坦刚给特朗普政府送去一船稀土浓缩物,还没等“拆礼物”,中国商务部突然宣布对稀土相关技术全面实施出口管制,不仅封住了矿石,还断了技术、设备和服务的...
2025-10-12 0
秋阳洒满归途,文旅热潮奔涌。齐鲁大地正以独特的“好客”姿态,书写着属于自己的亮眼答卷,为国庆文旅热浪增添了别样的精彩。惠民活动精准聚焦,撬动全链条消费...
2025-10-12 0
今年国庆遇上中秋,“双节”叠加的超长假期,为四川文旅市场注入强劲动力。经第三方大数据综合测算,8天假期,四川共接待游客4734.15万人次,实现旅游消...
2025-10-12 0
携程10月8日发布消息,国庆中秋长假期间,太原酒店订单量同比增长10%,高出全国均值4个百分点,客源主要来自北京、西安、上海、天津、石家庄等“高铁朋友...
2025-10-12 0
发表评论