Meta宣布2026年部署数百万颗英伟达芯片，构建超级智能

2026年初，Meta Platforms宣布一项震撼业界的计划：将在未来数年内部署数百万颗英伟达AI芯片，涵盖Blackwell架构及下一代Vera Rubin平台。这不仅是科技巨头对算力的空前押注，更揭示了一个清晰战略——构建支撑“个人超级智能”的基础设施。消息一出，英伟达股价盘后上涨超1%，而竞争对手AMD应声下跌3%。市场用脚投票，显示出对这场深度绑定的看好。

这场合作远非简单的采购关系。Meta已是英伟达芯片的第二大客户，此次则将合作推向新高度：首次大规模采用纯英伟达Grace CPU平台，并全面整合其从GPU、CPU到互连、网络的全栈技术。这意味着Meta正逐步将自身AI基础设施“英伟达化”，打造一个高度协同、软硬一体的计算体系。

为何是现在？答案藏在AI进化的底层逻辑中。当前大模型已从“感知智能”迈入“认知智能”阶段，DeepSeek-R1等具备复杂推理能力的模型成为主流。这类模型不仅参数庞大，更依赖长上下文、多步骤逻辑和稀疏激活的MoE架构。传统计算架构难以高效支撑，GPU与CPU之间的数据搬运成为瓶颈。Meta需要的不再是零散算力，而是一套能持续支撑智能跃迁的“超级引擎”。

英伟达Blackwell架构正是为此而生。其核心创新之一是第二代Transformer引擎，首次在硬件层面支持FP4精度运算，使计算密度提升4倍。更重要的是，它能硬件加速MoE模型的专家路由，将延迟从12微秒压缩至3微秒。实测显示，在处理128k上下文推理任务时，Blackwell单卡吞吐量比前代H100提升超3倍，能效比提高2.4倍。这对Meta意义重大——意味着其AI助手、推荐系统等关键服务可实现毫秒级响应。

另一个关键突破是NVLink 5.0。单颗GPU通过18条链路实现1800GB/s的互联带宽，是PCIe 5.0的14倍。在此基础上构建的DGX GB200 NVL72系统，可将72块B200 GPU全互联，单机架带宽超1PB/s，内存总量达240TB。Meta利用这一架构，已将复杂模型训练周期从72小时缩短至8小时，效率提升90%。这种规模效应，正是支撑数十亿用户级AI服务的基础。

但Meta的目光不止于当下。其合作范围明确包含尚未发布的Vera Rubin架构。这一平台并非单一芯片，而是由六款协同设计的芯片组成的“AI超级计算机”。其中，新一代Rubin GPU算力预计达50 PFLOPS，较Blackwell提升5倍；HBM4内存带宽高达22TB/s，几乎消除内存墙。更关键的是，平台引入专为AI推理设计的Vera CPU，通过NVLink-C2C实现最高3.6TB/s的互联带宽，使CPU可作为GPU的“显存扩展池”，协同处理长上下文任务。

这解释了Meta为何首次大规模部署纯Grace CPU平台。传统服务器中，CPU只是GPU的“供料员”，受限于PCIe带宽，常导致GPU“饥饿”。而Grace CPU通过NVLink与GPU深度集成，共享统一内存空间，带宽高达900GB/s，是PCIe的30倍。它不再被动调度，而是作为“智能中枢”，直接参与上下文管理、数据预处理等任务。这种架构下，GPU利用率显著提升，系统整体能效比优化10倍以上。

对用户而言，这场算力革命的最终落点是“个人超级智能”——扎克伯格设想中，每个人都能拥有一个理解其习惯、能自主完成复杂任务的AI伙伴。这需要模型具备持续学习、跨应用协同和高度个性化能力，背后是指数级增长的算力需求。Meta的部署，正是为这一愿景铺路。未来，用户与AI的每一次交互，都可能调用数颗Blackwell或Rubin芯片的协同计算。

展望未来，这场合作或将重塑AI基础设施格局。英伟达正从GPU供应商转型为全栈系统提供商，而Meta则通过深度绑定，锁定最前沿算力资源。随着Vera Rubin平台在2026年逐步落地，推理token成本有望降至当前的十分之一，推动AI服务进一步普及。但挑战亦存：如此庞大的芯片需求可能加剧全球供应链压力，而高度集中的技术依赖，也引发外界对生态多样性的担忧。