近日,一家名为Sophon的芯片设计初创公司正式发布了其首款AI加速芯片PFG-1,引发业界震动。该芯片采用独特的“单片式3D集成”(monolithic-3D)工艺,将高达330GB的DRAM直接集成在芯片晶圆上,完全摒弃了传统AI芯片依赖的高带宽内存(HBM)。这一创新设计被视为对当前AI芯片内存架构的一次颠覆性挑战。
打破HBM依赖:为何“去HBM”是革命性选择?
在人工智能计算领域,特别是大规模深度学习模型的推理与训练场景中,内存带宽与容量始终是性能提升的核心瓶颈。传统方案通常将计算芯粒(die)与HBM堆叠内存通过先进封装(如CoWoS、SiO₂中介层)连接。然而,HBM本身存在三大痛点:一是成本高昂,良率与产量受限;二是功耗占比极高,HBM及其接口通常占据整颗AI芯片功耗的30%~40%;三是物理间距限制,即便采用2.5D/3D异质封装,片间互联仍会引入额外延迟和信号损耗。
Sophon PFG-1直接绕开了这些难题。通过monolithic-3D技术,该公司将计算逻辑层与多层DRAM存储单元在单一晶圆上垂直堆叠,形成真正的“片上大容量内存”。330GB的容量意味着可以轻松容纳当前最大的LLM(大语言模型)权重和KV缓存,无需频繁访问外部DRAM,大幅降低了数据搬运开销。
技术解密:单片式3D如何实现330GB片上DRAM?
据Sophon官方技术白皮书,PFG-1的monolithic-3D工艺并非简单的异质集成,而是将DRAM单元直接制造在逻辑电路上方,通过晶圆键合与硅通孔(TSV)实现层间互连。每层DRAM厚度控制在微米级别,最终芯片总厚度仅为传统HBM堆叠方案的1/5。330GB的容量是通过多达12层DRAM堆叠实现的,每层容量约27.5GB,单bit密度远超独立DRAM芯片。
值得一提的是,由于所有DRAM位于同一晶圆内部,SoC与内存间的数据传输无需经过复杂的PCB走线或硅中介层。官方宣称,PFG-1的片上内存带宽可达6 TB/s,而功耗仅为同等带宽HBM方案的60%。更重要的是,芯片内部信号延迟缩短至纳秒级,彻底消除了“内存墙”对AI计算效率的制约。
性能与场景:瞄准推理与云原生AI
Sophon PFG-1定位于高性能AI推理与中等规模训练市场。芯片搭载了256个专为Transformer架构优化的AI核,支持FP8、INT8等低精度计算。在典型AI推理基准测试中(如GPT-3 175B参数模型),PFG-1的吞吐量达到同等级HBM配置芯片的1.8倍,而单卡功耗仅为350W(含全部片上DRAM),能效比提升显著。
消除HBM后,芯片的物理尺寸也得到优化。PFG-1的封装面积比采用6颗HBM2e的竞品缩小了40%,使得服务器中可以部署更多加速卡。同时,由于外部高带宽接口的消失,系统级可靠性得到提升——HBM接口的焊接、散热问题一直是数据中心运维的难点。
产业影响与新方向
Sophon PFG-1的发布立即引发了对AI芯片内存架构的重新思考。长期以来,业界普遍认为HBM是AI芯片的“标配”,而monolithic-3D方案因工艺难度曾被视作不切实际。如今,Sophon以330GB的片上容量证明了该技术的可行性,这可能促使更多公司探索“去HBM”路径。
当然,PFG-1并非没有挑战。单片式3D工艺的良率尚处于爬坡阶段,成本在初期可能高于HBM方案。此外,330GB的片上DRAM对于未来千亿甚至万亿参数模型仍显不足,但其大规模片上内存特性对于内存受限的推理场景(如移动端、边缘计算)具有深远的启发意义。
Sophon表示,PFG-1预计在2025年第四季度开始向部分云服务商送样,并计划在2026年推出容量更大、工艺更成熟的第二代产品。AI芯片的“内存统一化”时代,或许正由此拉开序幕。