Sophon PFG-1: a monolithic-3D AI ASIC with 330 GB of on-die DRAM and no HBM

近日，一家名为Sophon的芯片设计初创公司正式发布了其首款AI加速芯片PFG-1，引发业界震动。该芯片采用独特的“单片式3D集成”（monolithic-3D）工艺，将高达330GB的DRAM直接集成在芯片晶圆上，完全摒弃了传统AI芯片依赖的高带宽内存（HBM）。这一创新设计被视为对当前AI芯片内存架构的一次颠覆性挑战。

打破HBM依赖：为何“去HBM”是革命性选择？

在人工智能计算领域，特别是大规模深度学习模型的推理与训练场景中，内存带宽与容量始终是性能提升的核心瓶颈。传统方案通常将计算芯粒（die）与HBM堆叠内存通过先进封装（如CoWoS、SiO₂中介层）连接。然而，HBM本身存在三大痛点：一是成本高昂，良率与产量受限；二是功耗占比极高，HBM及其接口通常占据整颗AI芯片功耗的30%~40%；三是物理间距限制，即便采用2.5D/3D异质封装，片间互联仍会引入额外延迟和信号损耗。

Sophon PFG-1直接绕开了这些难题。通过monolithic-3D技术，该公司将计算逻辑层与多层DRAM存储单元在单一晶圆上垂直堆叠，形成真正的“片上大容量内存”。330GB的容量意味着可以轻松容纳当前最大的LLM（大语言模型）权重和KV缓存，无需频繁访问外部DRAM，大幅降低了数据搬运开销。

技术解密：单片式3D如何实现330GB片上DRAM？

据Sophon官方技术白皮书，PFG-1的monolithic-3D工艺并非简单的异质集成，而是将DRAM单元直接制造在逻辑电路上方，通过晶圆键合与硅通孔（TSV）实现层间互连。每层DRAM厚度控制在微米级别，最终芯片总厚度仅为传统HBM堆叠方案的1/5。330GB的容量是通过多达12层DRAM堆叠实现的，每层容量约27.5GB，单bit密度远超独立DRAM芯片。

值得一提的是，由于所有DRAM位于同一晶圆内部，SoC与内存间的数据传输无需经过复杂的PCB走线或硅中介层。官方宣称，PFG-1的片上内存带宽可达6 TB/s，而功耗仅为同等带宽HBM方案的60%。更重要的是，芯片内部信号延迟缩短至纳秒级，彻底消除了“内存墙”对AI计算效率的制约。

性能与场景：瞄准推理与云原生AI

Sophon PFG-1定位于高性能AI推理与中等规模训练市场。芯片搭载了256个专为Transformer架构优化的AI核，支持FP8、INT8等低精度计算。在典型AI推理基准测试中（如GPT-3 175B参数模型），PFG-1的吞吐量达到同等级HBM配置芯片的1.8倍，而单卡功耗仅为350W（含全部片上DRAM），能效比提升显著。

消除HBM后，芯片的物理尺寸也得到优化。PFG-1的封装面积比采用6颗HBM2e的竞品缩小了40%，使得服务器中可以部署更多加速卡。同时，由于外部高带宽接口的消失，系统级可靠性得到提升——HBM接口的焊接、散热问题一直是数据中心运维的难点。

产业影响与新方向

Sophon PFG-1的发布立即引发了对AI芯片内存架构的重新思考。长期以来，业界普遍认为HBM是AI芯片的“标配”，而monolithic-3D方案因工艺难度曾被视作不切实际。如今，Sophon以330GB的片上容量证明了该技术的可行性，这可能促使更多公司探索“去HBM”路径。

当然，PFG-1并非没有挑战。单片式3D工艺的良率尚处于爬坡阶段，成本在初期可能高于HBM方案。此外，330GB的片上DRAM对于未来千亿甚至万亿参数模型仍显不足，但其大规模片上内存特性对于内存受限的推理场景（如移动端、边缘计算）具有深远的启发意义。

Sophon表示，PFG-1预计在2025年第四季度开始向部分云服务商送样，并计划在2026年推出容量更大、工艺更成熟的第二代产品。AI芯片的“内存统一化”时代，或许正由此拉开序幕。

打破HBM依赖：为何“去HBM”是革命性选择？

技术解密：单片式3D如何实现330GB片上DRAM？

性能与场景：瞄准推理与云原生AI

产业影响与新方向

相关阅读