NVIDIA要用上X3D堆疊設計!下代Feynman GPU將引入LPU
時間:2026-01-04 12:37:03 出處:探索閱讀(143)
12月29日消息,用上雖然NVIDIA目前在AI訓練領域無可匹敵,堆疊但面對日益增長的設計即時推理需求,其正籌劃一項足以改變行業格局的下代“秘密武器”。
據AGF透露,將引NVIDIA計劃在2028年推出的用上Feynman(費曼)架構GPU中,整合來自Groq公司的堆疊LPU(語言處理單元),以大幅提升AI推理性能。設計
Feynman架構將接替Rubin架構,下代采用臺積電最先進的將引A16(1.6nm)制程,為了突破半導體物理限制,用上NVIDIA計劃利用臺積電的堆疊SoIC混合鍵合技術,將專為推理加速設計的設計LPU單元直接堆疊在GPU之上。
這種設計類似于AMD的下代3D V-Cache技術,但NVIDIA堆疊的將引不是普通緩存,而是專為推理加速設計的LPU單元。
設計的核心邏輯在于解決SRAM的微縮困境,在1.6nm這種極致工藝下,直接在主芯片集成大量SRAM成本極高且占用空間。
通過堆疊技術,NVIDIA可以將運算核心留在主芯片,而將需要大量面積的SRAM獨立成另一層芯片堆疊上去。
臺積電的A16制程一大特色是支持背面供電技術,這項技術可以騰出芯片正面的空間,專供垂直信號連接,確保堆疊的LPU能以極低功耗進行高速數據交換。
結合LPU的“確定性”執行邏輯,未來的NVIDIA GPU在處理即時AI響應(如語音對話、實時翻譯)時,速度將實現質的飛躍。
不過這也存在兩大潛在挑戰,分別是散熱問題和CUDA兼容性難題,在運算密度極高的GPU 再加蓋一層芯片,如何避免“熱當機”是工程團隊的頭號難題。
同時LPU強調“確定性”執行順序,需要精確的內存配置,而CUDA生態則是基于硬件抽象化設計的,要讓這兩者完美協同,需要頂級的軟件優化。