當單晶片越做越大、越做越貴
過去數十年,把更多功能塞進一顆單體晶片(monolithic SoC)一直是進步的主軸。但隨製程演進,兩道現實牆同時逼近:
- 光罩尺寸極限(reticle limit):單次曝光最大約 26 mm × 33 mm(約 858 mm²)。高階 AI/HPC 晶片已逼近此上限,無法再靠加大面積擴充。
- 良率與成本:晶片良率近似 $Y \approx (1 + A \cdot D/\alpha)^{-\alpha}$(負二項模型),晶片面積 $A$ 越大,缺陷(密度 $D$)落在其上的機率越高,良率指數式崩跌。在先進節點,一顆 800 mm² 的大晶片良率可能慘不忍睹,每片好晶片成本飆升。
Chiplet(小晶片)+ 異質整合正是對這兩道牆的回應:與其把所有功能擠進一顆大晶片,不如把系統拆成多顆小晶粒(die)分別製造,再像積木一樣拼裝在同一封裝內。
拆分的三大紅利
良率紅利
把 800 mm² 拆成數顆 100~200 mm² 的小晶粒,每顆良率大幅回升,且壞的單顆可丟棄而非報廢整顆系統,Known-Good-Die(KGD)篩選讓最終良率倍增。
製程異質紅利
不是所有電路都需要最先進、最貴的節點:
| 功能區塊 | 最適製程 | 理由 |
|---|---|---|
| 運算核心(CPU/GPU) | 最先進(3/2 nm) | 密度與功耗效率最關鍵 |
| SRAM 快取 | 微縮趨緩,可分離 | SRAM 在先進節點面積微縮放慢 |
| I/O、類比、PHY | 成熟節點(7~28 nm) | 類比不受惠於微縮,成熟節點更便宜可靠 |
| 記憶體(HBM) | DRAM 專屬製程 | 與邏輯製程本質不同 |
把各區塊用各自最划算的製程製造,避免為了 I/O 也付先進節點的天價,整體成本與效能達到最佳。
設計重用與上市速度
同一顆運算 chiplet 可像樂高般組成不同 SKU(4 顆、8 顆拼大晶片),縮短設計週期、攤平 NRE。AMD 以 CCD(運算)+ IOD(I/O)的 chiplet 架構在伺服器市場取得規模優勢,是商業上最具代表性的案例。
互連:把拆開的晶粒重新黏回去
拆分的代價是晶粒間通訊。原本在單晶片內的全域走線,現在要跨越晶粒邊界,這要求極高頻寬、極低延遲、極低能耗的 die-to-die(D2D)互連。關鍵能效指標是 pJ/bit(每傳一位元耗能)——晶片內走線約 0.01~0.1 pJ/bit,傳統封裝 I/O 高達數 pJ/bit,先進 D2D 介面要把它壓回 < 1 pJ/bit 才划算。
UCIe:開放的 D2D 標準
UCIe(Universal Chiplet Interconnect Express)是業界共推的開放標準,目標讓不同廠商的 chiplet 能互通,建立「chiplet 生態系」。它分標準封裝(standard package,走有機基板)與先進封裝(advanced package,走矽中介層/RDL)兩種等級:
能效目標:先進封裝 < 0.5 pJ/bit、標準封裝 ~ 0.5~1 pJ/bit
頻寬密度:先進封裝可達 > 1 TB/s/mm(線性邊緣頻寬密度)
延遲目標:D2D 來回延遲 < 數 ns
UCIe 堆疊分實體層(bump、電氣)、D2D 配接層、協定層(映射 PCIe/CXL),讓既有協定能直接跑在 chiplet 之間。bump pitch 是頻寬密度的物理槓桿:標準封裝約 100~130 µm,先進封裝可降至 25~55 µm,混合鍵合更下探 < 10 µm,pitch 越小、單位面積可佈的連線越多、頻寬密度越高。
整合方案的層次
| 方案 | 互連媒介 | bump/pitch | 頻寬密度 | 成本 |
|---|---|---|---|---|
| 傳統 MCM | 有機基板 | ~130 µm | 低 | 低 |
| 矽橋(如 EMIB) | 局部嵌入矽橋 | ~45 µm | 高 | 中 |
| 矽中介層(CoWoS-S) | 全幅矽中介層 + TSV | ~40 µm | 很高 | 高 |
| 3D 堆疊(混合鍵合) | Cu-Cu 直接鍵合 | < 10 µm | 極高 | 最高 |
越往下,頻寬密度與能效越好,但製程難度、熱密度與成本同步攀升——這是 chiplet 架構的核心取捨。
異質整合的系統意義
AI 加速器的典型 chiplet 配置:數顆先進製程運算晶粒 + 多顆 HBM 記憶體堆疊,透過矽中介層連接,總頻寬達數 TB/s。記憶體與運算的物理靠近(記憶體牆的硬體解法)正是 AI 晶片效能的命脈。異質整合更可把光學引擎(共封裝光學 CPO)、感測器、不同材料系統(GaN、SiGe)整進同一封裝。
失效模式與設計挑戰
- 熱串擾與熱點:多顆高功率晶粒擠在一起,散熱路徑複雜,3D 堆疊時下層晶粒散熱尤其困難。
- 翹曲與熱機械應力:不同材料 CTE 不匹配,迴焊與熱循環造成翹曲、bump 裂、白凸(white bump)。
- KGD 測試:晶粒在拼裝前需確認良好,但裸晶測試覆蓋率與成本是難題;拼裝後若一顆壞,整個模組報廢。
- 跨晶粒時序與電源完整性:D2D 訊號完整性、供電網路、去耦設計更複雜。
- 標準與生態:UCIe 雖開放,但跨廠 chiplet 的封裝相容、測試、責任歸屬仍在成熟中。
前沿現況
Chiplet 已從「大廠專利架構」走向「開放生態」,UCIe 推動跨公司 chiplet 採購想像;先進封裝(CoWoS、SoIC、EMIB、FOPLP)產能成為 AI 晶片的真正瓶頸。隨混合鍵合 pitch 持續下探,chiplet 與 3D IC 的界線日益模糊——晶片設計正從「平面微縮」轉向「立體系統整合」。
延伸閱讀:〈CoWoS 與 3D IC 封裝〉、〈先進封裝:Chiplet、CoWoS 與 2.5D/3D IC〉、〈記憶體入門:DRAM、NAND 與 HBM〉。