運算與記憶的分工
若把處理器比作大腦,記憶體就是工作桌與書櫃。電腦的儲存階層(memory hierarchy)依「快但貴小」到「慢但便宜大」排列:SRAM 快取 → DRAM 主記憶體 → NAND 快閃儲存 → 硬碟。AI 時代的算力暴漲,使「記憶體牆(memory wall)」——資料搬運跟不上運算——成為系統瓶頸,HBM 正是為了打破這道牆而生。理解這三種記憶體的元件物理與架構取捨,是理解現代運算系統的另一半。
DRAM:1T1C 的精巧與脆弱
儲存原理
DRAM(Dynamic RAM)的儲存單元是極簡的 1T1C:一個存取電晶體加一個儲存電容。電容充飽電代表 1、放掉代表 0。整個陣列以字元線(word line)選列、位元線(bit line)讀寫,達到極高密度。
為什麼「Dynamic」:更新
電容會漏電,電荷在數十毫秒內就流失。因此 DRAM 必須週期性更新(refresh):典型每 64 ms(或先進品 32 ms)把每一列讀出再寫回。代價是:
- 更新功耗:閒置時仍持續耗電,是行動裝置待機功耗的來源之一。
- 更新佔用頻寬:更新期間該 bank 不能存取。
讀取本身是破壞性的——把電容電荷傾倒到 bit line 上,需 sense amplifier(感測放大器)辨識微小電壓差並回寫。
微縮困境
DRAM 微縮的瓶頸在電容:要維持足夠電荷(足夠的訊號雜訊比),電容值不能太小,於是電容被做成極高深寬比的深溝槽或柱狀堆疊(high aspect ratio)。先進 DRAM 已逼近製程極限,業界轉向 EUV 微影、4F² 單元、垂直通道電晶體乃至研究中的 3D DRAM。失效模式上,row hammer(反覆存取某列導致鄰列位元翻轉)是著名的可靠度與資安問題。
NAND Flash:非揮發與 3D 堆疊
浮閘儲存原理
NAND Flash 用浮閘(floating gate)或電荷捕捉層(charge trap)儲存電荷,斷電不丟失(非揮發)。寫入靠量子穿隧(Fowler-Nordheim tunneling)把電子注入浮閘,改變電晶體 $V_{\mathrm{th}}$;讀取則量測 $V_{\mathrm{th}}$ 落在哪個區間。
多階儲存與耐久度
每個單元可存多個 bit,靠細分 $V_{\mathrm{th}}$ 區間:
| 類型 | bits/cell | $V_{\mathrm{th}}$ 階數 | 耐久度(P/E cycles) | 用途 |
|---|---|---|---|---|
| SLC | 1 | 2 | ~100,000 | 工業/高可靠 |
| MLC | 2 | 4 | ~3,000 | 早期消費 |
| TLC | 3 | 8 | ~1,000 | 主流 SSD |
| QLC | 4 | 16 | ~數百 | 大容量低成本 |
存越多 bit,每 GB 成本越低,但耐久度與讀寫速度下降——這是 NAND 最核心的取捨。寫入會磨損穿隧氧化層,故有壽命上限(P/E cycles)。
3D NAND:往上堆
平面微縮到極限後,NAND 改走垂直堆疊:把記憶單元一層層往上疊,現已達 200+ 層(先進品邁向 300~400 層)。3D NAND 用垂直通道孔(channel hole)一次蝕穿數百層,是製程上極具挑戰的高深寬比蝕刻。堆得越高,單位面積容量越大,但蝕刻均勻度、層間應力、字元線電阻都成為挑戰。NAND 還需寫入前先抹除(erase before write)、以區塊為單位抹除,因此 SSD 需FTL(Flash Translation Layer)、wear leveling(磨損平均)與garbage collection 來管理。
HBM:用 3D 堆疊打破記憶體牆
為什麼需要 HBM
GPU/AI 加速器的瓶頸常不在算力而在餵資料的頻寬。傳統 DDR/GDDR 靠提高單腳速度與位元,但接腳數與功耗受限。HBM(High Bandwidth Memory)改變思路:把多顆 DRAM die 垂直堆疊,用極寬的介面換頻寬。
TSV 與堆疊架構
HBM 的關鍵是 TSV(Through-Silicon Via,矽穿孔):在 DRAM die 上鑽出垂直導通孔,把堆疊的 4/8/12 層 DRAM die 在垂直方向直接連通,底部一顆 base die 負責對外。整個 HBM stack 透過 2.5D 封裝(如 CoWoS)經矽中介層(interposer)與 GPU 並排相連。
- 超寬介面:HBM 每 stack 提供 1024-bit 介面(傳統 GDDR 僅 32-bit/chip),靠寬度而非高頻取勝。
- 頻寬:單顆 HBM3/HBM3E stack 可達 數百 GB/s 到 ~1 TB/s;一張 AI 加速卡配多顆 HBM,總頻寬達 數 TB/s。
- 能效:短距離、低擺幅的堆疊互連,每 bit 搬運能耗遠低於長距 PCB 走線。
$$\text{頻寬} = \text{介面位元寬} \times \text{等效資料率}$$
HBM3 範例(單 stack):$1024\ \text{bit} \times 6.4\ \text{Gbps/pin} \approx 819$ GB/s;八顆 stack 並聯 $\approx 6.5$ TB/s 級系統頻寬。
取捨
HBM 性能極佳,但成本高、製造難:TSV 良率、die 堆疊鍵合(hybrid bonding / micro-bump)、CoWoS 中介層產能都是瓶頸。這也是當前 AI 晶片供應的主要卡點之一——HBM 與先進封裝產能,往往比運算晶粒本身更稀缺。
三者比較與系統定位
| 維度 | DRAM | NAND Flash | HBM |
|---|---|---|---|
| 揮發性 | 揮發 | 非揮發 | 揮發 |
| 單元結構 | 1T1C | 浮閘/電荷捕捉 | 1T1C(3D 堆疊 die) |
| 角色 | 主記憶體 | 大容量儲存 | AI/HPC 高頻寬記憶體 |
| 微縮路線 | 電容微縮+EUV | 3D 層數堆疊 | TSV die 堆疊 |
| 關鍵瓶頸 | 電容微縮、refresh | 耐久度、HAR 蝕刻 | TSV 良率、封裝產能 |
| 主要取捨 | 密度 vs. 漏電 | 成本 vs. 壽命 | 頻寬 vs. 成本 |
前沿與展望
記憶體的前沿圍繞三條主線:HBM 持續堆高層數與引入 hybrid bonding(取代 micro-bump,縮短間距)、3D DRAM 把儲存單元也立體化、以及新興非揮發記憶體(MRAM、ReRAM、PCM)嘗試填補 DRAM 與 NAND 之間的速度/成本間隙,並朝存內運算(compute-in-memory)發展——直接在記憶體陣列內做乘加,從根本上繞過記憶體牆。在 AI 主導的算力競賽中,記憶體已從配角躍升為決定系統效能與供應鏈的主角之一。
延伸閱讀:〈先進封裝:Chiplet、CoWoS 與 2.5D/3D IC〉、〈CoWoS 與 3D IC 封裝〉、〈電晶體與 MOSFET:晶片的開關〉。