CPU 與指令執行

從提取-解碼-執行週期到指令管線，拆解處理器如何一條條吞下指令並榨出效能

大學基礎 · 約 13 分鐘 ·#CPU#指令週期#管線#組合語言#計算機組織

從按下播放鍵到聲音響起，那短短一瞬發生了什麼？

當你在手機上輕觸一首歌的播放按鈕，到喇叭真正發出聲音之間，看似毫無延遲。但在那不到百分之一秒裡，處理器(CPU)已經完成了數十億次微小的動作：取出一條指令、看懂它要做什麼、執行它、再取下一條。這個不斷重複、永不停歇的循環，是所有數位裝置運作的根本。理解 CPU 如何一條一條地吞下指令並執行，等於拿到了理解整台電腦的鑰匙。

這篇文章會帶你拆解這個循環的每個零件，看看一條指令從記憶體到完成計算的完整旅程，並進一步討論現代處理器如何用「管線(pipeline)」這個巧妙的設計榨出更高的效能。

CPU 的內部地圖

電腦硬體與組織概念示意圖

中央處理器(CPU, Central Processing Unit)可以想成一座高度分工的工廠。雖然不同架構細節差異很大，但幾個核心元件是共通的：

算術邏輯單元(ALU, Arithmetic Logic Unit)：負責所有實際的計算與邏輯判斷，例如加減、比較大小、AND/OR/NOT 等位元運算。它是工廠裡真正「動手做事」的車間。
控制單元(CU, Control Unit)：負責「指揮」。它解讀指令的意義，然後發送控制訊號，告訴其他元件該做什麼、資料該往哪裡流。控制單元不做計算，但決定了計算的順序與對象。
暫存器(register)：CPU 內部極少量、但速度極快的儲存格。它們直接焊在處理器核心旁，存取只需要一個時脈週期。常見的有累加器、程式計數器(PC, Program Counter，記錄下一條指令的位址)、指令暫存器(IR, Instruction Register，存放當前正在執行的指令)等。
時脈(clock)：一個以固定頻率振盪的訊號源，像工廠裡的節拍器。每一次「滴答」推動 CPU 往前走一小步。時脈頻率以赫茲(Hz)為單位，現代桌上型 CPU 約在 3 至 5 GHz，也就是每秒振盪三十億到五十億次。

這些元件透過內部的匯流排(bus)連接，資料與控制訊號在其上來回穿梭。記憶體(memory)位於 CPU 之外，存放著程式的指令與資料；CPU 必須不斷地與記憶體溝通，把需要的東西搬進來。

提取-解碼-執行週期

CPU 的工作可以濃縮成一個不斷重複的循環，稱為提取-解碼-執行週期(fetch-decode-execute cycle)，也叫指令週期(instruction cycle)：

提取(Fetch)：控制單元依照程式計數器(PC)所指的位址，從記憶體取出一條指令，放進指令暫存器(IR)。接著 PC 自動加一（或加上指令長度），指向下一條指令。
解碼(Decode)：控制單元解讀指令暫存器裡的二進位內容，判斷這是哪一種操作（加法？跳躍？載入資料？），以及它要操作哪些暫存器或記憶體位址。
執行(Execute)：控制單元發出對應的控制訊號。如果是計算，ALU 動作；如果是搬資料，就在暫存器與記憶體間移動；如果是跳躍，就改寫 PC 的值。

執行完一條，CPU 立刻回到步驟一，提取下一條，週而復始。你電腦上跑的每一個程式，從作業系統到瀏覽器，最終都化約成這樣一條接一條的微小步驟。

動手看一個例子

假設我們要計算 3 + 5 並把結果存到記憶體。在組合語言(assembly language)層次，這可能長得像下面這樣（這是一種簡化的虛擬指令集，僅供示意）：

LOAD  R1, 3      ; 把常數 3 載入暫存器 R1
LOAD  R2, 5      ; 把常數 5 載入暫存器 R2
ADD   R3, R1, R2 ; R3 ← R1 + R2
STORE R3, [100]  ; 把 R3 的值存到記憶體位址 100

讓我們逐步追蹤第三條指令 ADD R3, R1, R2 走過週期：

階段	發生的事
提取	PC 指向 `ADD` 指令的位址，控制單元把這條指令從記憶體取進 IR，PC 加一
解碼	控制單元辨認出操作碼是「加法」，來源是 R1、R2，目的地是 R3
執行	R1 的值(3)與 R2 的值(5)送進 ALU，ALU 算出 8，結果寫回 R3

而在硬體底層，這條組合語言指令會被組譯器(assembler)翻成一串二進位的機器語言(machine language)，例如：

組合語言： ADD R3, R1, R2
機器語言： 0001 011 001 010   （操作碼 | 目的 | 來源1 | 來源2）

機器語言是 CPU 唯一真正「看得懂」的東西。組合語言只是給人閱讀的助記符號(mnemonic)，每一行幾乎一對一對應到一條機器指令。再往上，C、Python 等高階語言則需要經過編譯器(compiler)或直譯器(interpreter)，最終才落到這層機器碼。

時脈、機器語言與抽象層次

值得停下來體會的是「抽象層次(abstraction level)」這件事。你寫一行 result = 3 + 5，背後其實是一整疊翻譯：高階語言 → 組合語言 → 機器語言 → 數位電路上電壓的高低變化。每一層都隱藏了下一層的複雜度，讓我們得以站在巨人的肩膀上思考問題，而不必每次都從電晶體開始。

時脈則決定了這一切的節奏。一個時脈週期(clock cycle)是 CPU 能夠完成的最小時間單位。早期的處理器，一條簡單指令可能要好幾個時脈週期才能跑完。直覺上，提高時脈頻率（更快的節拍器）就能讓電腦更快——這在某個年代確實是 CPU 廠商主打的賣點。但頻率不是萬靈丹，原因我們留到下一節揭曉。

用管線榨出效能：pipelining

回頭看提取-解碼-執行週期，你會發現一個浪費：當 ALU 正在「執行」一條指令時，負責「提取」的電路其實閒著沒事做。這就像一條只用一個工人的生產線，他從頭到尾顧完一件產品，才回頭做下一件，其他工作站都空轉。

指令管線(instruction pipelining) 的核心想法是：把指令週期切成幾個階段，讓不同指令同時佔用不同階段。一個經典的五階段管線是：

       時脈週期 →
        1    2    3    4    5    6    7
指令1   IF   ID   EX   MEM  WB
指令2        IF   ID   EX   MEM  WB
指令3             IF   ID   EX   MEM  WB
指令4                  IF   ID   EX   MEM  WB
指令5                       IF   ID   EX   MEM  WB

（IF=取指、ID=解碼、EX=執行、MEM=記憶體存取、WB=寫回暫存器）

在第 5 個時脈週期，五條指令分別處於五個不同階段，所有工作站都在忙。理想情況下，管線填滿後，每個時脈週期就能完成一條指令，吞吐量(throughput)提升到接近五倍——即使每一條指令本身走完全程的時間（延遲, latency）並沒有變短。

動手看一個例子

假設一條指令完整跑完需要 5 個單位時間。比較兩種做法執行 100 條指令：

無管線：每條指令依序跑完，總時間 $= 100 \times 5 = 500$ 個單位時間。
理想五階段管線：第一條指令在第 5 個週期完成，之後每個週期完成一條，總時間 $= 5 + (100 - 1) = 104$ 個單位時間。

加速比約為 $500 / 104 \approx 4.8$ 倍，接近階段數 5 的理論上限。一般而言，管線階段數為 $k$、指令數為 $n$ 時，理想加速比為：

$$\text{Speedup} = \frac{n \cdot k}{n + (k - 1)} \xrightarrow{n \to \infty} k$$

當指令數 $n$ 很大時，加速比趨近於階段數 $k$。但「理想」二字是關鍵——現實中總有狀況讓管線無法保持滿載。

重點回顧

CPU 由 ALU（計算）、控制單元（指揮）、暫存器（極快的內部儲存）與時脈（節奏）等核心元件組成，透過內部匯流排協同運作。
所有程式執行最終都化約成提取-解碼-執行週期：依 PC 取出指令、解讀其意義、執行對應動作，週而復始。
從高階語言到組合語言再到機器語言是層層抽象的翻譯；機器語言（二進位）是 CPU 唯一直接執行的形式，組合語言是其人類可讀的助記符號。
時脈頻率(GHz) 決定每秒能走多少步，但單靠拉高頻率有其物理與功耗極限，不是提升效能的唯一手段。
指令管線讓多條指令同階段並行，理想下每週期完成一條指令，大幅提升吞吐量；理論加速比趨近於管線階段數。

深入探討（研究所視角）

提取-解碼-執行週期與管線看似簡單，但真正的工程難題藏在「時脈頻率與 IPC 的權衡」裡，這也是現代處理器設計的核心張力所在。

衡量 CPU 效能的根本公式並非單看時脈，而是：

$$\text{執行時間} = \frac{\text{指令數} \times \text{CPI}}{\text{時脈頻率}} = \text{指令數} \times \text{CPI} \times \text{時脈週期}$$

其中 CPI(Cycles Per Instruction) 是每條指令平均花費的週期數，其倒數 IPC(Instructions Per Cycle) 則是每週期完成的指令數。提升效能有三條路：減少指令數、降低 CPI（提高 IPC）、或提高時脈頻率。問題在於，這三者彼此牽制。

深管線(deep pipeline)與頻率的權衡。 把管線切得更細（更多階段），每個階段的工作量更少，邏輯延遲更短，理論上就能拉高時脈頻率——這正是 2000 年代初 Intel NetBurst 架構(Pentium 4)把管線做到 20 至 31 階段、追逐高 GHz 數字的思路。但深管線有沉重的代價：

管線危障(pipeline hazards) 變得更昂貴。控制危障(control hazard) 源於分支指令：在解碼出「要不要跳躍」之前，CPU 不知道接下來該取哪條指令。若猜錯（分支預測, branch prediction 失敗），整條已經填入管線的錯誤指令都要清空(flush)，管線越深，清空的懲罰(penalty)週期越多。資料危障(data hazard) 源於指令間的相依：後一條指令需要前一條的結果，但前者還沒寫回。結構危障(structural hazard) 則是硬體資源衝突。
這些危障使實際 IPC 低於理想值。深管線雖然頻率高，但每次預測失敗的損失放大，平均 CPI 上升，最終淨效能未必更好。NetBurst 的高頻策略最終因功耗（頻率與動態功耗近似 $P \propto f \cdot V^2$，且高頻需更高電壓）與散熱牆而退場，業界轉向較淺管線、較高 IPC、再以多核(multicore)擴展平行度的路線。

緩解危障的技術。 為了在不犧牲頻率的前提下逼近理想 IPC，處理器引入了多層機制：轉發/旁路(forwarding/bypassing) 讓 ALU 的結果不必等寫回，直接餵給下一條指令，化解多數資料危障；分支預測用歷史紀錄猜測跳躍方向，搭配推測執行(speculative execution) 先沿猜測路徑往下跑；亂序執行(out-of-order execution) 讓沒有相依的後續指令先執行，填補因相依而產生的氣泡(bubble)；超純量(superscalar) 架構則在單一週期內提取並發射多條指令，使 IPC 有機會超過 1。

安全的陰影。 值得學習者警惕的是，推測執行這類效能優化在 2018 年被揭露可能成為資安漏洞——Spectre 與 Meltdown 攻擊利用「推測執行雖然事後被取消，卻在快取(cache)留下可觀測痕跡」的特性，旁敲側擊地洩漏記憶體內容。這提醒我們：效能與安全常存在張力，而硬體層的優化也必須納入威脅模型考量。理解這類議題的目的在於建立正確的防禦觀念與設計安全的系統，相關研究應在合法、受控的環境下進行。

與其他主題的連結。 管線與危障的概念向上連結到編譯器最佳化（指令排程, instruction scheduling 會重排指令以減少危障）、向下連結到記憶體階層（快取失誤造成的停頓往往是比管線危障更大的效能殺手），並延伸到平行計算（從指令級平行 ILP 到執行緒級、資料級平行）。當你之後學習 GPU、SIMD 或分散式系統時，會發現「如何讓更多單元同時忙碌、同時又維持正確性」這個在管線裡第一次遇到的命題，會以不同形式反覆出現。這正是計算機組織最迷人之處：一個簡單的循環，撐起了整個數位世界的效能版圖。

CPU 與指令執行（進階）：亂序、重新命名與 Tomasulo

--

4

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定

CPU 與指令執行

從按下播放鍵到聲音響起，那短短一瞬發生了什麼？

CPU 的內部地圖

提取-解碼-執行週期

動手看一個例子

時脈、機器語言與抽象層次

用管線榨出效能：pipelining

動手看一個例子

重點回顧

深入探討（研究所視角）

uedu.tw

uedu.tw/fit