數位倫理與社會

從一鍵「同意」到演算法問責：當程式碼開始治理世界，公平與尊嚴如何被守護

大學基礎 · 約 16 分鐘 ·#數位倫理#演算法偏誤#隱私保護#AI倫理#資料治理#可解釋性

當你按下「同意」的那一刻

你打開一款新的天氣 App，畫面跳出一段密密麻麻的條款，最下面有個藍色按鈕寫著「我同意」。你大概沒讀，就按了下去。從這一刻起，這個 App 可能開始記錄你的位置、讀取你的聯絡人、追蹤你停留在哪些頁面、甚至把這些資料賣給第三方廣告商。你以為自己只是想知道明天會不會下雨，但你其實簽下了一份你從未真正閱讀的契約。

數位倫理(digital ethics)研究的，正是這樣的時刻：當技術愈來愈強大、無所不在，我們該如何界定「可以做」與「應該做」之間的界線？這不是一門教你寫程式的課，而是一門教你在寫程式之前先停下來思考的課。一個工程師寫出的演算法，可能影響數百萬人是否拿到貸款、是否被警方盯上、能否看到某則新聞。技術本身沒有立場，但設計技術的人有，使用技術的方式更有。

本文將帶你走過數位倫理的六個核心議題：隱私與資料保護、演算法偏誤、數位落差、智慧財產與開源、AI 倫理，以及假訊息。它們看似分散，卻環環相扣，共同指向一個問題——在一個由程式碼治理的世界裡，人的尊嚴與公平如何被保障。

資訊安全與計算理論概念示意圖

隱私與資料保護：你的資料是誰的？

隱私(privacy)在數位時代有了全新的含義。過去，隱私是「別人看不到我家窗戶裡發生什麼事」；現在，隱私是「我的行為軌跡、消費紀錄、健康數據、人際關係，會被誰收集、如何使用、保存多久」。

關鍵概念是個人資料(personal data)：任何能直接或間接識別出特定個人的資訊。你的姓名、身分證字號是直接識別；但你的瀏覽紀錄、IP 位址、購物偏好，透過交叉比對也能間接鎖定你是誰。研究顯示，光是「郵遞區號、出生日期、性別」三項，就足以唯一識別出美國約 87% 的人口——這說明所謂「去識別化(de-identification)」的資料，往往沒有想像中安全。

為了保護個人資料，許多地區建立了法律框架。歐盟的《一般資料保護規則》(GDPR, General Data Protection Regulation)是其中最具影響力的，它確立了幾項重要原則：

目的限制(purpose limitation)：收集資料時要說明用途，不能拿去做別的事。
資料最小化(data minimization)：只收集達成目的所必需的最少資料。
被遺忘權(right to be forgotten)：在特定條件下，使用者有權要求刪除自己的資料。
同意必須是明確、自由給予的：那種預先勾選好的同意框，或是「不同意就不能用」的綁架式設計，都不符合精神。

台灣則有《個人資料保護法》。這些法律共同傳達一個立場：資料的主體是人，不是收集資料的公司。你才是你資料的主人。

演算法偏誤：程式碼也會歧視

許多人以為「電腦是客觀的」，演算法只是冷冰冰地計算，不會有偏見。這是一個危險的迷思。

演算法偏誤(algorithmic bias)指的是：自動化系統做出的決策，對特定群體產生系統性的不公平。它的根源通常不在程式碼本身，而在訓練資料。機器學習模型從歷史資料中學習規律，如果歷史本身充滿歧視，模型就會忠實地把歧視學起來，甚至放大。

舉幾個真實案例：

某大型科技公司曾開發 AI 履歷篩選系統，結果系統自動降低含有「女性」字眼（如「女子西洋棋社社長」）履歷的分數——因為過去十年該公司錄取的工程師大多是男性，模型把「男性」學成了「適任」的特徵。
美國某些法院使用的再犯風險評估系統，被調查發現對非裔被告給出偏高的風險分數，而對白人被告則相對寬鬆。
臉部辨識系統對深膚色女性的辨識錯誤率，遠高於對淺膚色男性——因為訓練資料中後者的樣本多得多。

這裡有一個重要觀念：偏誤不一定來自惡意。沒有工程師故意要寫一個歧視女性的程式。偏誤往往悄悄地藏在「看似中立」的資料與指標裡。這正是為什麼數位倫理強調，技術人員必須主動檢視自己的系統，而不能躲在「我只是寫程式」的藉口後面。

數位落差：誰被留在門外？

數位落差(digital divide)指的是不同群體在接觸與使用數位科技上的差距。它有三個層次：

接取落差(access divide)：有沒有設備與網路？偏鄉、低收入家庭、年長者，可能根本沒有穩定的網路或裝置。
使用落差(usage divide)：有了設備，會不會用？能否分辨資訊真偽、能否善用線上資源？
結果落差(outcome divide)：使用科技後，能否真正改善生活、學習與工作機會？

疫情期間的遠距教學讓這個問題格外刺眼：當課程全面上線，沒有筆電、沒有寬頻、家裡沒有安靜空間的學生，學習成效立刻被拉開。技術原本應該是平等的橋樑，卻可能變成擴大不平等的鴻溝。

數位落差提醒我們：設計技術時不能只想著「典型使用者」——那個有最新手機、高速網路、數位素養良好的人。真正以倫理為本的設計，會問「最弱勢的使用者能不能用得上？」這也是「可及性(accessibility)」成為現代軟體開發核心要求的原因。

智慧財產與開源：分享的倫理

當你寫了一段程式、畫了一張圖、寫了一篇文章，它就是你的智慧財產(intellectual property)。著作權(copyright)自動保護創作者，未經授權的複製、散布通常是違法的。

但軟體世界發展出一套獨特的文化——開源(open source)。開源不是「沒有著作權」，而是創作者主動透過授權條款(license)，賦予他人使用、修改、散布的權利。常見的授權有：

授權類型	代表	核心特性
寬鬆型(permissive)	MIT、Apache 2.0	幾乎隨意使用，只要保留版權聲明
著佐權型(copyleft)	GPL	衍生作品也必須開源（「病毒式」傳染開放性）
創用 CC	CC BY、CC BY-SA	多用於文件、圖片等非程式內容

這裡的倫理張力在於：開源體現了「知識應該共享、站在巨人肩膀上前進」的精神，但也必須尊重原作者的意願。抄一段網路上的程式碼貼進你的專案，看起來很方便，卻可能違反授權條款。例如把 GPL 授權的程式碼放進你想閉源販售的商品，就是違規。尊重授權，就是尊重前人付出的勞動。

近年生成式 AI 又帶來新問題：AI 用海量受著作權保護的程式碼與圖文訓練，產出的內容算誰的？這場爭論至今未有定論，但它再次提醒我們，倫理討論永遠跟不上技術，卻又永遠不能缺席。

動手看一個例子

讓我們用一個簡單的例子，看「看似中立」的演算法如何產生偏誤。假設一家公司要用過去的錄取紀錄訓練模型，預測「應徵者是否適任」。

# 歷史資料：每筆是 (居住區域, 是否錄取)
# 但「居住區域」與「種族／經濟階層」高度相關
training_data = [
    ("A區", 1), ("A區", 1), ("A區", 1),   # 富裕區，多數錄取
    ("B區", 0), ("B區", 0), ("B區", 1),   # 弱勢區，多數落選
]

# 模型「學到」的規律（簡化示意）
def predict(area):
    accept_rate = {"A區": 1.0, "B區": 0.33}
    return accept_rate.get(area, 0.5)

print(predict("A區"))  # 1.0 → 幾乎一定錄取
print(predict("B區"))  # 0.33 → 多半落選

注意：程式裡完全沒有「種族」這個欄位，工程師可能自認系統很公正。但因為「居住區域」是種族與階層的代理變數(proxy variable)，模型實際上學會了用地址歧視人。這就是演算法偏誤最隱蔽之處——移除敏感欄位並不能消除偏誤，只要還有相關的代理變數存在。

要檢測這種偏誤，研究者會計算不同群體的結果差異。例如統計均等(statistical parity)要求各群體的正面結果比率相近：

$$P(\hat{Y}=1 \mid G=a) \approx P(\hat{Y}=1 \mid G=b)$$

其中 $\hat{Y}$ 是模型預測，$G$ 是群體屬性。上例中 A 區為 $1.0$、B 區為 $0.33$，明顯違反這個標準，警鈴就該響起。

AI 倫理：當機器開始做決定

人工智慧(AI)放大了上述所有問題，因為 AI 系統正逐漸接手原本由人做的決策：誰能貸款、誰被推薦工作、病人該如何治療、自駕車該如何閃避。當機器開始做決定，幾個倫理問題變得迫切：

問責(accountability)：AI 出錯害了人，誰負責？寫程式的工程師？部署的公司？提供資料的單位？
透明(transparency)：使用者有權知道一個決定是由 AI 做的，以及它大致根據什麼。
自主(autonomy)：人類是否保有「最終決定權」，還是淪為橡皮圖章？
公平(fairness)：如前所述，系統不能對特定群體系統性地不利。

一個被廣泛接受的原則是「人在迴路中(human-in-the-loop)」：在高風險決策（如醫療、司法、招聘）上，AI 只能輔助，最終必須由人類審核並負責。把生死攸關的判斷完全交給黑盒子，是不負責任的。

假訊息：當真相變得廉價

數位科技讓資訊傳播的成本趨近於零，這帶來知識的普及，也帶來假訊息(misinformation / disinformation)的氾濫。兩者有別：misinformation 是無意傳播的錯誤資訊，disinformation 則是刻意製造、用以操弄的假訊息。

生成式 AI 讓問題雪上加霜。深偽(deepfake)技術能合成以假亂真的人臉與聲音，AI 能在幾秒內量產上千則看似可信的假新聞。當「眼見」不再「為憑」，社會賴以運作的信任基礎開始動搖。

對抗假訊息沒有銀色子彈，但有幾道防線：技術上的內容溯源與浮水印、平台的事實查核機制、以及最根本的——公民的媒體素養(media literacy)。學會問「這個資訊的來源是誰？有沒有交叉驗證？它想讓我相信什麼、誰因此得利？」，是數位時代每個人的必修課。

重點回顧

隱私的核心是控制權：資料的主體是人，GDPR、個資法等框架確立了目的限制、資料最小化、被遺忘權等原則，「同意」必須是明確且自由給予的。
演算法偏誤多源於資料而非惡意：歷史資料中的歧視會被模型學習甚至放大；移除敏感欄位無法消除偏誤，因為代理變數依然存在。
數位落差有接取、使用、結果三個層次：以倫理為本的設計要顧及最弱勢的使用者，可及性是核心要求。
開源是有條件的分享：尊重授權條款（MIT、GPL、CC 等）就是尊重前人的勞動；隨意複製程式碼可能違法。
高風險 AI 決策需要「人在迴路中」：問責、透明、自主、公平是 AI 倫理的四大支柱，假訊息則需技術、平台與媒體素養三道防線共同對抗。

深入探討（研究所視角）

在研究生階段，數位倫理從「該不該」的價值討論，深化為「如何系統性地問責與治理」的工程與制度問題。三個關鍵主題值得深究。

一、演算法問責(algorithmic accountability)。 問責的難點在於 AI 系統的決策鏈條極長：資料採集、標註、特徵工程、模型訓練、部署、回饋迴路，每一環都可能引入偏誤，責任難以歸屬。學界提出演算法影響評估(Algorithmic Impact Assessment, AIA)作為制度工具，要求高風險系統在上線前進行類似環境影響評估的審查。此外，公平性指標之間存在數學上的不可能性：Kleinberg 等人證明，當不同群體的基礎發生率(base rate)不同時，「校準(calibration)」、「假陽性率均等」、「假陰性率均等」三者無法同時滿足。形式化地，若正類別比例 $p_a \neq p_b$，則不存在同時滿足

$$P(Y=1 \mid \hat{S}=s, G=a) = P(Y=1 \mid \hat{S}=s, G=b)$$

（校準）與群體間錯誤率均等的非平凡分類器。這意味著「公平」不是一個技術指標可以完全捕捉的概念，工程師必須在不同公平定義之間做出價值取捨，而這個取捨本身就是倫理與政治決定，不能假裝是純技術問題。

二、可解釋性(explainability / interpretability)。 當深度模型動輒數十億參數，其決策過程是不透明的「黑盒子」。可解釋 AI(XAI)領域發展出兩條路線：一是事後解釋(post-hoc)，如 LIME 與 SHAP，透過在預測點附近擾動輸入、觀察輸出變化，估計各特徵的貢獻度；SHAP 以合作賽局理論的 Shapley 值為基礎，將預測值公平地分配給各特徵：

$$\phi_i = \sum_{S \subseteq F \setminus \{i\}} \frac{|S|!\,(|F|-|S|-1)!}{|F|!} \left[ f(S \cup \{i\}) - f(S) \right]$$

其中 $\phi_i$ 是特徵 $i$ 的貢獻、$F$ 是全部特徵集合、$f(S)$ 是只用特徵子集 $S$ 的模型輸出。另一條路線是本質可解釋(intrinsically interpretable)模型，如決策樹、廣義加性模型(GAM)，主張在高風險場域（如假釋、醫療）應直接採用可解釋模型，而非先用黑盒子再硬套解釋——因為事後解釋本身可能是不忠實的近似。這呼應 Rudin 的著名論點：在高風險決策中，「為了準確度而犧牲可解釋性」往往是個假權衡。

三、資料治理框架(data governance)。 治理回答的是「組織如何系統性地管理資料的品質、安全、合規與倫理使用」。成熟的治理框架通常涵蓋：資料血緣(data lineage)追蹤每筆資料的來源與流向、資料分級(data classification)依敏感度套用不同保護等級、存取控制與稽核日誌、保存與刪除政策(retention policy)，以及隱私強化技術(Privacy-Enhancing Technologies, PETs)。後者是研究熱點，包括：

差分隱私(differential privacy)：在查詢結果中加入校準過的雜訊，使得「某一個人是否在資料集中」對輸出的影響極小，形式上要求對所有相鄰資料集 $D, D'$（僅差一筆）與所有輸出 $S$：$P(\mathcal{M}(D) \in S) \le e^{\varepsilon} \cdot P(\mathcal{M}(D') \in S)$，其中 $\varepsilon$ 是隱私預算，越小越私密。
聯邦學習(federated learning)：模型訓練在使用者裝置本地進行，只上傳參數更新而非原始資料。
同態加密(homomorphic encryption)：允許在加密資料上直接運算，運算完再解密得到正確結果。

這三個主題彼此交織，也與本系列其他文章相連：可解釋性連結機器學習的模型內部機制，差分隱私與同態加密連結密碼學與資訊安全，資料治理則連結資料庫系統與雲端架構。研究生若要在此領域深耕，需同時具備技術深度（能實作 SHAP、差分隱私機制）與制度視野（理解 GDPR、AIA 等治理框架），因為數位倫理的真正挑戰，從來不只是「能不能做到」，而是「在多元價值衝突中，我們選擇成為什麼樣的技術社群」。

數位倫理與社會（進階）：把公平與隱私變成可計算的工程

--

4

32.3%

140.05

82.02%

62,201

AI 回覆桌面通知

聊天訊息通知

聲音通知

更多設定