演算法單一化的系統性風險:AI 招聘的「系統性拒絕」,金融業該了解的一則預警

四月時,我寫了一個三篇的系列,談台灣 FinLLM 的系統性風險。當時的核心論點是:當十六家銀行共用同一個技術節點,金融體系的風險樣態就會從「個別機構太大不能倒」(too big to fail)轉變為「多家機構被綁在一起、一起倒下」(all together to fall)。我引用了國際清算銀行(BIS)、金融穩定委員會(FSB)、國際貨幣基金(IMF)等監理機構的警告,其中 IMF 用了一個很精準的詞——「演算法單一文化」(algorithmic monoculture)。

但那些都還是理論層次的警告。直到這個月,一份研究把這個機制從推論變成了數據。只是它的場景不在金融授信,而在就業招聘。

一份400萬筆申請的實證研究

史丹佛大學以人為中心的 AI 研究所(Stanford HAI)主導,聯合 Chapman 大學與東北大學(Northeastern University)的研究團隊,分析了「求職評估平台 Pymetrics」 上的求職資料:419萬筆申請、337萬名申請者、橫跨11個產業的156家僱主——其中多數是年營收50億美元以上的大型企業。

值得金融從業者留意的是,按產業別,金融服務業就佔了這份資料的17.11%,是占比第二高的產業——這不是「別的行業的事」。這是迄今對 AI 招聘演算法規模最大的一次實證研究,論文題為〈Algorithmic Monocultures in Hiring〉,將於下個月在加拿大蒙特婁舉行的 ACM FAccT 公平性會議發表。

研究的核心發現,是一種被研究者稱為「系統性拒絕」(systemic rejection)的現象:當不同僱主使用同一個演算法模型來篩選求職者時,被一家公司拒絕的人,很可能會被所有使用相同模型的公司一起拒絕。求職者以為自己投了十家公司、有十次獨立的機會,但如果這些公司背後是同一個模型,那麼這十次的分數其實是同一個分數。十次機會,實際上只有一次。

三個值得記住的數字

第一個是種族差異
研究發現,黑人申請者有25.87%的申請、亞裔申請者有14.74%的申請,被導向了對其不利的職位。
這裡的「不利影響」(adverse impact)是美國聯邦機構的正式術語,指某個族群的錄取率低於錄取率最高族群的五分之四(即 4/5 法則,源於民權法案第七章 Title VII)。

第二個是方法論差異的影響
值得注意的是,求職評估平台 Pymetrics 過去自評時,並沒有測出顯著的偏差。問題不在它的數學,而在它問錯了問題——它把所有僱主、所有職位的申請者「彙總」在一起計算,偏差就在平均值裡被稀釋掉了。
研究團隊改採「逐一職位」(position-by-position)的分析方式,符合 Title VII 以個別職位為單位的標準,那些被平均掩蓋的不利影響才浮現出來。這一點對任何做過模型驗證的人都應該很有感:「彙總指標會藏住風險,這在金融模型的驗證上是一模一樣的教訓。」

第三個是單一化效應的量化證據
研究做了一個反事實模擬:在真實的申請行為下,一個求職者需要投出二十五份申請,才能以99.9%的機率至少拿到一個「推薦進入下一關」;
但如果這些決策是彼此統計獨立的,只需要十份。25對10——這個差距,就是「演算法單一化」帶來的額外代價,被清楚地量出來了。
研究團隊還找出了42個被不同僱主共用的模型,正是這種共用,讓個別模型的缺陷得以複製到整個產業。

圖 1(系統性拒絕的機制)

這正是我先前談 FinLLM 時所警告的機制

讀到這裡,熟悉我四月那個系列文章的人應該已經看出來了:這篇論文講的「同一個模型跨僱主共用」,就是我在 FinLLM 架構裡標示的「共用模型層」;它講的「系統性拒絕」,就是我所說的「同質化」——當底層權重相同,所有機構對相同的輸入會給出高度相關的輸出,個別機構之間的差異化緩衝隨之消失。

我在中篇整理過國際監理界對 AI 系統性風險的六維度警報:BIS 的「演算法羊群」、FSB 的「關鍵第三方」(critical third party)、ECB 的訓練資料相關性、IMF 的演算法單一文化。當時這些都還是監理文件裡的抽象擔憂。
而這篇史丹佛研究,等於替那些警報補上了一個大規模的實證腳註——演算法單一化不是學者的想像,它會在真實的高風險決策裡,留下可以被統計出來的傷害足跡。

更值得一提的是,論文作者在政策建議裡有一句話,幾乎是逐字命中我在 FinLLM 系列裡描述的污染路徑:他們指出,即使是不同公司各自開發的模型,也可能拒絕同一批人,因為這些模型共用了「訓練資料、模型架構、基礎模型」這類共同元件(shared components),使得彼此的結果產生相關。這正是我在那個系列裡標示的資料層、基礎模型層與共用模型層——當這幾層被綁在一起,個別模型的偏誤就不再是個別的了。換句話說,這篇研究不只印證了我的擔憂,連致病的機制都對得上。

差別只在於,這次被傷害的是求職者,而不是金融體系。

演算法單一化的問題放進金融,賭注更高

招聘領域的系統性拒絕,傷害的是個別求職者的就業機會。這當然嚴重,但它至少還留有一些緩衝——求職者可以換一批不用同一個平台的公司、企業端也還有人工複核的空間。

把同樣的機制搬到金融業,緩衝就薄得多。如果十六家銀行用同一個共用模型去做授信判斷、洗錢防制(AML)監控、合規判讀,那麼這個模型的偏誤就會在所有銀行同步呈現:對相同的輸入做出相同的誤判,對某類客戶(例如某些產業或中小企業)做出一致的偏低評分,在市場出現新型態風險時於相同的時間點、用相同的方向反應。

招聘的單一化頂多讓某些人找不到工作;金融的單一化,威脅的是整個體系的穩定。值得注意的是,連這篇論文的作者都主動提到了「單點失效」這一面——他們指出,萬一像 HireVue 這樣的主要供應商長時間無法運作,數千家僱主(包含聯邦機構)的招聘都會被同步延誤或中斷。這個風險樣態,與金融體系對單一技術節點的依賴是同一回事。

而台灣的處境又更特殊一點:FinLLM 規劃由十六家機構共用,覆蓋的市占率可能高達八成以上;按官方規劃,第二版還要從銀行業擴展到保險、證券、期貨、投信,把同質化風險從一個產業傳染到整個金融體系。招聘市場至少還有成千上萬家不用同一平台的雇主作為天然的風險分散;台灣金融市場的高度集中,讓這種分散幾乎不存在。

這裡也順帶一提監理框架的態度。美國 Fed 與 OCC 今年四月生效的 SR 26-2,雖然把生成式 AI 與代理式 AI(Agentic AI)明確排除在「模型」的定義之外,但同時強調這類系統仍然需要治理。換句話說,「它不算傳統定義的模型」從來不是「它不需要被治理」的理由。演算法單一化帶來的系統性風險,正落在這個治理的空白地帶裡。

圖 2(兩個並列的系統性案例)

一則用別人代價換來的預警

這份研究最值得台灣金融業記住的,不是它的種族差異數字本身,而是它證明了一件事:演算法單一化的系統性風險,不是理論推演,而是會留下統計足跡的真實現象。它已經在就業市場發生過了,而且規模龐大到可以被精確量化。

台灣的 FinLLM 第一版預計在今年底前完成。也就是說,我們現在正好站在一個少見的時間窗口上——在大規模部署、路徑依賴形成、跨業擴展固化之前,還有機會把別人用400萬筆求職申請、用無數求職者的就業機會換來的教訓,提前內化進治理框架裡。

我在那個系列裡反覆講的一句話,放在這裡剛好:問題從來不是 AI 會犯錯——任何系統都會犯錯。真正的問題是,「當大家都用同一個大腦時,同一個錯,會被同時複製到所有地方」


延伸閱讀

資料來源