大綱
第一章 引言:一個全球罕見的金融 AI 實驗
1.1 FinLLM專案介紹
2026 年 4 月 22 日,金融科技產業聯盟在金管會指導下啟動了「金融大語言模型(FinLLM)」專案。中國信託金控擔任召集人,台灣銀行、台灣土地銀行、台灣中小企銀、彰化銀行、國泰金控、富邦金控、台新新光金控、凱基金控、永豐金控、合庫金控、兆豐金控、第一金控、華南金控、中華郵政、將來商業銀行等 16 家金融機構共同參與。
專案目標是打造一個「最懂台灣金融」的本土大語言模型,預計第三季推出初版、第四季完成最終版本,並規劃從 2026 年第三季起,逐步擴展至保險、證券等其他金融領域。
以下針對FinLLM 專案相關事項進行介紹。
時程與預算
| 項目 | 內容 |
|---|---|
| 金融科技產業聯盟聯盟成立 | 2025 年 2 月 19 日(金融科技產業聯盟啟動典禮,4 大金控創始召集人就位) |
| 金融科技應用研發工作圈進度說明文件 | 2025 年 8 月 21 日,中信金控於聯盟第二次會員大會提交應用研發工作圈說明,其中一個主題是”打造金融大語言模型(FinLLM)“ |
| FinLLM 專案啟動儀式 | 2026 年 4 月 22 日,於金融科技創新園區 FinTechSpace |
| 首版銀行模型(FinLLM 1.0)推出 | 2026 年第三季 |
| FinLLM 1.0最終版完成 | 2026 年底 |
| 跨業擴展 | FinLLM 2.0運用延伸至保險、證券、期貨、投信領域 |
| 建置預算 | 4,000 萬至 7,000 萬台幣(由 16 家機構共同分擔,每家平均 250–440 萬) |
16 家參與機構
| 類型 | 機構名單 |
|---|---|
| 公股銀行(8 家) | 臺灣銀行、土地銀行、台灣企銀、彰化銀行、合庫金控、兆豐金控、第一金控、華南金控 |
| 民營金控(6 家) | 中信金控(FinLLM 專案召集人)、國泰金控、富邦金控、台新新光金控、永豐金控、凱基金控 |
| 純網銀與郵政(2 家) | 將來銀行、中華郵政 |
各方角色分工
| 機構 | 角色 |
|---|---|
| 金管會 | 指導機關、政策推動 |
| 中信金控 | FinLLM 專案召集人(金融科技應用研發工作圈召集人) |
| 16 家金融機構 | 訓練資料校對與標註、評測標準審議、技術研發討論 |
| APMIC(亞太智能機器) | 模型訓練執行、模型交付 |
| 政大金融科技研究中心 | 評測標準制定、評測題庫設計 |
| 金融研訓院 | 證照試題、教材授權 |
| 數發部 | 主權 AI 語料庫提供 |
| 國科會 | 跨部會協調 |
| 國家高速網路與計算中心 | GPU 算力支援 |
| NVIDIA | Taipei-1 超級電腦運算、技術顧問 |
| 資策會數位轉型研究院 | 營運機制推動 |
技術定位
- 訓練路線:基於開源大語言模型微調,非從零自建
- 官方定位:「台灣金融微調基礎推理模型」
- 訓練資料來源:金管會法規與裁罰、研訓院教材、政大研究、數發部主權 AI 語料庫、16 家貢獻語料的整合
後續維運規劃
- 首階段使用權:模型完成後先供 16 家機構優先採用
- 長期維運:後續委託第三方協助模型維護、版本迭代、授權管理、應用生態建立
- 商業模式:逐步開放讓其他金融機構採用
- 政策定位:已納入國發會「AI 新十大建設推動方案」
整體結構速覽
以下整理 FinLLM 專案的整體結構,包含監理層、聯盟層、技術層、時程軸的全貌:
[圖 1.1:FinLLM 專案結構速覽]
這張結構圖是後續本文所有論述的基礎 — 第二章將從國際對照角度評估這個架構的特殊性,第三章將分析這個架構帶來的責任堆疊問題,第七章將針對這個架構的治理盲點提出建議。
1.2 本文的核心訊息分層
本文涵蓋的議題層次較多,先把核心訊息分層整理出來,作為閱讀地圖:
最高層核心訊息
在 FinLLM 的所有結構性限制下,治理品質是少數還能由我們自己決定的變數。
從AI運用的整體內外在環境來看,目前台灣並沒有打造自己的基礎模型加上市場規模小、監理資源有限、地緣政治壓力等因素 —AI的運用被侷限在一個較小的範圍,而最有控制力的選項是應該治理框架的設計品質。
第二層核心訊息
從 too big to fail 到 all together to fall:金融體系的系統性風險樣態正在轉換。
過去十五年的金融監理圍繞「個別系統重要性機構太大不能倒」展開。FinLLM 帶來的是一種新型態的風險 — 多家機構同時依賴同一個技術節點,在同一時間集體陷入問題。這需要全新的監理思維。
第三層核心訊息(兩個關鍵價值觀察)
(A) FinLLM 真正解鎖的不是「模型微調能力」,而是「跨機構合作的合法架構」:在缺乏這種架構之前,16 家銀行各自微調模型,但用的訓練資料、評測標準、監理對話都是分散的;FinLLM 提供了一個讓這些資源能合法、集中、共享的制度載體。
(B) FinLLM 是「資料聯盟」+「模型聯盟」雙核心架構:資料合作架構是長期戰略價值的根源,模型共建則是當下的具體產出與風險載體。兩者治理都是核心,互相支撐,缺一不可。
第四層核心訊息(雙議題框架)
本文聚焦兩個具體議題:責任鏈問題(FinLLM 的多層架構讓現行監理框架的雙邊預設失效)與系統性風險問題(共用基礎設施帶來的同質化、單點失效、跨業傳染等風險)。這兩個議題是其他治理討論的根基。
[圖 1.2:本文核心訊息分層]
1.3 本文上、中、下三篇結構與閱讀導引
本文以三篇形式發表,每篇可獨立閱讀,但合起來才構成完整論述:
上篇:國際對照與本土脈絡(第 1–2 章)
- 為什麼台灣選擇 FinLLM?這個選擇在國際金融業中的位置?
- 重點議題:A1/A2/A3 路線分類、國際 LLM 案例、台灣本土的 A2 微調能力(國泰、玉山、台新、中信的不同路線)、地緣政治限制下的選項受限、基礎模型主權的不同深度
- 結論:FinLLM 真正解鎖的是跨機構合作的合法架構
中篇:從責任真空到系統性風險(第 3–6 章)
- FinLLM 的多層架構讓現行監理框架失效在哪裡?這些責任真空如何放大為系統性風險?
- 重點議題:八層責任堆疊、責任歸屬光譜、國際監理界的六維度警報、跨業傳染鏈、台灣市場的特殊脆弱性、金管會的三重身分衝突
- 結論:從 too big to fail 到 all together to fall
下篇:建設性提案 — 治理框架與檢查清單(第 7–9 章)
- 在 v1.0 上線之前,聯盟、金管會、個別銀行該做什麼?
- 重點議題:5 個結構性必要條件、雙核心治理架構(資料治理 + 模型治理)、10 個個別銀行 model risk 主管的檢查清單、三道防線對應、長期視野
- 結論:治理品質是唯一可調整的變數
每篇結尾都會預告下一篇的議題;每篇開頭也會簡短回顧前篇,讓單篇閱讀的讀者也能掌握脈絡。
1.4 本文的立場與議題範圍
支持立場明確化:
本文寫作的出發點是支持 FinLLM,理由如下:
- 對台灣金融業面對國際大型銀行(JPMorgan 單年 AI 預算就是台灣所有金控加總的數倍)的競爭壓力,集體共建是務實選擇
- 資料合作架構是個別銀行單獨無法取得的稀缺資源
- 產業共識的標準化、跨機構合作的合法架構、人才生態的共同建立,這些價值在台灣金融業生態下都是必要的
除了表達支持立場,但同時也會提出建議。一個健康的產業共建專案,應該歡迎建設性的批評與治理討論。
議題範圍說明:
FinLLM 涉及的議題眾多,本文聚焦在責任鏈 + 系統性風險兩個具體議題,刻意不展開以下面向(需另文討論):
- 模型技術細節(訓練超參數、評測題庫設計、效能 benchmark 等)
- 應用層工程實務(RAG 整合、多代理架構、prompt 工程)
- 政策評估(國發會 AI 新十大建設的整體評估、跨部會協調機制等)
- 個別銀行的競爭策略(哪家銀行會在 FinLLM 上取得優勢)
為什麼選這兩個議題:因為它們是結構性的、可在 v1.0 之前處理的、且影響整個金融體系而非個別機構的。其他議題或屬於技術細節、或屬於政策層面、或屬於商業競爭,重要但不是本文的論述重點。
1.5 通往上篇第二章
第二章將從國際對照切入,回答一個關鍵問題:FinLLM 的設計選擇在全球金融業中是常態還是異例?
這個問題的答案決定了後續所有討論的基礎 — 如果 FinLLM 是國際慣例,那本文的擔憂可能過度;如果 FinLLM 是國際罕見的選擇,那相應的治理框架就需要特別設計。
第二章將透過 A1/A2/A3 路線分類、四種國際模型類型的對照、台灣本土 A2 微調案例(國泰、玉山、台新、中信走出的不同路線)、地緣政治限制下的選項分析、以及不同經濟體基礎模型主權深度的比較 — 完整回答這個問題。
第二章 國際對照:為什麼別國沒這麼做?
2.0 本章閱讀指南
本章透過國際對照,回答兩個關鍵問題:
(1) FinLLM 在全球金融業中是常態還是異例?
- 透過 A1/A2/A3 路線分類,看清 FinLLM 的真實定位
- 透過四種國際模型類型對照,看出 FinLLM 是少見的「金融業聯手 + 監理推動 + 聯訓共用」組合
(2) 為什麼有 A2 能力的台灣銀行仍支持 FinLLM?
- 台灣本土 A2 案例(國泰、玉山、台新、中信)證明銀行並非「沒有模型微調能力才聯合訓練模型」
- 七層理由(精簡為核心五層 + 延伸兩層)解釋集體共建的真實邏輯
- 結論:FinLLM 真正解鎖的是「跨機構合作的合法架構」 — 它既是資料聯盟也是模型聯盟
本章末尾會帶出兩個觀察作為通往中篇的橋樑:地緣政治限制下治理框架的關鍵地位、以及台灣基礎模型主權程度最低這個結構性現實。
2.1 技術分類:A1、A2、A3 三種路線
要理解 FinLLM 的特殊性,最好的方式是先做技術分類。金融業導入 LLM 的路徑可分為三類:
- A1 自建基礎模型:從零開始預訓練(pre-training)一個專屬的基礎模型,需要數百萬美元等級的訓練成本與大量專屬資料
- A2 微調開源模型:基於 Llama、Mistral、Gemma 等開源權重,做領域微調(fine-tuning)或持續預訓練(continuous pre-training)
- A3 企業 API 應用:使用 OpenAI、Anthropic 等閉源 API,搭配提示工程與 RAG,模型權重不在金融機構手上
A3 路線本質上是「應用層整合」,談不上模型主權,本文比較的對照組不納入這類。真正能與 FinLLM 對照的,是 A1 與 A2 兩類 — 這兩類才涉及機構對模型權重的實質掌握與責任承擔。
先說明 FinLLM 自身的定位:根據 中信金提交給金融科技產業聯盟的工作說明文件(2025 年 8 月 21 日)以及 iThome 報導,FinLLM 採用「以開源大語言模型為基礎,結合在地語料訓練」的路線,工作說明文件明確使用「台灣金融微調基礎推理模型」一詞,加上 4,000 萬至 7,000 萬台幣的預算規模 — FinLLM 屬於 A2 路線(基於開源模型微調),不是從零自建的 A1。這個定位很重要,因為它決定了我們應該用哪些國際案例做對照。
2.2 類型 A:單一機構自建模型 — A1 與 A2 兩條路線
最早出現、也最具代表性的金融 LLM 路線,是大型金融機構自己投資建模型。但即使是資源最充足的金融機構,多數選擇 A2(微調開源模型)而非 A1(從零自建)。
A1 路線的代表 — 彭博 BloombergGPT(警示案例)
彭博於 2023 年 3 月發表的 BloombergGPT 是少數真正走 A1 路線的金融專屬模型。它是一個 500 億參數、從零開始訓練的金融專用基礎模型。其核心訓練資料 FinPile 包含 3,630 億 tokens,來自彭博 2007 至 2022 年的金融資料庫,佔總訓練資料的 51%。整體訓練成本估計達 267 萬至 1,000 萬美元,使用 512 張 NVIDIA A100 GPU 訓練 53 天。
但 BloombergGPT 的後續發展成為一個重要警示。
加拿大 Queen’s University 的 比較研究 顯示,GPT-4 在大多數金融任務上的表現超過 BloombergGPT,即使 GPT-4 沒有彭博的專屬金融資料存取權。在 FinQA 零樣本任務上,GPT-4 達到 68.79% 準確度,BloombergGPT 落後。彭博自 2023 年論文發表後就再無公開的模型更新。
這個故事的啟示是:「自建金融專屬基礎模型」這條路線,在通用大模型快速迭代的時代,可能不是長期勝出的策略。當 OpenAI、Anthropic、Google 每幾個月就推出新一代模型,一個訓練完就凍結權重的金融專屬模型,能力差距會持續擴大。
雖然 FinLLM 走的是 A2 而非 A1,但 BloombergGPT 的警示對 FinLLM 仍然有效 — 不論 A1 或 A2,「將金融知識內化進權重」這個訴求本身,就會面對通用模型快速迭代的競爭壓力。差別只在於 A2 路線因為微調成本較低,迭代成本也較低,相對比 A1 更具持續性。
A2 路線在大型金融業是主流
A2 路線(基於 Llama、Mistral 等開源模型微調)幾乎是國際大型金融機構的標準做法:
| 機構 | A2 部署案例 | 基礎模型 | 公開資訊 |
|---|---|---|---|
| JPMorgan Chase(美) | DocLLM(文件理解專用) | Llama2-7B | arXiv:2401.00908,2024 |
| Capital One(美) | AI Foundations LLM Customization team;多代理 AI 系統 | Open-weight 模型(含 Llama) | VentureBeat 報導、AAAI 2025 論文 |
| Wells Fargo(美) | Tachyon 平台部署 Llama 2 內部應用 | Meta Llama 2 | VentureBeat 訪談 |
| BNY Mellon(美) | Eliza 平台 + 自訓開源模型(on-premises) | Meta Llama、Mistral | Fortune 報導 2025 |
| HSBC(英) | 與 Mistral AI 戰略合作 | Mistral 系列 | 2025 公開宣布 |
| DBS(新加坡) | ADA / ALAN 平台、DBS-GPT、CSO Assistant、DBS Joy | Gemini + 多開源模型混合 | Computer Weekly 報導 |
| OCBC(新加坡) | OCBC GPT、Wingman、Buddy 等 30 個應用,on-premises 託管 | 開源模型 + 公有雲混合 | Edge Singapore 訪談 |
| Westpac(澳洲) | KAI-GPT(Kasisto 合作) | Bank-specific 微調模型 | Westpac 公開報導 |
從這個列表可以看出兩個重要觀察。
第一,A2 是大型金融業的主流。這不是邊緣選擇,而是國際金融業面對 LLM 應用的標準做法。
第二,每家機構走的都是「自家微調 + 自家部署」的路線。即使是與基礎模型供應商合作(如 HSBC 與 Mistral),仍然是雙邊關係,模型權重與部署環境由該銀行控制。
JPMorgan 的雙軌策略:在這些 A2 案例中,JPMorgan DocLLM 是少數有公開技術論文、可被學術界檢視的案例。它清楚展示了一個關鍵事實:連 JPMorgan 這種規模的機構,做 AI 研究時也選擇 A2 路線(基於 Llama2 延伸),不選 A1(從零自建)。JPMorgan 的整體 AI 策略是雙軌並行:DocLLM(A2 路線)針對窄場景做基於 Llama2 的延伸;LLM Suite(A3 路線)整合 OpenAI、Anthropic 等多個外部模型給 23 萬名員工使用。
值得注意的是,JPMorgan 從未把整個銀行的 AI 押在一個自建模型上。Capital One、BNY Mellon、Wells Fargo、HSBC、DBS、OCBC 的策略也類似 — 都是「A2 + A3 雙軌、針對不同場景使用不同路線」。
這個觀察對 FinLLM 的意義:
當我們看清 A2 路線在大型金融業是常態時,FinLLM 的特殊性反而更精準地浮現出來。FinLLM 的特殊性不在於走 A2 路線 — 這條路線本來就是國際主流。FinLLM 真正特殊的,是「16 家金融機構聯手共用同一個 A2 模型」這個設計選擇。
國際上的 A2 案例都是各家做各家的:JPMorgan DocLLM 是 JPMorgan 自家用、不分享給 Citi 或 Wells Fargo;Wells Fargo 的 Llama 2 微調模型是 Wells Fargo 自家用、不分享給 Bank of America;BNY Mellon 訓練的開源模型是 BNY 自家用、不分享給 State Street;DBS 的 ADA / ALAN 平台是 DBS 自家的「AI 工廠」,OCBC 與 UOB 各做各的。「聯訓共用」是 FinLLM 真正的特殊選擇 — 這不是技術路線(A2)的特殊性,而是部署模式(共用 vs. 各做)的特殊性。
2.3 類型 B:學術與開源驅動的金融 LLM
第二個路線是學界與開源社群的金融 LLM,這些大多屬於 A2 路線的學術版本。
近年 ArXiv 上的金融 LLM 研究累積相當豐富,以下是 2023–2024 年間具代表性的微調案例 ¹:
| 模型 | 主導機構 | 基礎模型 | 微調方法 | 來源 |
|---|---|---|---|---|
| FinGPT | 哥倫比亞大學 AI4Finance 基金會 | Llama / ChatGLM | LoRA + QLoRA | arXiv:2307.10485 |
| Instruct-FinGPT | AI4Finance 基金會 | Llama | 指令微調(10k 樣本) | arXiv:2306.12659 |
| PIXIU / FinMA | ChanceFocus + 多所大學 | Llama | 指令微調(136k 樣本) | arXiv:2306.05443 |
| DISC-FinLLM | 復旦大學 | Baichuan-13B | 多 LoRA 專家模組 | arXiv:2310.15205 |
| CFGPT | 中國金融研究團隊 | InternLM-7B | 持續預訓練 + 指令微調 | arXiv:2309.10654 |
| DocLLM | JPMorgan AI Research | Llama2-7B | 注意力機制改造 + 預訓練擴增 | arXiv:2401.00908 |
| Cornucopia 聚寶盆 | 中國研究團隊 | Llama 系 | 中文金融指令微調 | GitHub |
| FinQwen | 阿里巴巴 Tongyi-EconML | Qwen | 微調 + 應用整合 | GitHub |
| BBT-FinT5 | BBT-FinCorpus 團隊 | T5 | 金融專屬預訓練(300GB 語料) | — |
註 ¹:完整綜述可參考 Lee, J., Stevens, N., Han, S. C., & Song, M. (2024). A Survey of Large Language Models in Finance (FinLLMs). arXiv:2402.02315;Li, Y., et al. (2023). Large Language Models in Finance: A Survey. arXiv:2311.10723;以及 Nie, Y., Kong, Y., Dong, X., et al. (2024). A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges. arXiv:2406.11903。
這張表的關鍵觀察:A2 路線是金融 LLM 研究的絕對主流,沒有人選擇從零自建。多數案例使用輕量微調技術(LoRA、QLoRA、多專家 LoRA 模組),追求成本效率而非最佳效能。
這個路線對 FinLLM 的啟示是:學術界與開源社群微調開源模型的方法與其使用的數據可作為金融業執行類似任務的參考素材。
2.4 類型 C:主權 AI,但非金融專用 — 全球趨勢
第三個路線是國家層級的「主權 AI」,這在過去兩年已經成為全球趨勢。
歐盟在 AI Act 的合規壓力下,從 2024 年起密集推動多個基礎模型專案。OpenEuroLLM(2025 年 2 月正式啟動)由 20 家研究機構、企業與 EuroHPC 中心合作,目標支援所有 24 種歐盟官方語言;德國則由 KI Bundesverband 主導 SOOFI(Sovereign Open Source Foundation Models)專案,目標是發展 1,000 億參數的開源基礎模型。
中東國家走得比歐盟更快、投入更大。阿聯酋的 Falcon 系列由 Abu Dhabi 的 Technology Innovation Institute(TII)主導,2026 年 1 月發布的 Falcon-H1 Arabic 34B 在 Open Arabic LLM Leaderboard 排行榜上以 75.36% 的成績超越中國的 Qwen2.5 72B 與 Meta 的 Llama-3.3 70B。沙烏地阿拉伯則由 Crown Prince Mohammed bin Salman 於 2025 年 5 月成立 HUMAIN,並推出 Humain Chat 與 ALLaM 模型。整體而言,中東國家的 AI 基礎設施投資規模達數百億至上千億美元級別。
韓國走的是「企業主導 + 政府支持」路線:Naver 的 HyperCLOVA X、LG AI Research 的 EXAONE,韓國金融業在這些通用模型之上做應用層開發。
日本的 Nihon AI Foundation Model Development 於 2026 年 4 月 12 日由軟銀、NEC、Sony、Honda 各持股 10% 以上共同成立,MUFG、SMBC、Mizuho 為投資者。目標是 1 兆參數的「physical AI」(通用基礎模型,不是金融專用)。
這些主權 AI 專案的共通點是:都走 A1 路線(自建通用基礎模型)、都不是金融專用、都把金融視為下游應用之一。換句話說,這些國家把基礎模型主權與金融應用視為兩個分離的層次 — 即使基礎模型出問題,金融業仍有應用層的多樣性作為緩衝。
2.5 類型 D:金融業聯手 + 監理推動的金融專屬 LLM
這是 FinLLM 所屬的類型 — 也是國際上最罕見的類型。
最接近的對照組值得仔細看:
BIS Project Gaia:由 BIS Innovation Hub Eurosystem Centre 協調,與 西班牙央行(Bank of Spain)、德國央行(Deutsche Bundesbank)、歐洲央行(ECB)合作。但 Project Gaia 是央行端的研究實驗,不是商業銀行的生產系統,且採用 RAG 概念驗證而非聯合訓練模型。
新加坡 MAS 的 MindForge 計畫 — 本文最重要的對照標竿
2023 年 11 月發布 Phase 1 白皮書,由 MAS 與 6 家銀行(DBS、OCBC、UOB、Standard Chartered、Citi、HSBC)共同發起。這是國際上最接近 FinLLM 結構的案例,但 MindForge 的選擇與 FinLLM 截然不同:
(a) 做框架,不做模型
- MindForge 的產出是治理框架(AI Risk Management Operationalisation Handbook,4.97 MB 完整公開下載),不訓練共用模型
- 銀行各自選用自己的 LLM;MAS 提供共同的風險評估與治理標準
(b) 治理結構完全公開透明
這是 FinLLM 必須學習的部分。MAS 完整公開:
- 所有成員機構的完整名單與業別分類(24 家機構,Phase 2 已擴展為 12 家銀行 + 8 家保險 + 4 家資本市場 + 5 家行業協會)
- 各機構的具體領導角色(例如 UOB 公開承認「provides leadership in the risk and compliance streams」)
- 完整的治理產出文件(Operationalisation Handbook 全文公開)
- 跨業別的清楚分工
(c) 新加坡的「雙軌設計」
在新加坡這個金融樞紐,產業層由 MAS MindForge 提供共同治理框架(不聯訓共用 LLM),個別機構層則由 DBS、OCBC、UOB 等銀行各自走 A2 路線(自家微調、自家部署)。這個設計讓金融業既享受聯盟協作的成本效益(共同治理),又保留模型多樣性帶來的系統性風險分散。
MAS MindForge 的設計邏輯很清楚:銀行各自選用各自的 LLM,但 MAS 提供共同的風險評估與治理標準。這個「做框架、不做模型 + 治理結構完全公開」的雙重原則,是 FinLLM 治理框架設計時最值得對標的標竿 — 下篇第七章將具體展開這個對照。
其他國際案例:韓國的 KB-GPT、ShinHan AI 是單一機構各做各的;美國完全沒有此類聯盟(反托拉斯法 + 競爭文化下,銀行絕不會聯手做模型)。
把這些案例放在一起看,可以歸納出一個共同點:沒有任何先進金融市場選擇了「金融業聯手 + 監理機關指導 + 聯合訓練共用模型」的完整組合。
最接近的 MAS MindForge 選擇了「做框架、不做模型」;BIS Project Gaia 選擇了「央行做研究、不交付商用」;中東、韓國、日本選擇了「投資通用基礎模型、不主導金融專屬」。這些選擇背後,都是對系統性風險的高度警覺 — 共用治理框架、共用評測標準、共用基礎研究都可以;但共用模型權重,國際監理界普遍視為跨越紅線的選擇。
而台灣,是少數做出相反選擇的金融體系。
[圖 2.1:四種國際金融LLM模型類型對照]
2.6 台灣本土的 A2 案例 — 個別銀行的微調能力
在進入「為什麼台灣選擇聯訓共用」這個討論之前,必須先回答一個容易被忽略的事實問題:台灣銀行業有沒有自己做 A2 微調的能力?
答案是:不只有,而且各家走出截然不同的架構路線。
筆者在 〈三朵雲與一張晶片:台灣金融業 Agentic AI 的架構賽局〉 一文中,曾針對台灣三大金控(玉山、國泰、中信)的 AI 架構進行交叉驗證研究。三家頂尖金控走出三條截然不同的路徑,但都明確擁有 A2 能力。
玉山銀行 × Google Cloud:工程師自建路線
玉山與 Google Cloud 合作密切,但其 MLaaS 平台從 1.0 演進到 2.0 全部自建,採用全開源工具鏈(Airflow + FastAPI + Prometheus + Grafana + EFK + Kubernetes)。玉山是三家中唯一明確設立 AI Evaluation 團隊的金控,建立企業級 AI 評測架構、紅隊演練機制、黃金測試集生命週期管理。其 A2 能力長在工程實踐與品質把關。
國泰金控 × AWS:組織制度先行路線
國泰是三家中組織層級最高、制度設計最完整的。金控層級的 AI Center of Excellence 統一決定雲端架構,自建了 GAIA 護欄框架、Model Hub、Data Pipeline 生成器。在 A2 微調方面,國泰金控在 NVIDIA GTC Taipei 上發表了「台灣金融知識 LLM」實驗案,使用 NVIDIA NeMo 訓練框架,在本地端環境預訓練 + 微調了三個開源模型 — NVIDIA Nemotron、國科會 TAIDE、聯發科 Project TAME(7B–8B 參數)。實驗結果顯示三個模型完成訓練後,金融授信知識正確率都達到近 90% 或超過 90%。
中國信託 × NVIDIA:自研核心、Agent 工廠路線
中信是三家中地端自研最深的。中信的 CTBC Brain 自研學習平台搭配 NVIDIA GPU 地端基礎設施,資料研發中心下設電腦視覺、NLP、機器思考三大實驗室,累計部署超過 20 個 AI 專案、取得 20 餘項發明專利。中信走的是 AWS Bedrock + GCP Vertex AI 雙雲推論 + 地端 CTBC Brain 自研訓練的三層混合架構。
台新銀行 × Taiwan AI Labs:本土合作路線
台新銀行於 2024 年與台灣人工智慧實驗室合作開發金融 GPT「台新腦」。台新腦使用 AI Labs 的 FedGPT 平台做為基礎,這是基於開源權重做繁中持續預訓練與微調的 A2 路線產物。台新銀行在 iThome 2024 CIO 大調查專訪中,由科技長孫一仕說明其策略思考:採用雲端 LLM「只能透過微調或 RAG 來優化,不確定是不是夠好的作法」,因此選擇與 AI Labs 合作走「現成基礎模型進行預訓練 + 內部資料自建」的路線。
2.7 為什麼有 A2 能力的台灣銀行,仍支持 FinLLM?
上述案例證明,台灣大型金控已經具備獨立做 A2 微調的能力。那麼一個核心問題就出現了:既然有能力獨立做,為什麼這些銀行仍積極參與 FinLLM 聯盟?
從公開資訊與商業邏輯看,可以歸納出五個核心理由 + 兩個延伸理由:
五個核心理由
核心一:資料合作 — 取得自己拿不到的訓練資料
這是真正關鍵但很少被公開強調的理由。FinLLM 的訓練資料來源包括:
- 金管會提供的金融法規與裁罰資料
- 金融研訓院的證照試題、教科書與專業著作
- 政大金融科技研究中心累積的學術與實務資料
- 數發部的主權 AI 語料庫
- 16 家金融機構共同貢獻的合規資料
這些資料中,多數個別銀行單獨申請或購買都很困難 — 金管會的裁罰案例庫需要監理機關認可的合作架構才能正當取得;金融研訓院的證照題庫在聯盟架構下才容易獲得使用授權;16 家銀行的合規語料在競爭關係下不會分享給對手。FinLLM 的真正稀缺價值不在「微調模型」這個技術行為,而在「取得單獨拿不到的訓練語料」。國泰金控的 LLM 實驗案受限於只能用「財經新聞、公開法規」等可取得來源,無法觸及更深層的監理裁罰實務或跨行合規語料。
核心二:技術合理 — 共用基礎層 + 各行差異化
賈景光在啟動儀式上明確說:「各銀行亦可直接部署 FinLLM,發展符合自身需求的業務應用,並融入行內專業知識,打造專屬語言模型」。國泰金控的金融授信 LLM 實驗案使用了 TAIDE、Nemotron、TAME 三個基礎模型,但這些模型對「台灣金融法規」並沒有專門優化,國泰必須自己花資源把法規語料整理進去。若有 FinLLM 作為共用的金融知識基礎層,國泰可以基於 FinLLM 再做內部微調,省下重複投入,把資源集中在自家的差異化能力上。
核心三:成本分攤 — 集體做的甜蜜點
FinLLM 4,000–7,000 萬預算由 16 家分攤,每家平均約 250–440 萬台幣。若各家獨立做相同規模的金融微調基礎模型,個別成本可能達 3,000–5,000 萬,16 家加總約 5–8 億 — 多花了 10 倍以上、且毫無產業綜效。
核心四:制度框架 — 在受認可的架構內運作
當銀行使用 FinLLM 衍生模型做合規應用,由於模型訓練資料來源由聯盟集體驗證、評測標準由政大主導建立、16 家共同審議,整個訓練與驗證流程在金管會指導的產業共同基礎建設框架內運作。這對銀行的法遵長與風控長提供了重要的合規論述基礎 — 模型不是純粹的供應商產品,而是在受監理機關認可的產業協作架構下產出。這對個別銀行來說,是一個降低法遵不確定性的價值。
核心五:國際對標的競爭壓力
中信金董事長陳佳文在啟動儀式上提到:「JPMorgan 每年投入 150 億美元於科技與 AI 研發」。對台灣金控來說,JPMorgan 的單年 AI 預算就是台灣所有金控加總科技預算的數倍。個別台灣金控完全無法在資源上對抗,唯一的應對策略就是「集體投資 + 共建基礎」。
兩個延伸理由
延伸一:產業生態的參與
FinLLM 已納入國發會「AI 新十大建設推動方案」,由金管會主委親自指導,國科會、數發部跨部會推動。對台灣金控生態而言,產業聯盟層級的 AI 共建專案,本身就是一個重要的產業協作場域 — 各家機構在其中累積關係、貢獻資源、建立話語權。
延伸二:人才與生態效益
各家獨立做 A2 微調,會面對人才招募的競爭。FinLLM 集中投入會帶動產業整體 AI 能力提升,個別機構的人才挖角池才會擴大、外部供應鏈才會成熟。
雙核心小結:FinLLM 真正解鎖的是「合作架構」
把這五個核心理由 + 兩個延伸理由整合,可以看出一個關鍵事實:
FinLLM 對個別銀行的價值,不在「技術解鎖」(這些銀行本來就有微調能力),而在「資料合作 + 技術整合 + 制度框架 + 國際對標」這幾個個別銀行單獨做不到的事情。
更精確地說:
FinLLM 真正解鎖的不是「微調能力」,而是「跨機構合作的合法架構」。 在缺乏這種合法架構之前,16 家銀行各自微調模型,但用的訓練資料、評測標準、監理對話都是分散的;FinLLM 提供了一個讓這些資源能合法、集中、共享的制度載體。
進一步看,這個合作架構同時包含兩個層面:資料聯盟 + 模型聯盟:
- 資料聯盟層面:整合金管會、研訓院、政大、數發部、16 家機構的訓練資料,形成個別銀行單獨無法取得的資料合作架構 — 這是長期戰略價值的根源
- 模型聯盟層面:由聯盟主導訓練、產出共用模型權重 — 這是當下的具體產出與系統性風險載體
兩個層面互相支撐 — 沒有資料合作就沒有有意義的共用模型;沒有共用模型就無法檢驗資料合作的價值。但兩個層面同時也帶來不同層次的責任真空與系統性風險,這是中篇將深入展開的議題。
2.8 通往中篇:從合作架構的好處到結構性風險
把第二章的論述整合起來,可以看出 FinLLM 在國際金融業中的位置:它是一個資料聯盟與模型聯盟的雙核心架構,這個架構國際上沒有先例,但對台灣金融業是務實必要的選擇。
但這個結論不是文章的終點,而是中篇要展開的起點。本章末尾還必須提兩個結構性現實作為通往中篇的橋樑。
結構性現實一:地緣政治限制下,台灣的選項本來就比別人少
可選的開源基礎模型按地緣可接受度排序:
| 模型族系 | 來源 | 對台灣金融業的可接受度 |
|---|---|---|
| Llama 3 / 4 | Meta(美國) | ✅ 主要候選 |
| Mistral / Mixtral | 法國 | ✅ 可選 |
| Gemma | Google(美國) | ✅ 可選 |
| Qwen / DeepSeek / GLM | 中國 | ❌ 政治不可行 |
中文能力強的開源模型,幾乎都是中國產的。而中國模型對台灣金融業而言是政治禁區。於是真正可選的「有意義差異」基礎模型其實只有三個族系:Llama、Mistral、Gemma。這三家都是西方陣營,且訓練資料都以英文為主、繁中支援都不強。
結構性現實二:台灣是基礎模型主權程度最低的經濟體之一
| 國家/區域 | 自家基礎模型 | 主權 AI 的可達深度 |
|---|---|---|
| 美國 | GPT、Claude、Llama 等 | 完整主權 |
| 中國 | Qwen、DeepSeek、GLM 等 | 完整主權 |
| 阿聯酋 | Falcon 系列(自研) | 完整主權(區域語言) |
| 沙烏地 | ALLaM、Humain Chat(自研) | 完整主權(區域語言) |
| 歐盟 | Mistral + 自研投入 | 中等主權 |
| 韓國 | HyperCLOVA X、EXAONE(自研) | 中等主權 |
| 日本 | 投資自研 + 用美國 | 中等主權 |
| 台灣 | 無自研基礎模型 | 應用層主權 |
台灣現有的所有「在地基礎模型」都是 A2,沒有真正的 A1。國科會的 TAIDE 本質上是基於 Llama / Gemma 的繁中微調;Taiwan AI Labs 的 FedGPT 同樣是基於開源權重的繁中持續預訓練;即將推出的 FinLLM 也是 A2 — 沒有任何一個是從零自建的基礎模型。
阿聯酋、沙烏地、韓國、日本選擇了「先投資基礎模型,再做金融應用」的路線;台灣選擇了「跳過基礎模型、直接做金融應用層」的捷徑。前者慢但深,後者快但淺。
這兩個結構性現實對中篇的意義是:
在這些限制下,聯盟還能調整的變數其實非常有限。但正因為可調整的變數不多,治理框架的設計品質就特別關鍵 — 這是少數還能由我們自己決定、不受外部地緣政治限制的事情。第一章 1.2 提到的最高核心訊息「治理品質是唯一可調整的變數」,從這裡開始具體展開。
中篇將從八層責任堆疊切入這個議題。當 16 家銀行使用 FinLLM 衍生模型做合規應用時,現行監理框架的雙邊預設徹底失效,責任真空在多層架構中具體出現。中篇第三章到第六章將完整展開這個議題,並導向「all together to fall」這個第二層核心訊息。
[圖 2.2:基礎模型主權深度比較]



