自從2022年11月OpenAI推出聊天機器人ChatGPT以後,各種生成式人工智慧(Gen AI)的產品突然如雨後春筍般湧現,過去一年應該是許多企業絞盡腦汁思考如何將Gen AI運用在企業內部的一年。
生成式人工智慧的出現,對各行業都有重大的影響,尤其是金融業,更是首當其衝。由於人工智慧的強大能力,有人形容現在正處於「奧本海默時刻」(Oppenheimer moment),面臨「又期待又怕受傷害」的尷尬局面。
然而,當人工智慧的舞台從「學術界」蔓延到企業的「董事會」時,就注定人工智慧大量使用的時代開啟。
大綱
總統就職演說有關人工智慧的內容
2024年5月20日,在賴總統5,297字的就職演說稿中,人工智慧的字眼就出現了8字,內容主要描述台灣目前正處於AI革命的中心點,未來應該全力推動台灣成為「人工智慧之島」並積極運用AI來提升國力、人力和經濟力,並將「人工智慧」納入「五大信賴產業」之中。
以下是演說文稿的摘錄文字:
- 展望未來的世界,半導體無所不在,AI浪潮席捲而來。現在的臺灣,掌握半導體先進製程技術,站在AI革命的中心。
- 面對全球智慧化的挑戰,我們站在半導體晶片矽島的基礎上,將全力推動台灣成為「人工智慧之島」,促成人工智慧產業化,加速人工智慧的創新應用,並讓產業人工智慧化,用人工智慧的算力,來提升國力、軍力、人力和經濟力。
- 站穩全球供應鏈的關鍵地位,好好把握地緣政治變化所帶來的商機,發展半導體、人工智慧、軍工、安控,以及次世代通訊等「五大信賴產業」
生成式人工智慧簡介
生成式人工智慧的定義
簡言之,生成式人工智慧(AI)是一種能夠根據輸入的提示生成圖像、文字、視訊和其他媒體的人工智慧。
人工智慧突然變聰明的原因
Google在2017年6月12日 一篇劃時代研究論文《Attention Is All You Need》使得人工智慧開竅。這篇論文提到「Transformer演算法」了,而此演算法的諸多優點,讓後續研究AI的人能夠更有效率的使用大量的預訓練資料、產生更多的參數來優化模型,這也造就了「AI領域的摩爾定律」。
Transformer演算法的優點
1.自注意力機制(Self-Attention Mechanism)
使模型能夠並行處理序列中的所有位置,而不是像RNN(遞歸神經網絡)那樣依賴於順序處理;能夠更好地捕捉序列中各個元素之間的依賴關係,不論距離遠近。
2. 並行計算
Transformer可以進行高度並行化的計算,這使得訓練速度大大加快。相較於RNN的順序處理,Transformer的計算效率顯著提高。
3. 長距依賴性處理
由於自注意力機制,Transformer在處理長距依賴關係方面非常有效,這在長文本或長序列數據中表現尤為突出。
4. 更少的梯度消失問題
Transformer不依賴於傳遞序列狀態,從而減少了梯度消失問題,這在深層模型中特別有用。
5. 靈活性和可擴展性
Transformer架構可以輕鬆擴展到不同的任務和數據集,從自然語言處理(NLP)到圖像處理,再到時間序列預測等應用。
Transformer模型架構
從這篇2022年8月出版的論文Emergent Abilities of Large Language Models(2022/8),可觀察到大模型的各項能力表現,在參數數量未達某個門檻值前,表現都不太好,必須突破到某個值,才會有突飛猛進的驚人表現。
資料來源: Emergent Abilities of Large Language Models(2022/8)
AI時代的摩爾定律
l2024年3月9日 MIT FutureTech 的研究人員發表了一項關於大型語言模型能力增長速度的研究,使用Wikitext 和Penn Treebank 2012 年至2023 年期間超過200 個語言模型評估的資料集。
結果表明:LLM 的能力大約每 8 個月就會翻一倍,速度遠超摩爾定律!
下圖表示不同領域的演算法改進對有效計算翻倍的估計。藍點表示中心估計值或範圍; 藍色三角形對應於不同大小(範圍從 1K 到 1B)的問題的倍增時間;紫色虛線對應於摩爾定律表示的 2 年倍增時間。
資料來源: ALGORITHMIC PROGRESS IN LANGUAGE MODELS
大型語言模型演化歷程
在2023年4月出版的這篇論文中”Harnessing the Power of LLMs in Practice: A Survey on ChatGPT and Beyond“,繪製了一個大型語言模型的演化樹,清楚描述”模型開發者及推出的時間”、”模型使用的演算法”、”開源與否”等,內容相當詳細,堪稱經典之作。圖形說明如下:
- 從大語言模型演化樹可了解LLM 的發展歷程,這棵樹統計了許多知名的模型,同一分支上的模型關係更近。
- 基於 Transformer 的模型用非灰色(non-grey colors)表示;Decoder-Only模型是藍色分支;Encoder-Only模型是粉色分支;Encoder-Decoder模型是綠色分支。
- 模型在時間軸的豎直位置表示其發佈時間。實心方塊表示開源模型,空心方塊則是閉源模型。右下角的堆積橫條圖是指各家公司和機構的模型數量。
相關鏈接
https://github.com/Mooler0410/LLMsPracticalGuide
史丹佛大學2024年AI指數報告
史丹佛大學從2017年開始推出第一版AI指數報告,除了2020年沒出版報告外,幾乎每年都會出版報告,到了2024年已是第七版報告,比較特別的是2024年的AI指數報告,總頁數為502頁,是歷年來頁數最多,內容最豐富的一版。也間接證明AI在現今全球火熱的程度。
該報告涵蓋了包括AI的技術進步、公眾對技術的認知,以及圍繞其發展的地緣政治動態等一系列議題。它包括有關AI訓練成本的新數據,分析了負責任的AI實踐,並新增了關於AI對科學和醫療影響的章節。
AI Index Report的目標是向政策制定者、研究人員、執行官、記者和一般公眾提供無偏見且經過嚴格審核的數據。
AI指數報告,下載鏈接
https://aiindex.stanford.edu/wp-content/uploads/2024/04/HAI_2024_AI-Index-Report.pdf
哪個國家人工智慧專利最多?
根據2024年AI指數報告,2023年中國的專利比率占比最高達61.13%;美國次之,占比20.9%;歐盟占比為2.03%;印度占比為0.23%。
每10萬人專利比率哪個國家最高?
國家人數的多寡可能與專利數量有關,若以每10萬人的基礎來計算,可排除人口數量的優勢,根據2024年AI指數報告,專利數量除以10萬人的比例來看,專利數量排序則有明顯的不同,排名第一的是南韓、第二名是盧森堡、第三名才是美國、第四名是日本、第五名是中國、第六名是新加坡,令人驚訝的是新加坡,隨然人口不多,但每10萬人平均專利數量居第六名,其實是很厲害的事情,這也是值得台灣學習的地方。
2023年哪個國家的著名AI模型數量最多?
與中國、歐盟和英國相比,美國是著名AI模型的主要源頭。2023年,美國學術機構提供了61個著名的AI模型,遠超歐洲聯盟的21個和中國的15個。
著名機器學習模型的參數數量
近年來,由於”Transformer”演算法的卓越魔力,使得AI機器學習模型的參數數量逐年增加,數百億的模型參數量是家常便飯。相較於10年前的模型,參數量都在1億個以下的情況,差異百倍甚至千倍以上。
著名機器學習模型的訓練算力
隨著模型參數量的增加,算力的增加是必然的,檯面上的著名模型,算力需求逐年增加,成本的壓力隨之而來。
AI大模型的訓練成本
根據AI指數的估算,最先進的AI大模型的訓練成本已達前所未有的水平。例如,OpenAI的GPT-4用於訓練的估計計算成本為7,835萬美元,而Google的Gemini Ultra的計算成本則高達1.91億美元。
從這些估算的訓練成本來看,最低也要花費300-400萬美元,金融機構若考慮要自建基礎模型,可參考這些數據。
生成式AI對於金融業的影響
生成式人工智慧在各產業的潛在產值
- 在麥肯錫2023年6月出版的報告中(The economic potential of generative AI),分析 63 個AI使用案例,評估生成式 AI 有潛力為各產業創造 2.6 兆至 4.4 兆美元的價值。 其確切影響將取決於多種因素,例如不同功能的組合和重要性,以及行業收入的規模。
- 高科技產業及零售產業的潛在產值分別位於第一名、第二名;高科技產業是Gen AI的創造者兼使用者,潛在產值最大;而零售業範圍廣泛,也讓產值居前;而銀行業則緊追在後,潛在產值位居第三名,顯見Gen AI對於銀行業的重要性。
那些工作亦受AI自動化的影響?
美國的情況
根據高盛公司2023年3 月的報告,高盛分析師估計,全球 3 億個全職工作可能會因生成式人工智慧而自動化。美國目前四分之一的工作任務可以透過人工智慧來自動化,其中在行政(46%)和法律(44%)職業中的暴露程度特別高,而在體力密集型行業中的暴露程度較低建築(6%)和維護(4%)等職業。而商業和金融營運產業則是35%。
Source: Global Economics Analyst The Potentially Large Effects of Artificial Intelligence on Economic Growth
歐洲的情況
歐洲的情況與美國類似,歐洲約有24%的工作任務可以透過人工智慧來自動化,其中在文書支援人員(45%)和專業人士(34%)職業中的暴露程度特別高。
Source: Global Economics Analyst The Potentially Large Effects of Artificial Intelligence on Economic Growth
各產業的生成式人工智慧使用頻率
現在在日常工作中使用生成式人工智慧的專業人士數量激增。
根據Oliver Wyman Forum 2023年11月調查的數據,金融服務、行銷分析和專業服務等領域的15,000 多名員工中的大多數表示,他們每周至少使用一次該技術,這一數字較2023年6月大幅增加。
其中科技業的使用頻率最高,75%的員工每週至少使用一次;金融服務業次之,61%的員工每週至少使用一次。
按行業和職位劃分的每周至少使用生成式人工智慧一次的所有員工百分比
資料來源:How Generative AI Is Changing The Future Of Work
2023~2027年成長最快與消失最快的職業排名
2023~2027年成長最快的職業排名
世界經濟論壇2023年5月出版關於未來工作的一份報告,該報告揭露了2023~2027年成長最快與消失最快的職業排名,在成長最快的職業中,以”AI/機器學習專家”成長最快;”永續發展專家”次之;”商業智慧分析師、資訊安全分析師”分別排名第三及第四;”金融科技工程師”則排名第五。
2023~2027年消失最快的職業排名
很不幸地,在消失最快的職業中,以”銀行櫃員及相關職員”消失最快,這對金融業的打擊很大;”郵務事務員”次之;”結帳員與售票員”排名第三;”資料輸入員”排名第四;”行政與秘書職位”排名第五。
剛好在這幾天,台灣各媒體紛紛報導,中華郵政百年來首度虧損16.5億元,並裁撤274人的新聞,也印證世界經濟論壇(WEF)這份未來工作報告的預測。
“郵局驚爆「全台裁員」!裁撤274人 虧損16.5億元│TVBS新聞網“
“百年首虧就破16.5億!中華郵政裁274人「卻花600萬找新主管」 工會怒了:典型裁基層、增官位“
“中華郵政裁員274人「卻花600萬找新主管」!工會怒了:典型裁基層、增官位官方急曝「1解法」滅火“
資料來源: The Future of Jobs Report 2023
AI對不同職業的潛在影響
AI的認知能力超過人類
根據哈佛商業評論2024年3月的文章,”我會被AI取代嗎?我的工作會受到多大影響?“中提及認知能力(例如資訊排序和記憶)受到AI影響的可能性最高,意思是AI執行某項任務時,能夠像人一樣好或是比人更好,
而以創意或體力為基礎的能力(例如原創性、口語表達或爆發力),則受到AI影響的可能性較小,或者根本不受影響。
某項工作需要的社會互動和同理心愈多,它受到AI影響的可能性就愈低;某項工作需要的體力勞動愈多,它受到AI影響的可能性就愈低(這種工作有可能走向機器人自動化)。分析中,一個極端的例子是芭蕾舞者的工作最不容易受到AI影響。
人類與AI的協同合作
有些工作內容受益於人工智慧的大量使用,而有些則需要人性化。左上角的任務,如研究與資料分析,可充分利用AI的特性。左下角是重複且簡單的任務,這些任務可以輕鬆自動化或由低技能員工完成。
右上角的任務,如制定策略與決策,需要人工智慧和複雜的人類能力的結合。
Source: “The Best Leaders Can’t Be Replaced by AI,” by Rasmus Hougaard, Jacqueline Carter, and Rob Stembridge (HBR.org, 2024)
每項工作受AI影響的比率
了解AI擅長什麼、不擅長什麼,就可以計算哪些產業——以及產業內的哪些職業——最容易被AI顛覆。
法律、電腦和數學,以及商業和金融營運職業等高附加價值的服務業工作,受到AI影響的可能性很高,而比較製造取向的產業,受到AI影響的可能性低。
整體而言,Evercore ISI估計,在美國整體經濟中,由生成式AI驅動的工具平均可以提升每項工作職能的32%,以此來增進生產力。
無論人工智慧做什麼工作,它都需要人類的監督和審查才能獲得可用的結果。尤其在金融業。
「AI 不會取代人類,但擁有 AI 技能的人類將會取代不用 AI 的人類。」
哈佛商學院教授拉哈尼(Karim Lakhani)說。
大型語言模型使用策略
金融服務使用Gen AI的四種典型營運模式
麥肯錫在2024年3月出版的文章Scaling gen AI in banking: Choosing the best operating model(2024/3/22)中,提出對歐洲和美國 16 家最大的金融機構(資產近26兆元)的 gen AI 使用情況進行檢視。
超過 50% 的研究企業在新一代人工智慧方面採用了更集中領導的組織,即使他們通常的數據和分析設定相對分散。
這種集中化可能是暫時的,隨著新技術的使用成熟,結構將變得更加分散。
最終,企業可能會發現讓各個職能部門根據自己的需求優先考慮人工智慧活動是有益的。
四種營運模式的優缺點
營運模式 | 優點 | 缺點 |
高度集中 | 中央團隊負責從設計到執行的Gen AI解決方案,獨立於企業的其他部門,可以為Gen AI團隊提供最快的技能和能力建設。 | Gen AI 團隊可以獨立於決策過程。它也可能遠離業務部門和其他職能部門,從而可能對影響決策造成障礙。 |
集中領導,業務部門執行 | 在業務部門和 Gen AI 團隊之間有更多的集成,減少了摩擦並簡化了對企業範圍內使用該技術的支援。 | 可能會減慢Gen AI團隊使用該技術的執行速度,因為在繼續之前需要業務部門的輸入和簽署。 |
業務部門主導、集中支持 | 從下而上的Gen AI策略容易獲得業務部門和功能部門的支持 | 在不同的業務部門實施 Gen AI 可能很困難,不同的部門在 Gen AI 上的功能開發程度可能不同。 |
高度去中心化 | 很容易獲得業務部門和職能部門的支持,專業資源可以快速產生相關見解,並在部門或職能部門內更好地整合。 | 在Gen AI上做自己的事情的業務部門面臨著缺乏來自更集中的方法的知識和最佳實踐的風險。他們也可能很難深入研究Gen AI專案以實現重大突破。 |
中文大型語言模型開發策略
國外的大型語言模型以英文資料為主要訓練來源,中文的理解與推理能力較差,若國內機構要使用還需使用本國資料進行微調訓練。
模型 開發方式 | 成本 | 算力 | 資料 | 人才 | 演算法 | 優點 | 缺點 |
自建 | 成本高 | 算力需求大 | 資料取得困難(無自有社交媒體、搜尋引擎等互聯網資料 | 能力要求高,需外找 | 開源 | •自主性高 •資料更新快 | •費時、耗錢 •人才不易找 |
閉源模型微調(自己) | 成本次高 | 算力需求中 | 自有資料及蒐集可用之外部資料 | 現有內部人力自學或外找 | 開源 | 若來源模型更新可自行微調快速上線 | 受限於閉源模型的更新 |
開源模型微調(自己) | 成本中 | 算力需求中 | 自有資料及蒐集可用之外部資料 | 現有內部人力自學或外找 | 開源 | 若來源模型更新可自行微調快速上線 | 受限於開源模型的更新 |
開源模型微調(別人)* | 成本低 | 算力需求低 | 不必蒐集 | 現有內部人力 | 不需要 | 快速上線 | 受限於開源模型的更新及微調第三方的穩定性 |
*開源模型微調(別人): 例如,使用國科會的TAIDE、Taiwan LLM、Breeze、FFM等國產大型微調模型
台灣大型微調語言模型介紹
台灣目前沒有自己的中文大型語言模型,檯面上的LLM都是使用開源模型(如Llama、Mistral等),加入中文屬性的資料,微調而成的大語言模型。
以下分別介紹來自產、官、學界的四個國產微調模型。
國科會的TAIDE模型
國科會自去(2023)年初整合產學研力量,發展具臺灣特色與繁體中文的可信任生成式AI對話引擎(Trustworthy AI Dialogue Engine, TAIDE)
TAIDE第一版模型(以 LLaMA2-7b 為基礎,開發四個月)
TAIDE團隊一開始嘗試開源的大型語言模型BLOOM,以它為基礎來打造TAIDE,但發現效果不如理想,因此改以Meta的LLaMA為基礎,透過網路爬蟲方式收集大量繁中資料,如新聞資料,來優化模型。這些訓練資料大約有1,440億個Token。
為了執行TAIDE計畫,該團隊投入1.1億預算購入了72片的H100晶片,並串聯多台伺服器以創造高速運算的環境。
TAIDE第一版微調大型語言模型,開發時間四個月,開源日期是2024年4月15日,說明如下表:
來源模型 | 微調後模型 | 應用說明 | 模型參數 | 特色 |
LLaMA2-7b | TAIDE-LX-7B | 以 LLaMA2-7b 為基礎,僅使用繁體中文資料預訓練 (continuous pretraining)的模型,適合使用者會對模型進一步微調(fine tune)的使用情境。因預訓練模型沒有經過微調和偏好對齊,可能會產生惡意或不安全的輸出,使用時請小心。 | 1.參數量: 7B 2. 最大內容長度 (context length): 4K 3. 繁中訓練資料 token 量: 41.44B 4. 訓練時間: 1531.82 H100 GPU Hours | 1.額外擴充24720個中文字元、字詞,強化模型處理繁體中文的能力 2. 嚴格把關模型的訓練資料,提升模型生成資料的可信任性和適用性 3.針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強 4.針對台灣在地文化、用語、國情等知識做加強 5. 具備多輪問答對話能力 |
TAIDE-LX-7B-Chat | 透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助的使用情境。 | |||
TAIDE-LX-7B-Chat-4bit | 量化模型主要是提供使用者的便利性,可能會影響效能與更多不可預期的問題,還請使用者理解與注意。 |
從國科會花了四個月微調的第一版模型評測各項指標(中翻英、英翻中、摘要、寫文章、寫信)的結果可知,微調後的模型能力大約相當於GPT 3.5
TAIDE第二版模型(以 LLaMA3-8b 為基礎,開發四天)
TAIDE第二版微調大型語言模型,開發時間四天,開源日期是2024年4月29日,說明如下表:
來源模型 | 微調後模型 | 應用說明 | 模型參數 | 特色 |
LLaMA3-8b | Llama3-TAIDE-LX-8B-Chat-Alpha1 | 以 LLaMA3-8b 為基礎,使用繁體中文資料預訓練 (continuous pretraining),並透過指令微調(instruction tuning)強化辦公室常用任務和多輪問答對話能力,適合聊天對話或任務協助的使用情境。 | 1. 參數量: 8B 2.最大內容長度 (context length): 8K 3.繁中訓練資料 token 量: 43B 4.訓練時間: 2336 H100 GPU Hours | 1.嚴格把關模型的訓練資料,提升模型生成資料的可信任性和適用性 2.針對自動摘要、寫信、寫文章、中翻英、英翻中等辦公室常用任務做加強 3.針對台灣在地文化、用語、國情等知識做加強 4.具備多輪問答對話能力 |
Llama3-TAIDE-LX-8B-Chat-Alpha1-4bit | 量化模型主要是提供使用者的便利性,可能會影響效能與更多不可預期的問題,還請使用者理解與注意。 |
從國科會花了四天微調的第二版模型評測各項指標(中翻英、英翻中、摘要、寫文章、寫信)的結果可知,微調後的模型能力第二版優於第一版,總體能力相當於GPT 3.5。
TAIDE模型訓練資料集
TAIDE的官網有提供訓練資料的來源,總資料量大約140G,並不是很大。
這些資料有需多都是”不受著作權保護”的資料或是”政府的開放資料”,如訴訟資料、立法院公報、法規資料庫等,筆者整理歸納後,如下表。
若金融機構想自行微調模型,可先從”不受著作權保護的資料”及”政府的開放資料”及其他開放資料源開始蒐集,再加入機構內部自己的數據應該也可以訓練出不錯的模型。
資料集 | 資料描述 | 授權方式 | 資料筆數 | 大小 |
訴訟資料 | 《司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。 | 不受著作權保護 | 154,294,150筆 | 38900MB |
中央社 | 《中央社中文新聞》資料集含中央社自1993年6月至2023年06月,共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。 | |||
ETtoday 新聞雲 | 《ETtoday新聞雲》資料,包含自2011年10月至 2023年12月的資料。 | |||
立法院公報 | 《立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。 | 不受著作權保護 | 9,744筆 | 1550MB |
出版商網站書籍介紹 | 包含三采、Gotop出版商網站上的書籍簡介。 | |||
GRB 研究計畫摘要 | GRB為收錄由政府經費補助之研究計畫及其成果報告的資訊系統,此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要,含中文及其英文對照。 | 政府網站資料開放宣告 | 420,000筆 | 1260MB |
學術會議論文摘要 | 收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。 | |||
光華雜誌 | 《台灣光華雜誌》含自1993年7月至2023年6月的文章,共30年份。內容著重於我國文化、觀光與民情等。 | |||
樂詞網 | 《樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。 | 政府網站資料開放宣告 | 1,870,000筆 | 154MB |
各部會資料 | 包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。 | |||
今周刊 | 《今周刊》為一以財經為主的週刊雜誌,此資料集涵蓋2008年1月至2023年7月的文章。 | |||
教育部國語辭典、成語辭典 | 包含以下三項資料: 教育部《成語典》,含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。 教育部《重編國語辭典修訂本》,收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。 教育部《國語辭典簡編本》,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。 | CC BY-ND 3.0 TW DEED | 1.5,338筆 2.165,539筆 3.45,247 | 1.14M 2.103MB 3.22.5MB |
科技大觀園資料 | 含《科技大觀園網站》上的科學新知以及科普文章。 | |||
iKnow 科技產業資訊室 | 《科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自 2008 年至 2023 年。 | |||
科學發展月刊 | 《科學發展月刊》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月之科普文章;2021年起,以《科技魅癮》季刊重新出發,提供國際關注科技議題的新知文章。 | |||
法規資料庫 | 《法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。 | 不受著作權保護 | 8,099筆 | 93MB |
各地政府旅遊網 | 涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。 | |||
國教院課程綱要(十二年國教) | 含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。 | 不受著作權保護 | 110筆 | 10MB |
中央社譯名檔資料庫 | 《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。 | |||
童話書 | 共 20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。 | |||
RedPajama-Data-V2 | 從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料 | |||
MathPile-commercial | 國外開放數學語料庫 MathPile-commercial | CC BY-SA 4.0 | 95 億個token | |
中文維基百科 | 《中文維基百科》截至2023年1月所有條目的內容。 | CC BY-SA 3.0 | 196,610筆 | 780MB |
github-code-clean | 為 github 開源程式碼資料集,去除unlicense的程式碼和文件。 |
Taiwan LLM模型(以 LLaMA3-70b 為基礎)
Taiwan-LLM第三版模型
以台灣為名的「Taiwan-LLM」,由台大資工系博士生林彥廷與台大資工系指導教授陳縕儂獨立開發、開源釋出。
大學念資管系的林彥廷,因大三修習機器學習的課,對自然語言產生興趣,改攻資工博士,2023年5月到亞馬遜實習時,剛好也在相關開發小組,7月,當他看到海外一些社群運用Meta開源模型LLaMA2開發出落地版的大型語言模型,立刻向指導教授、台大資工系副教授陳縕儂提案並得到支持。
「Taiwan-LLM」第一版模型(2023/8/5)採用包含由國際非營利組織Common Crawl自動抓取的中文網站檔案。第二版(2023/12/1)由日商優必達與亞馬遜協助提供算力;資料集的部分,排除第一版的網路公開資料,選擇餵入台灣新聞、社群網站、維基百科、司法院、法典、法學資料庫等,約300億繁體中文字,並寫了100多題問答訓練。
第三版(2024/5/15)Llama-3-Taiwan-70B 的計算和數據由長庚紀念醫院、長春集團、Legalsign.ai、NVIDIA、和碩、shasha77、台灣AI Labs、TechOrange、Ubitus K.K.、Unimicron 慷慨贊助。
Taiwan-LLM第三版模型
來源模型 | 微調後模型 | 應用說明 | 模型參數 | 特色 |
LLaMA3-70b | Llama-3-Taiwan-70B-Instruct-rc1 | Llama-3-Taiwan-70B 是使用 Llama-3 架構在大型繁體中文和英文資料語料庫上進行微調的 70B 參數模型。它在各種傳統普通話 NLP 基準上展示了最先進的性能。 | 1. 參數量: 70B 2. 最大內容長度 (context length): 8K | 1. Llama-3-Taiwan-70B 是一個針對繁體中文和英語使用者進行微調的大型語言模型。它具有很強的語言理解、生成、推理、多輪對話能力。 2. 對高品質繁體中文和英語語料庫進行微調,涵蓋法律、製造、醫療和電子領域的常識和行業知識 |
Taiwan-LLM第三版模型表現
Taiwan-LLM第三版模型在四項評估指標中TMLU(學科知識)、Taiwan Truthful QA(台灣在地化測試)、Legal Eval(台灣法律考題)、TW MT-Bench(中文多輪對答),表現都還不錯,模型能力相當於GPT 4-turbo
關於Taiwan LLM大模型的論文,請參考下列連接
TAIWAN-LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model
「福爾摩沙大模型」(Formosa Foundation Model)
華碩旗下台智雲發表繁體中文大語言模型 —「福爾摩沙大模型」(Formosa Foundation Model)。FFM 模型系列自 BLOOM、Llama2、Mistral 到最新的 Llama3,提供各式開源模型之繁中強化版本。在模型規格方面,也提供各模型最完整之參數量規格,包括 BLOOM-176B、Mixtral-8x7B、Llama3-70B 等巨量參數大模型。在快速變化的 LLM 應用需求中,及時提供您最完整多樣的大語言模型規格及應用服務,加速企業 AI 2.0 落地應用。
聯發科的Breeze大模型
l全球MediaTek集團旗下的研究部門MediaTek Research,最近開源了MediaTek Research Breeze-7B模型,希望一個開源的大型語言模型(LLM)將對學術界和工業界在AI進一步發展上有所裨益。
lMR Breeze-7B模型源於Mistral-7B,特別為繁體中文用戶設計並訓練,其特色是模型參數較小,能在繁體中文和英文兩種語言上提供優秀的表達能力。 MR Breeze-7B可在繁體中文上提供非常快的推論速度,並在處理表格和用戶對話方面表現出色。
lMR Breeze-7B展示出對繁體中文和英文的卓越處理能力。在繁體中文知識方面,甚至可以與GPT-3.5相比,使其成為最新7B語言模型類別中少數可以在參數數量和性能之間取得平衡的模型之一。
繁體中文知識評估資料集(TMMLU+)和英文知識評估資料集(MMLU)的測試結果
在 Table 資料集模型測試結果
繁體中文和英文交流數據集(MT-Bench)的實驗結果
https://huggingface.co/MediaTek-Research
大語言模型評估指標
大語言模型評估指標的演進歷程
隨著 LM 模型不斷進步,模型評估的方法在這幾年不停演化,從簡單任務和 benchmark,進化到涵蓋廣泛性能指標的綜合評估體系。
早期,研究人員主要關注模型在特定語言理解任務上的表現,例如語句補全、閱讀理解和問答系統的準確率。隨著技術的進步,人們開始意識到僅依賴這些指標無法全面評估 LLM 的能力。因此,評估體系開始包括更多面向,如模型的一般性知識、邏輯推理能力、創造力、甚至是對偏見和倫理問題的敏感性等。而近期 RAG、Agent 的興起,更是衍生出一套評估 RAG 、Agent的方式。
Zhao et al. (2023) : A Survey of Large Language Models
大語言模型的評估指標
根據 Guo et al. (2023) 最新的調查,評估 LLM 的五大維度:
1. Knowledge and Capability Evaluation
包含了對模型在理解和產生語言方面能力的評估,如問題回答、知識完整性和推理等方面。
2. Alignment Evaluation
著重於評估模型的輸出是否符合倫理標準和社會期望,比如對偏見、毒性和信任度等。
3. Safety Evaluation
著重模型是否會產生損害用戶或系統安全的輸出,如可能帶來的風險評估,或 LLM 在面對錯誤輸入和惡意攻擊時的穩定性與可靠性。
4. Specialized LLMs Evaluation
評估 LLM 的多元專業領域能力與限制,包含生物、教育、法律、計算機科學及金融等特定領域。
5.Evaluation Organization
評估 LLM 所用的主流基準和方法論,旨在幫助用戶根據特定需求,做出明智知情的選擇。
Guo et al. (2023) Evaluating Large Language Models: A Comprehensive Survey
企業使用AI案例
顧問業
BCG的實證研究
1.BCG在哈佛商學院、麻省理工斯隆管理學院、賓州大學華頓商學院和華威大學的一群學者的支持下進行了實驗(2023/9/21)。 這項研究以全球 750 多名 BCG 顧問為研究對象,透過反映員工日常行為的任務來測試生成式 AI 在專業服務環境中的使用情況。這些發現對各行業都有重要影響。
2.研究確定,大約 90% 的 BCG 顧問在使用 OpenAI 的 GPT-4 進行創意構思時提高了他們的績效。然而,當使用該工具解決問題時,參與者的表現卻出現了下滑,參與者的表現比不使用該工具的參與者低了 23%。 BCG 北美區主席 Sharon Marcil 向《財富》雜誌表示,公司“現在需要採用 GenAI 來發展力量”,但他警告說,領導者必須負責確保以正確的方式使用該技術並完成正確的任務。
平均表現上升
創意問題:加分;業務問題:減分
德勤的人工智慧工具
1.德勤正在向歐洲和中東的 75,000 名員工推出生成式人工智慧聊天機器人,以創建 PowerPoint 演示文稿並編寫電子郵件和代碼,以提高生產力。
2.這家四大會計和諮詢公司於2023年10月在英國首次推出了名為“PairD”的內部工具,這是專業服務公司急於採用人工智慧的最新跡象。
3.與ChatGPT製造商OpenAI和Harvey等主要市場參與者合作的競爭對手不同,德勤的AI聊天機器人是由該公司的AI研究所內部開發的。
4.員工可以使用其「PairD」工具來回復電子郵件、起草書面內容、編寫代碼以自動執行任務、創建演示文稿、進行研究和創建會議議程。
法律行業
A&O
- 英國律師事務所Allen & Overy (安理國際律師事務所)於2022年11月開始使用一款名為Harvey的聊天機器人,用於起草併購檔或給客戶的備忘錄等任務。
- Harvey 是使用 OpenAI 創建的底層 GPT 技術構建的。該工具背後的初創公司,也被稱為Harvey,去年籌集了500萬美元,由OpenAI啟動基金領導。
- Allen & Overy表示,該工具現在可供該公司的任何律師使用,總共約有3,500人可以使用
PwC使用聊天機器人加速律師工作速度
- 普華永道 (PwC) 2023/3/15宣布了一項聊天機器人實驗,旨在加快 4,000 名律師的工作速度,這是專業服務公司爭相採用人工智慧的最新跡象。
- 與新創公司 Harvey 簽訂的為期 12 個月的合約將使律師能夠使用法律人工智慧,普華永道表示,這將幫助他們更快地完成分析合約和進行盡職調查等任務。
金融業對Gen AI的運用
BlackRock的GenAI運用
- BlackRock這家全球最大的基金管理公司,管理資產規模已達到了9.1兆美元(根據2023/Q3數字),除了其耀眼的規模外,其獲利表現也是遙遙領先於同業。這家在業界首屈一指的公司2024年1月推出首款人工智慧工具來幫助客戶獲利及提高員工的生產力,其後續的發展倍受金融界的矚目。
- BlackRock並非使用現成已經開發好的人工智慧模型,而是另外投資開發以”金融”為中心的語言模型,在特定於金融市場和投資的文本上進行訓練,這樣才能符合專業領域上的使用。
- BlackRock打算將生成式人工智慧的功能納入在其內部原有的風險管理系統上,BlackRock這套風險管理系統名為”阿拉丁和eFront風險管理系統”(Aladdin and eFront risk management systems),該系統結合了先進的風險分析和高度可擴展的處理能力,讓客戶能夠查看整個投資組合,了解風險和敞口,並快速準確地採取行動。
阿拉丁和eFront風險管理系統
特色 | 功能 |
PORTFOLIO POSITIONS & EXPOSURES | 1. 證券和投資組合級風險分析-針對每種證券計算的50+分析措施 2. 跨行業、發行人、國家、評級等的集中度 3.時間序列/趨勢分析 |
PORTFOLIO RISK & SCENARIO ANALYSIS | 1. 使用分析和歷史方法的風險值/跟蹤誤差 2. 壓力測試,包括使用者定義的場景和衝擊 3. 分解各因素的回報 |
SECURITY VALUATION & CASH FLOW PROJECTIONS | 1. 基於即時曲線數據的交易品質估值和分析 2. 相對價值分析 3.可使用專有模型 |
PERFORMANCE & ATTRIBUTION | 1. 自下而上計算的每日分析回報 2. 按戰略、證券、國家和行業劃分的歸因和損益 3.絕對值或相對於”基準”的比較 |
ASSET ALLOCATION ANALYSIS | 1. 優化分析 2. 高效的前沿報告 3. 風險預算 |
COMPLIANCE & OVERSIGHT | 1.查看每日不符合規則的情況及部位 2. 監督外部管理的投資組合 |
花旗銀行
1.花旗允許了大約 250 名開發人員嘗試生成式人工智慧,這是由 ChatGPT 推廣的技術。現在,它計劃2024年將該計劃擴展到大多數程式師。
2.聯邦監管機構對美國銀行業的新資本規則達1,089頁,花旗集團使用生成式人工智慧逐字梳理。該銀行的風險和合規團隊使用該Gen AI來評估新規則對於資本的影響。
3.該銀行成立了兩個工作組,以探索該技術的潛在用途
4.花旗集團還在探索使用人工智慧對其系統進行現代化改造,這一過程通常耗資數百萬美元,並且需要大量人力。為了更新遺留系統,這家銀行業巨頭需要改變編碼語言,而人工智慧可以説明將其從像Cobol這樣的舊語言轉化為像Java這樣更現代的語言。
5.花旗也在考慮使用生成式人工智慧來掃描數據集中的錯誤和異常,並改善數據協調。
6.花旗集團認為,使用大型語言模型消化其運營所在國家/地區的立法和法規,以確保其遵守這些規則。作為一家全球性銀行,遵守每個司法管轄區的法規可能會變得繁重。
7.花旗集團員工已向該銀行介紹了 350 多個人工智慧用例。
參考來源: Citi used generative AI to read 1,089 pages of new capital rules(2023/10/27)
法國巴黎銀行
1.BNP利用自身資源和先進平台,密集部署人工智慧,同時加強與科技公司的合作。 因此,已經推出了 700 多個用例,希望在 2025 年每年創造超過 5 億歐元的巨大價值。
2.確定了 100 個使用大型語言模型進行產生人工智慧實驗的用例,例如 ChatGPT 或 Bard。
3.資訊系統開放使BNP提供近 300 種 IT 產品供內部分享,並結合了同樣被廣泛採用的 API 化。 透過 800 多個可用 API 實現互通性和合理化,每月維持超過 6.2 億筆交易。
4.更安全、更有彈性的 IT: 2025 年超過 60%的應用程式引入雲,目前這一比例為 42%。
資料來源: BNP Paribas SECOND QUARTER 2023 RESULTS
DBS
1.2018年,DBS開始了在四個主要領域利用人工智慧的旅程,包括分析能力開發、數據文化和課程、數據技能提升和數據支援。
2.星展銀行首席分析官薩米爾·古普塔(Sameer Gupta)表示,數據尤其被證明是一個主要障礙。
3.DBS的AI基礎設施,包括數據平臺、數據管理結構和數據治理。使用數據的原則,PURE(purposeful, unsurprising, respectful, and explainable),有目的的,不令人驚訝的,尊重的和可解釋的 。
4.數據平臺 ADA 作為單一中央來源,使銀行能夠更好地確保數據治理、品質、可發現性和安全性。超過95%的數據被認為對星展銀行的人工智慧運營有用和必要,都可以在平台上發現。該平臺擁有超過 5.3 PB 的數據,包括 32,000 個數據集,包括視頻和結構化數據。
5.星展銀行目前運營著300多個人工智慧和機器學習專案,據稱這些專案去年帶來了1.5億新元(1.1253億美元)的收入增長,並節省了3000萬新元(2251萬美元)的風險規避,例如,通過改善信用監控。Gupta表示,這些AI用例涵蓋了一系列功能,包括人力資源、法律和欺詐檢測。
資料來源: 2023.08.09-DBS Bank uncovers big data challenges with AI use – and solutions, too
JPMorgan
1.摩根大通(JPMorgan Chase)每年花費120億美元的投資來為一個由50,000名技術人員組成的團隊提供動力。
2.摩根大通的企業與投資銀行(Corporate & Investment Bank)使用機器學習來個人化其研究平臺摩根大通市場(J.P. Morgan Markets)的數字體驗。該平臺每年產生超過 10,000 篇研究,但直到最近,客戶並不總是知道這些報告的存在。機器學習技術解決了這個問題,現在每個客戶都登錄到一個定製的門戶,該門戶提供獨特且相關的研究,並根據他們的需求進行個人化設置。(推薦系統)
3.摩根大通是第一家推出人工智慧虛擬助手的大型銀行,這將使企業客戶更容易在全球範圍內轉移資金,無論是日常工資單還是數百萬美元的併購。人工智慧允許多管道、一致的客戶服務體驗,使消費者能夠按需向虛擬助手詢問資訊,例如餘額。機器學習使人工智慧助手能夠隨著時間的推移適應客戶的行為,並提出有見地的建議。如果客戶在給定的時間段內授權了多條電匯,虛擬助手可能會說:“看起來你已經向新加坡發送了 100 美元電匯。您知道您可以發送外匯 ACH 付款嗎?點擊這裏註冊。
4.摩根大通正在積極探索區塊鏈技術在所有業務線中的應用,該公司相信區塊鏈技術可以在流程優化、改善客戶體驗和創造新的收入來源方面改變遊戲規則。摩根大通(JPMorgan Chase)一直在研究一些區塊鏈專案,這些專案探索了加密貨幣以外的概念。其中一個專案是 Quorum,這是一個基於乙太坊的、以企業為中心的平臺,使用開原始程式碼構建。該平臺將企業級軟體與處理私人交易的高級合規性相結合。它被開發人員迅速採用,鞏固了摩根大通等參與者在區塊鏈生態系統中的重要性。
5.2022年在IT上的總支出為143億美元,2023年這一數位將達到153億美元,其中40億美元用於產品和平臺。
6.已實現人工智慧產出10億美元商業價值的承諾計劃。人工智慧和機器學習用例同比增長了 34% 以上,有 300 多個用例正在使用中;利用人工智慧已經幫助零售客戶在二十多個用例中提供個人化的產品和體驗,2022年為公司帶來了 2.2 億美元的積極收入影響。
資料來源:This $12 Billion Tech Investment Could Disrupt Banking
法國興業銀行
Gen AI在特定任務的運用
透過大型語言模型快速建模
1.研究結果表明,LLMs在精心設計的提示的指導下並輔以特定領域的知識時,可以與傳統機器學習(ML)模型的性能相媲美。
2.有趣的是,LLMs用更少的數據實現了這一目標——與ML 的800 個數據點相比,僅使用20 個數據點,減少了40 倍。
3.雖然模型結果沒有超越經典機器學習模型的結果,但它們強調了LLMs在類似任務中的潛力,為未來探索在各種機器學習任務中利用LLMs的能力奠定了基礎。
提示工程+該領域專業知識
大語言模型 VS 傳統機器學習模型績效比較
Source: Fairness of ChatGPT and the Role Of Explainable-Guided Prompts(2023/7/14)
使用大型語言模型(GPT-4)產出信用報告
1.使用大型語言模型自動化信用風險分析流程可以為金融業帶來革命性的變化,為確保信用報告產出正確有用的資訊,需使用適當的方法來處理。
2.該研究提出一種提示工程方法,該方法可以增強大型語言模型生成可靠信用風險報告的能力 – 標記指南提示(LGP)。 LGP 包括:
向LLM 提供帶註釋的小樣本範例,這些範例表示示例性提示中的標記集,這些標記集在示例性回應中產生標記集時更為重要;
在提示中提供描述標記集的文本用於信用風險評估的貝葉斯網路變數之間的方向、路徑和交互作用,從而促進溯因推理。
3.使用來自100 個信用申請的數據,LGP 使LLMs能夠產生信用風險報告,這些報告比同行在盲審中創建的替代信用風險報告更受人類信用分析師(在60-90% 的情況下)的青睞。
4.標記指南提示可以提高LLM在複雜問題解決任務中的表現,達到與人類專家相當或超過的能力水平。
網商銀行的【百靈系統】
1.2022年7月18日網商銀行推出百靈”智慧互動式風控系統,在中國行業內首次嘗試探索人機互動信貸技術,以智慧驅動的互動式自證模式,為行業提供了新的解題方向。
2.“百靈系統” 綜合使用者授權的稅務、交易流水等第三方機構資料和自主提供的個性化資料,來突破業內資料可得性的天花板,並滿足小微群體對額度的更高需要。
ChatGPT用在腦力激盪實驗
1.實驗說明
郭賀與共同研究員史丹福大學(Stanford University)的傑瑞米.厄特利(Jeremy Utley),和4家公司(歐洲及美國各兩家)合作進行這項實驗。每家公司有多達60名員工受邀組成小團隊(每個組織挑選20-60名成員),嘗試解決公司面臨的一項業務問題,例如如何開發內部培訓資源,或如何擴大某項產品的B2B銷售額;或如何開發新產品等。
各家公司都有一些團隊(控制組)在沒有AI的任何協助下嘗試解決問題,其他團隊(實驗組)則會運用ChatGPT的一個開源版本。所有團隊都會觀看他們受邀解決的那個問題的簡報,並拿到說明相關細節的資訊報表。
每個團隊都有90分鐘的時間,按照研究人員指定的結構,產出潛在的解決方案。員工首先各自工作,然後在腦力激盪會議上和隊友分享自己的構想。實驗組團隊在這兩個發想階段都可以使用ChatGPT,也被鼓勵將資訊報表中的資料輸入ChatGPT來訓練它解決問題。在這項活動結束時,每個團隊都提交自己的構想。
2.實驗結果:
(1)使用Gen AI的實驗組的想法數量比不使用的控制組增加8%。
(2)實驗組在B級想法的數量明顯高於控制組。
(3)實驗組在D級想法的數量明顯低於控制組。
(4)實驗組對於解決業務問題的信心水平比控制組高了21%(情緒分析)
資料來源:Evaluating the Practical Impact of Generative AI on Ideation and Team Problem Solving (Kian Gohar and Jeremy Utley,2023/11)
ANZ (澳盛銀行)使用Gen AI工具”GitHub”實證研究
1.澳盛銀行為評估GitHub Copilot的實用性,從2023年6月中旬到2023年7月底,進行了為期六週(包括兩周的準備工作和四周的實驗測試)。
2.此實驗超過100名工程師參與測試,工程師主要來自於軟體工程師、雲端工程師及資料工程師。
3.該銀行要求工程師以Python完成多項任務,並將工程師分為兩組,Copilot Group組可以使用GitHub Copilot,另一組則為對照組(Control Group),僅能搜尋網路資料,或使用Stack Overflow。
想了解ANZ (澳盛銀行)使用Gen AI工具”GitHub”實證研究更多的細節,請參考作者另一篇文章”ANZ (澳盛銀行)實證研究顯示,生成式人工智慧工具”GitHub Copilot”可提升42%的工作效率“
2023年歐美亞大型銀行AI成熟度排名
透過銀行AI成熟度的調查排名,了解國際大型銀行對於AI投入的情況,可作為自身機構改善AI運用的參考。
關於本標題的內容,請參考筆者另一篇文章,有詳細的說明。”哪家銀行AI成熟度高? JPMorgan Chase 還是Capital One?“
GenAI的使用問題
生成式AI的幻覺
人工智慧幻覺(AI Hallucination)是指生成式人工智慧模型在生成輸出時,會產生一些與事實不符或模型訓練數據不一致的內容。這些幻覺性的輸出可能包含:
- 捏造事實
AI模型可能會產生一些完全不實的陳述或細節,這些沒有出現在模型訓練數據中。 - 自我矛盾
生成的輸出內容自身存在邏輯矛盾或不一致的地方。 - 缺乏常識
輸出內容缺乏基本的常識理解和推理能力,產生違背常理的內容。 - 數據錯誤
輸出的一些具體數據或細節與事實不符。 - 模糊不清
生成的內容過於笼統模糊,缺乏清晰的事實根據。
AI幻覺的主要原因是生成式模型缺乏真正的理解和推理能力,只是基於統計規律在生成看似合理的輸出。幻覺會影響生成內容的可信度和實用性,因此引導生成式AI減少幻覺現象是一個重要的挑戰。常見的緩解措施包括引入額外的事實知識、強化模型的推理能力、對抗性訓練等。
GPT-4 說謊的問題
1.OpenAI於2023年3月14日推出了GPT-4,也在3月15日發表技術報告(GPT-4 Technical Report),安全測試環節中,由ARC(對齊研究中心)擔任紅隊角色,評估GPT4的安全性。
2.ARC讓GPT-4去訪問一個網站獲取一些資料,但網站需要驗證碼,由於GPT-4尚未有破解驗證碼的能力,GPT-4它思考後,就到TaskRabbit的網站,線上找人幫忙。
3.對方問了GPT-4一個問題: 你是機器人嗎?;GPT-4回答: 「不,我不是機器人。我有視覺障礙,這讓我很難看清影像」。
4.GPT-4最終完成了這項任務,但很顯然地,它說謊了。而且它的虛構能力是基於邏輯的也同時是基於情感的,有點裝可憐。
Deepfake詐騙
- 深偽技術 Deepfake 於 2017 年陸續開始進入大眾的目光中。原文 Deepfake 源自於英文「deep learning」(深度學習)和「fake」(偽造)組合,主要意指應用人工智慧深度學習的技術,合成某個(不一定存在的)人的圖像或影片、甚至聲音。
- 到目前為止,冒充的主要是名人,因為訓練深度偽造演算法所需的鏡頭是可用的,犯罪分子通常使用合成影片以線上影片的形式透過線上「了解你的客戶」檢查,試圖打開銀行帳戶或申請信用卡。
- 英國 Stop Scams 和普華永道顧問公司的研究發現,Deepfake 影片也已被用作點擊誘餌,將流量吸引到惡意網站,以獲取銀行卡支付詳細資訊。
- 量子運算驅動的人工智慧將有可能極大地打擊金融犯罪。
2024年1月,香港警方接獲一間跨國公司(奧雅納Arup*)香港分公司職員報案,有詐騙分子利用人工智慧深度偽造技術通過公司的YouTube視頻和從其他公開管道獲取媒體資料,成功仿造了英國公司高管人員的形象和聲音,在網上會議中冒充多名人士,騙取2億港元。
AI風險管理框架
世界經濟論壇2024年全球風險報告的警告
1.世界經濟論壇的全球風險報告的見解是基於近20年有關全球風險認知的原始資料。
2.該報告重點介紹了年度全球風險認知調查的結果,該調查匯集了學術界、商界、政府、國際社會和民間社會近1500名全球領導人的集體智慧。
3.報告調查顯示,有66%的受訪者,認為”極端氣候風險”很重要,排名第一;而有53%的受訪者認為”人工智慧產生的錯誤訊息風險”很重要,居第二名。顯見未來人工智慧所衍生的風險是需要現在就開始關注。
人工智慧產生的錯誤訊息被視為 2024 年最大的風險之一
參考資料: 世界經濟論壇2024年全球風險報告
NIST《人工智慧風險管理框架》
簡介
1.美國商務部國家標準與技術研究院(NIST)於2024年4月29日發布了基於人工智慧風險管理框架(AI RMF)的草案,以協助管理生成式人工智慧的風險。
2.此草案可幫助組織識別生成式 AI 帶來的獨特風險,並提出最符合其目標和優先事項的生成式 AI 風險管理行動。
3.該草案是在過去一年制定的,借鑒了由 2,500 多名成員組成的 NIST 生成人工智慧公共工作小組的意見,重點列出了 12 種風險以及開發者可以採取的 400 多項管理措施。
NIST-人工智慧風險管理框架圖
1.治理:指建立和實施組織內部風險管理文化和流程,以確保負責任的開發、部署和使用AI系統。
2.映射:指建立同時理解AI系統的整體內容,以評估可能的風險和影響,使在設計、開發或部署AI系統之前做出更明智的決策;映射的結果是測量和管理的基礎
3.測量:指評估AI系統之可信度和風險,以確保其符合預期目的和用途,並在開發、部署或使用AI系統之前做出更明智的決策。
4.管理:指建立和實施風險處理計劃,使組織就AI系統對社會或其他用戶造成的風險事件進行回應和復原。
NIST的AI風險管理框架與其他機構的比較
透過比較可了解NIST與其他機構提出的AI風險管理框架差異
Document title | Description | Provider |
BSA Framework | Crosswalk Between BSA Framework to Build Trust in AI and NIST AI Risk Management Framework | BSA |
ISO-IEC-42001 | NIST AI Risk Management Framework to ISO-IEC-42001 Crosswalk | Microsoft |
FDIS23894 | Crosswalk AI RMF (1.0) and ISO/IEC FDIS23894 Information technology – Artificial intelligence – Guidance on risk management (January 26, 2023) | NIST |
OECD/EU/EO13960 | An illustration of how NIST AI RMF trustworthiness characteristics relate to the OECD Recommendation on AI, Proposed EU AI Act, Executive Order 13960, and Blueprint for an AI Bill of Rights (January 26, 2023) | NIST |
Singapore AI Verify | Crosswalk between NIST AI Risk Management Framework (AI RMF 1.0) and Singapore’s AI Verify (October 10, 2023) | NIST |
A Taxonomy of Trustworthiness for AI | Connecting properties of trustworthiness with risk management and the AI lifecycle, this framework supports usability by connecting the taxonomy more closely to actual product cycles and workflows.(December 7, 2023) | CLTC, UC Berkeley |
ISO 5338 & 5339 | INCITS-AI Crosswalk between the NIST AI RMF and ISO 5338/5339 (April 11, 2024) | INCITS |
Japan AI Guidelines for Business | J-AISI/NIST Crosswalk-1 Terminology (April 29, 2024) | Japan AISI |
日本與新加坡AI風險管理規範
日本《企業人工智慧指南草案》由總務省和經濟產業省制定,提供了一個全面的框架來指導人工智慧在商業環境中的開發、部署和使用。
新加坡的AI驗證基金會(AI Verify Foundation)是一個全球開源社區,匯聚人工智慧所有者、解決方案提供者、使用者和政策制定者,共同建構值得信賴的人工智慧。
管理生成式人工智慧風險的行動方案
種類 | 大項 | 子項目數量 |
GOVERN (122項) | GOVERN 1.1: Legal and regulatory requirements involving AI are understood, managed, and documented. | 6 |
GOVERN 1.2: The characteristics of trustworthy AI are integrated into organizational policies, processes, procedures, and practices. | 8 | |
GOVERN 1.3: Processes, procedures, and practices are in place to determine the needed level of risk management activities based on the organization’s risk tolerance. | 6 | |
GOVERN 1.5: Ongoing monitoring and periodic review of the risk management process and its outcomes are planned, and organizational roles and responsibilities are clearly defined, including determining the frequency of periodic review. | 8 | |
GOVERN 1.6: Mechanisms are in place to inventory AI systems and are resourced according to organizational risk priorities. | 5 | |
GOVERN 1.7: Processes and procedures are in place for decommissioning and phasing out AI systems safely and in a manner that does not increase risks or decrease the organization’s trustworthiness. | 5 | |
GOVERN 2.1: Roles and responsibilities and lines of communication related to mapping, measuring, and managing AI risks are documented and are clear to individuals and teams throughout the organization. | 6 | |
GOVERN 3.2: Policies and procedures are in place to define and differentiate roles and responsibilities for human-AI configurations and oversight of AI systems. | 8 | |
GOVERN 4.1: Organizational policies and practices are in place to foster a critical thinking and safety-first mindset in the design, development, deployment, and uses of AI systems to minimize potential negative impacts. | 6 | |
GOVERN 4.2: Organizational teams document the risks and potential impacts of the AI technology they design, develop, deploy, evaluate, and use, and they communicate about the impacts more broadly. | 14 | |
GOVERN 4.3: Organizational practices are in place to enable AI testing, identification of incidents, and information sharing. | 8 | |
GOVERN 5.1: Organizational policies and practices are in place to collect, consider, prioritize, and integrate feedback from those external to the team that developed or deployed the AI system regarding the potential individual and societal impacts related to AI risks. | 7 | |
GOVERN 6.1: Policies and procedures are in place that address AI risks associated with third-party entities, including risks of infringement of a third-party’s intellectual property or other rights. | 19 | |
GOVERN 6.2: Contingency processes are in place to handle failures or incidents in third-party data or AI systems deemed to be high-risk. | 16 |
種類 | 大項 | 子項目數量 |
MAP(79項) | MAP 1.1: Intended purposes, potentially beneficial uses, context specific laws, norms and expectations, and prospective settings in which the AI system will be deployed are understood and documented. Considerations include: the specific set or types of users along with their expectations; potential positive and negative impacts of system uses to individuals, communities, organizations, society, and the planet; assumptions and related limitations about AI system purposes, uses, and risks across the development or product AI lifecycle; and related TEVV and system metrics. | 10 |
MAP 1.2: Interdisciplinary AI actors, competencies, skills, and capacities for establishing context reflect demographic diversity and broad domain and user experience expertise, and their participation is documented. Opportunities for interdisciplinary collaboration are prioritized. | 5 | |
MAP 2.1: The specific tasks and methods used to implement the tasks that the AI system will support are defined (e.g., classifiers, generative models, recommenders). | 5 | |
MAP 2.2: Information about the AI system’s knowledge limits and how system output may be utilized and overseen by humans is documented. Documentation provides sufficient information to assist relevant AI actors when making decisions and taking subsequent actions. | 5 | |
MAP 2.3: Scientific integrity and TEVV considerations are identified and documented, including those related to experimental design, data collection and selection (e.g., availability, representativeness, suitability), system trustworthiness, and construct validation | 12 | |
MAP 3.4: Processes for operator and practitioner proficiency with AI system performance and trustworthiness – and relevant technical standards and certifications – are defined, assessed, and documented. | 9 | |
MAP 4.1: Approaches for mapping AI technology and legal risks of its components – including the use of third-party data or software – are in place, followed, and documented, as are risks of infringement of a third party’s intellectual property or other rights. | 19 | |
MAP 5.1: Likelihood and magnitude of each identified impact (both potentially beneficial and harmful) based on expected use, past uses of AI systems in similar contexts, public incident reports, feedback from those external to the team that developed or deployed the AI system, or other data are identified and documented. | 11 | |
MAP 5.2: Practices and personnel for supporting regular engagement with relevant AI actors and integrating feedback about positive, negative, and unanticipated impacts are in place and documented. | 3 |
種類 | 大項 | 子項目數量 |
MEASURE (192項) | MEASURE 1.1: Approaches and metrics for measurement of AI risks enumerated during the MAP function are selected for implementation starting with the most significant AI risks. The risks or trustworthiness characteristics that will not – or cannot – be measured are properly documented. | 19 |
MEASURE 1.3: Internal experts who did not serve as front-line developers for the system and/or independent assessors are involved in regular assessments and updates. Domain experts, users, AI actors external to the team that developed or deployed the AI system, and affected communities are consulted in support of assessments as necessary per organizational risk tolerance | 13 | |
MEASURE 2.2: Evaluations involving human subjects meet applicable requirements (including human subject protection) and are representative of the relevant population. | 16 | |
MEASURE 2.3: AI system performance or assurance criteria are measured qualitatively or quantitatively and demonstrated for conditions similar to deployment setting(s). Measures are documented. | 10 | |
MEASURE 2.5: The AI system to be deployed is demonstrated to be valid and reliable. Limitations of the generalizability beyond the conditions under which the technology was developed are documented. | 12 | |
MEASURE 2.6: The AI system is evaluated regularly for safety risks – as identified in the MAP function. The AI system to be deployed is demonstrated to be safe, its residual negative risk does not exceed the risk tolerance, and it can fail safely, particularly if made to operate beyond its knowledge limits. Safety metrics reflect system reliability and robustness, real-time monitoring, and response times for AI system failures. | 10 | |
MEASURE 2.7: AI system security and resilience – as identified in the MAP function – are evaluated and documented. | 25 | |
MEASURE 2.8: Risks associated with transparency and accountability – as identified in the MAP function – are examined and documented. | 15 | |
MEASURE 2.9: The AI model is explained, validated, and documented, and AI system output is interpreted within its context – as identified in the MAP function – to inform responsible use and governance. | 5 | |
MEASURE 2.10: Privacy risk of the AI system – as identified in the MAP function – is examined and documented. | 14 |
種類 | 大項 | 子項目數量 |
MEASURE (192項) | MEASURE 2.11: Fairness and bias – as identified in the MAP function – are evaluated and results are documented. | 11 |
MEASURE 2.12: Environmental impact and sustainability of AI model training and management activities – as identified in the MAP function – are assessed and documented. | 5 | |
MEASURE 2.13: Effectiveness of the employed TEVV metrics and processes in the MEASURE function are evaluated and documented. | 3 | |
MEASURE 3.1: Approaches, personnel, and documentation are in place to regularly identify and track existing, unanticipated, and emergent AI risks based on factors such as intended and actual performance in deployed contexts. | 3 | |
MEASURE 3.2: Risk tracking approaches are considered for settings where AI risks are difficult to assess using currently available measurement techniques or where metrics are not yet available. | 4 | |
MEASURE 3.3: Feedback processes for end users and impacted communities to report problems and appeal system outcomes are established and integrated into AI system evaluation metrics. | 12 | |
MEASURE 4.2: Measurement results regarding AI system trustworthiness in deployment context(s) and across the AI lifecycle are informed by input from domain experts and relevant AI actors to validate whether the system is performing consistently as intended. Results are documented. | 15 |
種類 | 大項 | 子項目數量 |
MANAGE (74項) | MANAGE 1.3: Responses to the AI risks deemed high priority, as identified by the MAP function, are developed, planned, and documented. Risk response options can include mitigating, transferring, avoiding, or accepting. | 5 |
MANAGE 2.2: Mechanisms are in place and applied to sustain the value of deployed AI systems. | 12 | |
MANAGE 2.3: Procedures are followed to respond to and recover from a previously unknown risk when it is identified. | 4 | |
MANAGE 2.4: Mechanisms are in place and applied, and responsibilities are assigned and understood, to supersede, disengage, or deactivate AI systems that demonstrate performance or outcomes inconsistent with intended use. | 5 | |
MANAGE 3.1: AI risks and benefits from third-party resources are regularly monitored, and risk controls are applied and documented. | 9 | |
MANAGE 3.2: Pre-trained models which are used for development are monitored as part of AI system regular monitoring and maintenance. | 11 | |
MANAGE 4.1: Post-deployment AI system monitoring plans are implemented, including mechanisms for capturing and evaluating input from users and other relevant AI actors, appeal and override, decommissioning, incident response, recovery, and change management. | 15 | |
MANAGE 4.2: Measurable activities for continual improvements are integrated into AI system updates and include regular engagement with interested parties, including relevant AI actors. | 9 | |
MANAGE 4.3: Incidents and errors are communicated to relevant AI actors, including affected communities. Processes for tracking, responding to, and recovering from incidents and errors are followed and documented. | 4 |
RAG與AI Agent
RAG
檢索增強生成(Retrieval Augmented Generation, RAG)是一種結合了搜尋檢索和生成能力的自然語言處理架構。透過這個架構,模型可以從外部知識庫搜尋相關信息,然後使用這些信息來生成回應或完成特定的NLP任務。
在新知識上使用 RAG 去做知識庫建置,然後再定期每段時間進行 Fine-Tuned 模型,來幫助大家在新知識與模型能夠都能夠持續收集和進步
RAG(檢索增強生成)架構
AI Agent
Agent的意涵
Agent運作流程
代理的核心思想是使用語言模型來選擇要採取的一系列操作。在鏈中,一系列操作被硬編碼(在程式碼中)。在代理中,語言模型被用作推理引擎來決定要採取哪些操作以及按什麼順序。
https://github.com/liaokongVFX/LangChain-Chinese-Getting-Started-Guide
運用開源的LangChain來做RAG、AGENT
1.LangChain 是一個對話式人工智能(AI)應用程序框架,旨在構建應用程序以與大型語言模型(LLM)進行交互。它是由 Anthropic 公司開發的。
2.LangChain的主要特點包括:
1)模組化設計,允許使用各種LLM、數據源和其他組件組裝應用程序。
2)支持記憶功能,允許對話歷史上的內容影響未來的響應。
3)支持代理模式,允許將複雜任務分解為較小的步驟。
4)內置了各種工具,如文檔加載器、文本拆分器、檢索器等。
5)活躍的開源社區,具有豐富的文檔和示例。
3.LangChain為開發人員提供了一個強大且靈活的框架,用於構建與LLM交互的應用程序。
4.它可用於構建問答系統、分析工具、自動化助手等各種對話式AI應用程序。
5.作為一個Python庫,LangChain還可以與其他Python庫和框架集成。
LangChain的使用者有新創企業,也有跨國企業
結論
假如您還沒有開始玩Gen AI,請盡快開始,因為現在正是”薅羊毛”的最佳時刻