台灣成為人工智慧之島,還有很多路要走

台灣要成為人工智慧之島,應能滿足「數據」、「人才」、「算法」、「算力」、「資金」等要素的需求,但似乎還有一大段路要走。

台灣成為人工智慧之島,還有很多路要走

2024年總統就職演說提到8次「人工智慧」

2024年5月20日,賴清德總統的就職演說中,光是「人工智慧」就提了8次(其中「人工智慧」6次,「AI」提到2次),並將「人工智慧」列入五大信賴產業之一,要讓台灣成為「人工智慧之島」,但要成為人工智慧之島,應能滿足「數據」、「人才」、「算法」、「算力」、「資金」等要素。

  1. 從「數據」面來看,目前大語言模型的訓練數據源,很大部分是來自互聯網,台灣在互聯網發展這些年來,一直沒有自己「社交媒體」、「搜尋引擎」;「電子商務」規模一直做不起來,而「支付業務」也未受廣大民眾青睞,簡言之,數據都在別人家(別國),自己沒有數據,因此要訓練自己的大語言模型,困難重重,未來若人工「合成數據」能有效產出,或許有希望能產出自己的大語言模型。
  2. 從「人才」面來看,台灣的AI人才,無論在學界或產業界,相較於國外還有很大的差距;
  3. 從「算法」面來看,由於研發實力落後,沒有屬於自己開發或優化的AI算法,目前台灣沒有屬於自己研發的中文大語言模型,在檯面上出現的幾個大語言模型,都是從國外開源模型(Mistral, Llama)微調而來;
  4. 從「算力」來看,台灣有卓越的半導體代工能力來支持製造”算力”的設備,但缺乏使用”算力”的能力;
  5. 從「資金」面,台灣不缺乏資金,但缺乏高瞻遠矚的企業家、金融家及政府官員來引領台灣走向AI潮流。

2024年總統就職演說內容-文字雲

童子賢的醍醐灌頂

和碩科技董事長童子賢在2024年6月26日舉辦的《2024國鼎論壇》中致詞,提到兩個重點

  1. 台灣在AI是重要的參與者但不是制定者跟決定者 原致詞內容: ”很幸運的,台灣是AI整個進步群的一員,我對於把台灣捧太高的說法,會覺得說,不要飄飄然就上了雲端,我們是重要的參與者之一,但是我們絕對不是一切的制定者跟決定者。”
  2. 台灣應加強運用並創造附加價值 原致詞內容:”我只期待AI,不要最後淪為只有像代工這樣,我們是AI的中心,最後少了代工兩個字這樣子。我也希望台灣除了能夠做代工外,也能夠運用、也能夠用AI創造附加價值。”

童子賢董事長的兩個重點,明確點出了台灣目前產業發展的盲點與困境,有醍醐灌頂之意,且其論點與Google前董事總經理簡立峰在其主題演講內容其實前後呼應。

和碩科技董事長童子賢

Google前董事經理的肺腑之言

Google前董事總經理簡立峰在2024年6月26日舉辦的《2024國鼎論壇》中,以「AI生態系中台灣產業發展的策略框架」為題演講。”他指出,台灣對全世界賣繪圖晶片(GPU),但全國企業與新創使用的GPU數量,恐怕還不如一家美國新創公司多,AI應用發展遠遠不足,呼籲政府策略應加速扶植並創造AI應用,鼓勵台灣建立主權AI集結好的繁體中文模型”。

若真如簡董所說,台灣所有企業使用的GPU數量不如一家美國新創公司,那台灣的AI應用,可是落後了十萬八千里遠,得快馬加鞭才有可能看到前方領先者的後背。

根據經濟部產業技術司於2024年7月2日”113年7-9月「NVIDIA TAIPEI-1算力」通過名單”,首批四大團隊通告審核,包括 1. DGX 2隊為台灣人工智慧晶片聯盟(AITA); 2. 國科會TAIDE計畫; 3. OVX2隊為中鋼股份有限公司; 4. 工研院 算力使用期間為113年7月至9月,每隊可使用6週。 值得注意的是,這些算力是輝達捐贈給台灣4億算力,輝達其實是外商公司,為何台灣其他公司沒有跳出來捐贈算力呢? ”113年第一次NVIDIA TAIPEI-1算力審查結果

主導單位專案主題聯合申請單位備註
DGX通過兩隊
1台灣人工智慧晶片聯盟(AITA)生成式AI應用(含智慧製造、智慧座艙、智慧客服、設計自動化、智慧金融與智慧交通等)工研院、資策會、NTT Data、華邦電、凌陽科技、晶心科技、聚晶半導體、大數軟體、公共工程資訊學會、峻魁智慧、人工智能、邁爾凌、樂達創意科技、聯發創新基地、長佳智能、律果科技。
2國科會TAIDE計畫旗艦級TAIDE模型之研發AICoE-臺灣大學、成功大學、陽明交大、清華大學、中研院等。
OVX通過兩隊
1中鋼股份有限公司高爐爐頂佈料數位雙生工研院
2工研院元宇宙智慧工廠與生成式AI機器人應用資策會、鴻騰精密、創造智能、瑪斯特頓、狂點軟體開發、台灣大學、科勝科技。
113年第一次NVIDIA TAIPEI-1算力審查結果

他還提到”AI技術重塑新的「G7」,包括輝達、微軟、蘋果、Google、Amazon、沙烏地阿拉伯國家石油公司、Meta,位於第八就是台灣的台積電”。

台積電絕對是”台灣之光”,晶片製造本就是台積電的強項,GPU晶片的製造當然難不倒台積電,但製造很強的光環下,也反映出台灣AI應用很弱的窘境。

人工智慧落差(AI Divide)

  1. 台灣國際戰略學會副研究員蔡哲明,2023/11/29在中國時報發表專文,講述「台灣從數位落差到AI落差」,一針見血的的表示,台灣由於「AI人才外流」、「AI學術掛帥」、「AI話術官僚」等因素,造成台灣從「數位落差」(Digital Divide)陷入「人工智慧落差」(AI Divide)。
  2. 「數位落差」(Digital divide)是指不同性別、種族、經濟收入、居住環境以及階級背景在使用數位產品(例如電腦或網路)的機會與能力上產生差異。
  3. 「數位落差」可反映在「新科技接觸的機會多寡」、「對於使用能力的掌握程度」、「在數位時代AI演算法伴隨大數據應用」。

台灣沒有自己的大語言模型

台灣至今還沒有自己的大語言模型,雖說各界呼籲台灣要AI主權自主,目前檯面上看到的大語言模型都是從開源模型(Mistral, Llama等)微調而來,與主權自主還有很大差距,台灣幾個主要的大語言微調模型介紹如下:

國科會的”TAIDE”大模型

  1. 國科會自去(2023)年初整合產學研力量,發展具臺灣特色與繁體中文的可信任生成式AI對話引擎(Trustworthy AI Dialogue Engine, TAIDE)
  2. 使用Meta開源LLaMa系列大模型加入繁體資料微調
  3. lTAIDE團隊一開始嘗試開源的大型語言模型BLOOM,以它為基礎來打造TAIDE,但發現效果不如理想,因此改以Meta的LLaMA為基礎,透過網路爬蟲方式收集大量繁中資料,如新聞資料,來優化模型。這些訓練資料大約有1,440億個Token。
  4. 為了執行TAIDE計畫,該團隊投入1.1億預算購入了72片的H100晶片,並串聯多台伺服器以創造高速運算的環境。
  5. 開源日期:
    第一版: 2024年4月15日,以LLaMa 2微調的大模型
    第二版: 2024年4月29日,以LLaMa 3微調的大模型

**TAIDE模型訓練資料**

    TAIDE模型使用的訓練資料集,很多都是來自免費開源的數據集,企業若要自己建立大語言模型,也可以參考下表的資料源。

    資料集資料描述授權方式資料筆數大小
    訴訟資料司法院裁判書》自2013年1月至2023年12月各級法院民事、刑事、行政訴訟資料。不受著作權保護154,294,150筆 38900MB
    中央社中央社中文新聞》資料集含中央社自1993年6月至2023年06月,共30年份之每日新聞文章。內容涵蓋國內外政治、社會、財經、文教、生活等領域。
    ETtoday 新聞雲ETtoday新聞雲》資料,包含自2011年10月至 2023年12月的資料。
    立法院公報立法院公報》包含自第8屆第1會期至第10屆第7會期之公報資料。不受著作權保護9,744筆1550MB
    出版商網站書籍介紹包含三采Gotop出版商網站上的書籍簡介。
    GRB 研究計畫摘要GRB為收錄由政府經費補助之研究計畫及其成果報告的資訊系統,此資料集主要收錄 1993年至 2023年之研究計畫摘要以及研究報告摘要,含中文及其英文對照。政府網站資料開放宣告420,000筆1260MB
    學術會議論文摘要收錄《學術會議論文摘要資料庫》中自1988至2009年由台灣所舉辦之學術會議論文。
    光華雜誌台灣光華雜誌》含自1993年7月至2023年6月的文章,共30年份。內容著重於我國文化、觀光與民情等。
    樂詞網樂詞網》涵蓋文理領域約187萬則學術名詞及其譯名對照。政府網站資料開放宣告1,870,000筆154MB
    各部會資料包含行政院「國情簡介」、文化部「國家文化記憶庫」、國發會「檔案支援教學網」、交通部「交通安全入口網」等部會網站資料之部分資料。
    今周刊今周刊》為一以財經為主的週刊雜誌,此資料集涵蓋2008年1月至2023年7月的文章。
    教育部國語辭典、成語辭典包含以下三項資料:
    教育部成語典,含5,338條成語,內容包含每條成語的釋義、典故原文及其白話說明、用法說明、例句等。
    教育部重編國語辭典修訂本,收錄中文單字及各類辭彙,包含讀音、部首、釋義等資訊,共約165,539筆資料。
    教育部國語辭典簡編本,為《重編國語辭典修訂本》的簡編版本,共45,247筆資料。
    CC BY-ND 3.0 TW DEED1.5,338筆 2.165,539筆 3.45,2471.14M 2.103MB 3.22.5MB
    科技大觀園資料含《科技大觀園網站》上的科學新知以及科普文章。
    iKnow 科技產業資訊室科技產業資訊室(iKnow)》提供台灣及全球的科技市場趨勢、策略分析、專利知識,及技術交易資訊,專注於科技產業的創新與發展,包含自 2008 年至 2023 年。
    科學發展月刊科學發展月刊》為國科會為推廣科學教育而出版的科普刊物,含自2004年10月至2020年12月之科普文章;2021年起,以《科技魅癮》季刊重新出發,提供國際關注科技議題的新知文章。
    法規資料庫法規資料庫》含截自 112 年 10 月各政府部門最新發布之中央法規、行政規則、法規命令草案及地方自治法規等。不受著作權保護8,099筆93MB
    各地政府旅遊網涵蓋台灣部分縣市地方政府觀光旅遊網站上之部分資料。
    國教院課程綱要(十二年國教)含十二年國教課程綱要之總綱以及各級學校不同科目之課程綱要。不受著作權保護110筆10MB
    中央社譯名檔資料庫《中央社譯名檔資料庫》蒐集中央社新聞業務上翻譯過的中外姓氏、人名、組織、地名等譯名對照。
    童話書共 20 本童話書,含湯姆歷險記、小飛俠、愛麗絲夢遊仙境、長腿叔叔等。
    RedPajama-Data-V2從國外開放多國語言語料庫 RedPajama-Data-v2 取出英文資料
    MathPile-commercial國外開放數學語料庫 MathPile-commercialCC BY-SA 4.095 億個token
    中文維基百科中文維基百科》截至2023年1月所有條目的內容。CC BY-SA 3.0196,610筆780MB
    github-code-clean為 github 開源程式碼資料集,去除unlicense的程式碼和文件。
    TAIDE模型使用的數據集

    持續預訓練資料(資料量約為140G)

    Taiwan LLM模型

    1. 以台灣為名的「Taiwan-LLM」,由台大資工系博士生林彥廷與台大資工系指導教授陳縕儂獨立開發、開源釋出。 大學念資管系的林彥廷,因大三修習機器學習的課,對自然語言產生興趣,改攻資工博士,2023年5月到亞馬遜實習時,剛好也在相關開發小組,7月,當他看到海外一些社群運用Meta開源模型LLaMA2開發出落地版的大型語言模型,立刻向指導教授、台大資工系副教授陳縕儂提案並得到支持。
    2. 第一版(2023/8/5)採用包含由國際非營利組織Common Crawl自動抓取的中文網站檔案 第二版(2023/12/1)由日商優必達與亞馬遜協助提供算力;資料集的部分,排除第一版的網路公開資料,選擇餵入台灣新聞、社群網站、維基百科、司法院、法典、法學資料庫等,約300億繁體中文字,並寫了100多題問答訓練。 第三版(2024/5/15)Llama-3-Taiwan-70B 的計算和數據由長庚紀念醫院、長春集團、Legalsign.ai、NVIDIA、和碩、shasha77、台灣AI Labs、TechOrange、Ubitus K.K.、Unimicron 慷慨贊助
    3. 第三版Taiwan LLM模型說明(源於LLaMA3-70B)開源日期:2024年5月15日
    來源模型微調後模型應用說明模型參數特色
    LLaMA3-70bLlama-3-Taiwan-70B-Instruct-rc1Llama-3-Taiwan-70B 是使用 Llama-3 架構在大型繁體中文和英文資料語料庫上進行微調的 70B 參數模型。它在各種傳統普通話 NLP 基準上展示了最先進的性能。l參數量: 70B l最大內容長度 (context length): 8KlLlama-3-Taiwan-70B 是一個針對繁體中文和英語使用者進行微調的大型語言模型。它具有很強的語言理解、生成、推理、多輪對話能力。 l對高品質繁體中文和英語語料庫進行微調,涵蓋法律、製造、醫療和電子領域的常識和行業知識
    第三版Taiwan LLM模型說明

    福爾摩沙大模型(Formosa Foundation Model)

    華碩旗下台智雲發表繁體中文大語言模型 —「福爾摩沙大模型」(Formosa Foundation Model)。FFM 模型系列自 BLOOM、Llama2、Mistral 到最新的 Llama3,提供各式開源模型之繁中強化版本。在模型規格方面,也提供各模型最完整之參數量規格,包括 BLOOM-176B、Mixtral-8x7B、Llama3-70B 等巨量參數大模型。在快速變化的 LLM 應用需求中,及時提供您最完整多樣的大語言模型規格及應用服務,加速企業 AI 2.0 落地應用。

    Breeze大語言模型

    全球MediaTek集團旗下的研究部門MediaTek Research,最近開源了MediaTek Research Breeze-7B模型,希望一個開源的大型語言模型(LLM)將對學術界和工業界在AI進一步發展上有所裨益。

    lMR Breeze-7B模型源於Mistral-7B,特別為繁體中文用戶設計並訓練,其特色是模型參數較小,能在繁體中文和英文兩種語言上提供優秀的表達能力。 MR Breeze-7B可在繁體中文上提供非常快的推論速度,並在處理表格和用戶對話方面表現出色。

    lMR Breeze-7B展示出對繁體中文和英文的卓越處理能力。在繁體中文知識方面,甚至可以與GPT-3.5相比,使其成為最新7B語言模型類別中少數可以在參數數量和性能之間取得平衡的模型之一。

    Project TAME大語言模型

    2024年7月1日,長春集團、和碩聯合科技、長庚醫院、欣興電子、科技報橘和專攻法律AI的律果科技,與臺大資工系、臺大資管系就聯手揭露臺灣繁中大型語言模型(LLM)計畫TAiwan Mixture of Experts(簡稱Project TAME),以70億參數的開源模型Llama-3 70B為基礎,使用5,000億個Token和Nvidia開發者計畫技術訓練而成,具備石化、電子製造、醫療、媒體內容和法律等在地專業知識。Project TAME目前於GitHub上開源,團隊希望藉此拋磚引玉、吸引更多產業夥伴加入,來形塑臺灣產業專用AI應用生態系。

    該模型經3大階段訓練而成,包括利用臺灣本土資料進行連續預訓練,再來是生成多輪AI對話資料、進行微調,最後是模型與使用者真實互動,透過使用者回饋來微調模型。

    Project TAME已在Github開放企業免費下載:Project TAME,同時提供聊天頁面:TWLLM,亞太智能機器則率先整合Project TAME提供機器人測試頁:APMIC

    從AI指數報告看台灣AI發展的窘境

    史丹佛大學2024年AI指數報告(Artificial Intelligence Index Report),是《AI Index Report 2024》的第七版報告,該報告提供了有關人工智能(AI)目前狀態的全面分析。對於

    內容涵蓋很廣,對於想迅速了解AI整體發展現狀,是一篇很好的報告。

    報告涵蓋了包括AI的技術進步、公眾對技術的認知,以及圍繞其發展的地緣政治動態等一系列議題。它包括有關AI訓練成本的新數據,分析了負責任的AI實踐,並新增了關於AI對科學和醫療影響的章節。AI Index報告的目標是向政策制定者、研究人員、執行官、記者和一般公眾提供無偏見且經過嚴格審核的數據。這一版是迄今為止最大且最全面的版本(502頁),反映了AI在社會中的重要性不斷增長。

    各國頂尖大語言模型的數量

    根據史丹佛大學2024年4月公布AI指數報告顯示,在2023年,出自於美國的頂尖AI模型高達61個,超越歐盟國家整體合計的21個,以及中國的15個。在歐盟成員國中,法國以具備8個頂尖AI模型位居第一。

    新加坡就有三個頂尖的AI模型, 台灣的國土面積是新加坡的50倍,而人口是4.5倍,但人口較多、面積較大的台灣並沒有自己的大語言模型。

    每10萬人AI專利數量,台灣排名落後

    有些國家人口較多,AI專利數量可能會比較多,為消除人口絕對數量所顯示的專利優勢,AI指數報告也採用平均概念來進行比較,改”以每10萬人的AI專利數量”來比較,排名就發生了顯著差異,其中亞洲國家的排名大幅靠前,如韓國位列第一名;日本第四名;中國第五名;新加坡第六名。

    看到這些排名,心中感慨萬千,想當初亞洲四小龍(韓國、新加坡、台灣、香港),台灣表現傑出,時至今日,在各項經濟成長指標、產業發展的道路上,台灣的名字逐漸消失,從AI專利的發展,韓國與新加坡表現仍舊亮眼,台灣落後在很遠的地方。

    筆者另外一篇文章,”**從2024年亞太地區高成長公司家數看台灣產業發展的隱憂”,也發現與AI專利數量類似的結論,該篇文章主要是觀察近五年的亞太高成長公司500強排名及入榜家數,發現台灣在「IT、軟體產業」、「金融科技、金融服務保險業」及「廣告、行銷業」高成長公司相較於新加坡、南韓及日本等國家數較少,且在產業的多元化上也不足。**

    台灣的產業前景堪慮,現階段急需結合「產業專家」、「政府官員」、「專家學者」的力量,研擬有效的產業政策,讓產業有新的明星與新的亮點,並延續電子產業的卓越成就。

    生成式AI專利 大陸申請量冠全球

    史丹佛大學的AI指數報告中的AI專利,範圍是針對所有AI的專利,若僅針對「生成式AI」的專利數量,各國排名也有所不同,而排名第一的中國Gen AI專利數量大幅領先第二名的美國。

    聯合國旗下機構WIPO(世界智慧財產權組織)在2024年7月3日公布,2014年至2023年,中國提交超過3.8萬項關於生成式AI(人工智慧)的技術專利申請,位居全球第一,更遙遙領先第二名的美國(6,276項)。

    名列前茅的申請者包括騰訊、平安保險集團、百度,中國科技學院、IBM、Google以及OpenAI的投資者微軟等。

    當然在這篇報告中,並未出現描述”台灣”的任何隻字片語。可見台灣在AI專利申請及相關學術出版品的數量遠不及其他國家。

    世界智慧財產權組織的報告鏈接

    China-Based Inventors Filing Most GenAI Patents, WIPO Data Shows

    合成數據技術或許可讓台灣產出自己的大模型

    台灣要發展人工智慧之島,應滿足五大要素,包括「數據」、「人才」、「算法」、「算力」、「資金」等。這五個要素中,最難達成的的應該是「數據」因素,其他四個要素則相對較易達成。

    近年AI的技術進步一日千里,透過AI來產生合成資料(Synthesizing data)的技術漸趨成熟,合成資料的想法首次提出於 20 世紀 90 年代,但一直未被大眾所關注,直到近年機器學習和運算能力的崛起,加上資料治理及隱私保護的嚴格法規,使其成為一項值得熱門關注的技術。

    英國統計局使用合成資料

    英國統計局在2019年出版的一份報告(Synthetic data for public good)中,揭露了使用「合成資料」,可為政府、學術界和私營部門之間的資料共享提供更安全、更簡單和更快捷的方式。該局在合成資料生成所採用的主要演算法,包括生成對抗網路(GAN)自動編碼器合成少數過採樣(SMOTE)。

    Nvidia使用合成資料建立大型語言模型

    輝達(Nvidia)公司,不枉為全球人工智慧運算的領袖,率先在合成數據的運用邁入一個新的里程碑,在2024年6月17日開源了Nemotron-4 340B 型號系列的三個大語言模型,包括 Nemotron-4-340B-Base、Nemotron-4-340B-Instruct 和 Nemotron-4-340B-Reward,最特別的一點是該模型使用98%的合成資料,但效能卻一點也不輸檯面上頂尖的大語言模型。

    1.Nemotron-4 340B與Llama3-70B、Mixtral 8×22、Qwen-2 72B base的比較

        Nvidia的Nemotron-4 340B大模型在BigBenchHard、ARC-Challenge的2個測試指標,優於Llama3-70B、Mixtral 8×22、Qwen-2 72B base;在MMLU測試,僅次於Qwenn-2 72B base。

        2. Nemotron-4-340B-Instruct與Llama3-70B-Instruct、Mixtral-8x22B-Instruct v0.1、Qwen-2-72B-Instruct的比較

          Nemotron-4-340B-Instruct在Arena Hard、IFEval、AlpacaEval 2.0 LC的三個測試中,領先Llama3-70B-Instruct、Mixtral-8x22B-Instruct v0.1、Qwen-2-72B-Instruct。

          3. Nemotron-4-340B-Reward與Cohere、Gemini、GPT-4o的比較

            Nemotron-4-340B-Reward的獎勵模型,與頂尖的大語言模型比較,在Overall、Chat-Hard兩個測試,Nemotron-4-340B-Reward優於三個模型(Cohere May 2024、Gemini 1.5 Pro-0514、GPT-4o-0513);在Safety的測試,輝達的模型則與GPT-4o相當。

            JPMorgan對於「合成數據」的研究

            摩根大通(JPMorgan)於2020年7月16日在SSRN發表了一篇論文(Generating synthetic data in finace: opportunities, challenges and pitfalls),探討合成數據需求增加原因、生成數據的技術等,值得企業及金融機構合成數據的參考。

            金融機構對於「合成數據」的需求日益增長

            金融服務業對有效生成合成數據的需求日益增長,主要有以下幾個原因:

            ●內部資料使用受限:法規要求可能會阻止集團子公司之間或公司內部不同業務部門之間共享數據。或者,內部團隊可能希望在獲得相關批准之前開始處理數據。

            ●缺乏歷史數據:只有一定數量的歷史數據可用於研究某些事件(例如,市場閃崩、經濟衰退、新的行為模式),這使得研究這些事件變得非常具有挑戰性。在各種此類情況下,透過「合成數據」來測試策略和推論是很有用的。當然若金融機構要自建大語言模型運用到各類任務上,採用合成數據有其必要性。

            ●解決類別不平衡問題:對於違約/欺詐/洗錢檢測等用例,數據集通常高度不平衡,傳統的機器學習和異常檢測技術往往會失敗。真實的合成數據以及適當的數據插補技術為應對這一挑戰提供了一種有希望的方法。

            ●訓練先進的機器學習模型:大規模先進的機器學習(例如深度學習)通常使用雲服務進行,需要計算資源和大量的訓練數據。由於多種原因,機構可能無法將訓練數據上傳到這些服務。合成數據可用於訓練模型,然後可以將這些模型帶回內部部署,用於真實數據。此外,對合成數據進行訓練可以提供一些保護,防止“成員推理攻擊”,其中模型參數可用於提取訓練數據。

            ●數據共享:通過在機構之間和研究社區內共享數據,可以找到更好的解決方案來應對金融機構面臨的技術問題。合成數據的共享使金融機構能夠以滿足其數據共享限制的方式做到這一點。

            ●數據敏感性:金融數據的敏感性也是推動對合成數據需求的另一個因素。金融數據包含客戶的一些最敏感和個人身份信息。使用和共享此類數據受到嚴格限制。而合成數據提供了一種解決此限制的方法,因為它允許在不損害個人隱私的情況下進行研究和分析。

            JPMorgan使用的生成數據技術

            JPMorgan使用許多技術來產生合成數據,並依照不同數據類型(表格數據、金融時間序列數據、對應不同的技術。

            表格數據

            • 決策樹:以決策樹分類器來生成合成數據。然而,它沒有提供任何隱私保護。
            • 支持向量機和隨機森林: 與決策樹類似,基於這些經典機器學習分類器的方法也沒有提供任何隱私保護。
            • 基於貝葉斯的方法:這些方法,例如 PrivBayes 和基於 copula 的方法,提供可調整的隱私參數。然而,它們可能會隨著特徵數量的增加而面臨可擴展性問題。
            • 基於 Gibbs 採樣的方法:這種技術提供了強大的隱私保護,並且可以很好地擴展。然而,它僅限於分類變數。
            • 基於代理的建模(ABM):ABM 已被用於合成支付數據和其他零售場景。如果手動執行校準,則此方法可以保護隱私,但自動化方法可能會導致數據洩露。

            金融時間序列數據

            • 自回歸或 GARCH 模型:這些經典的統計模型易於擬合和解釋,但它們可能無法復制許多金融時間序列的複雜統計特徵。
            • 基於神經網絡的方法 :QuantGAN 和其他基於深度學習的模型已被用於模擬股票收益和時間序列。然而,它們不提供隱私保護,並且可能存在記憶數據的風險。
            • 基於代理的模型(ABM):ABM 也被用於復制金融市場動態和生成時間序列。

            具有隱私保護的串流數據

            • 事件級隱私 :此方法保護串流中的個別事件,並使用連續計數器來報告觀察到的事件數量。
            • 用戶級隱私 :此方法屏蔽數據集中特定用戶的存在。
            • w-事件隱私:此模型保護在 w 個時間戳記的任何窗口內發生的事件。
            • d-隱私 :這個模型允許保護連續數量的隱私。
            • (w,α)-不可區分性 :此模型結合了 d-隱私和 w-事件隱私,用於發布具有隱私保證的時間序列數據。

            非結構化數據

            • 基於神經網絡的方法 :這些方法將差分隱私合成數據生成擴展到圖像和音頻等非結構化數據。然而,它們仍處於早期階段,並且可能面臨神經網絡的典型挑戰。

            值得注意的是,評估生成模型並在隱私和真實性之間取得平衡仍然是一個挑戰。

            台灣大學發布的”合成數據技術調查報告”

            台灣大學於2024年7月4日在arxiv發表了一篇調查報告(A Survey of Data Synthesis Approaches)

            提供了合成數據技術的詳細調查,內容包括「合成數據的預期目標」、「合成數據技術介紹」、「合成數據篩選的目標」。

            此報告亦可作為企業發展數據生成技術的參考。

            合成數據的預期目標

            1)提高多樣性,

            2)資料平衡,

            3)解決域轉移,以及

            4)解決邊緣情況。

            合成數據技術介紹

            合成數據與當前流行的機器學習技術密切相關,因此,我們將合成數據技術的領域總結為四類:

            1)專家知識,

            2)直接訓練,

            3)預訓練然後微調,

            4 ) 無需微調的基礎模型。

              合成數據篩選的目標

              該報告將合成數據篩選的目標分為四種類型來討論:

              1)基本質量,

              2)標籤一致性,

              3)資料分佈。

              Hugging Face開源最大的合成資料集

              Hugging Face最近開源資料集Cosmopedia v0.1,是目前最大的合成資料集,內容全由Mixtral 7b指令模型生成,包含3,000多萬筆資料。這些內容有教科書文字、部落格文章、故事和WikiHow文章等類型,共250億個Token。

              這些資料可作為企業自行建立大語言模型很好的數據源。

              編號數據來源數據筆數rows
              1auto_math_text1,950,000rows
              2khanacademy24,100rows
              3openstax126,000rows
              4stanford1,020,000rows
              5stories4,990,000rows
              6web_samples_v112,400,000rows
              7web_samples_v210,300,000rows
              8wikihow179,000rows
              合計30,989,100rows
              Hugging Face開源的合成資料集

              團隊表示,他們希望以生成合成資料的方式,來涵蓋RefinedWeb和RedPajama等資料集中的世界知識。Cosmopedia資料集除了有各種類型文章,還顯示基本資訊供使用者參考,如提示、合成內容、初始資料來源、標記長度、文字格式(如教科書、部落格文章)和目標受眾等。同時,團隊也提供較小的子資料集Cosmopedia-100k,來供使用者輕鬆管理和使用。Hugging Face表示,這次釋出的資料集僅0.1版本,他們還有很大的進步空間,盼納入更多主題,來推進合成資料的研究與應用。

              結論:合成數據技術的快速發展有利於台灣建立自己的大語言模型

              從各方面的訊息來判斷,包括政府方的英國國家統計局、金融機構JPMorgan的研究、Nvidia的合成數據大模型及Hugging Face開源的合成數據等,未來合成數據的技術將會不斷出現,將會有大量的生成數據出現,這些數據可作為金融機構建立/微調大語言模型的來源,亦可運用在風險管理、反欺詐、洗錢等領域。

              延伸閱讀