456頁的2025年加州史丹佛大學以人為本人工智慧研究所(HAI)人工智慧指數報告『Artificial Intelligence
Index Report 2025』出爐啦,雖然今年的頁數相較於2024年報告(502頁)少了46頁,但今年報告的內容仍然非常值得一看,新內容包括對人工智慧硬件演變格局的深入分析、推理成本的新估算,以及對人工智慧出版和專利趨勢的新分析,此外還介紹了關於企業採用負責任人工智慧(RAI)實踐的新數據,並擴大了對人工智慧在科學和醫學中日益增長角色的報導。

目錄
重點1: 人工智慧在各項基準測試的表現持續提升
2023 年,研究人員引入了新的基準——MMMU、GPQA 和 SWE-bench——來測試先進 AI 系統的極限。僅僅一年之後,效能就大幅提升:MMMU、GPQA 和 SWE-bench 上的得分分別上升了 18.8、48.9 和 67.3 個百分點。除了基準測試之外,人工智慧系統在產生高品質視訊方面取得了重大進展,在某些情況下,語言模型代理甚至在時間預算有限的程式設計任務中勝過人類。

source: Artificial Intelligence Index Report 2025, Figure 2.1.33
重點2 : 人工智慧日益融入日常生活中
從醫療保健到交通運輸,人工智慧正迅速從實驗室走向日常生活。 2023 年,FDA 批准了 223 種人工智慧醫療設備,而 2015 年只有 6 種。在道路上,自動駕駛汽車不再是實驗性的:美國最大的營運商之一 Waymo 每週提供超過 15 萬次自動駕駛汽車服務,而百度價格實惠的 Apollo Go 機器人計程車車隊目前服務於中國眾多城市。

source: Artificial Intelligence Index Report 2025, Figure 5.4.10
重點3 : 企業全面投入人工智慧,推動創紀錄的投資和使用
2024年,美國私人人工智慧投資成長至1,091億美元,幾乎是中國93億美元的12倍、英國45億美元的24倍。生成式人工智慧(Generative AI)發展勢頭尤為強勁,吸引了全球 339 億美元的私人投資,較 2023 年增長 18.7%。
人工智慧的商業應用也在加速:78% 的組織報告 2024 年將使用人工智慧,高於前一年的 55%。同時,越來越多的研究證實,人工智慧可以提高生產力,並且在大多數情況下有助於縮小勞動力隊伍的技能差距。

source: Artificial Intelligence Index Report 2025, Figure 4.4.1
重點4 : 美國在頂級人工智慧模型仍處於領先地位,但中國與之差距逐漸縮小
2024年,美國開發了40個重要的人工智慧模型,遠遠超過中國的15個和歐洲的3個。雖然美國在數量上保持領先,但中國模型在質量上迅速縮小了差距:在MMLU和HumanEval等主要基準測試上的性能差異從2023年的兩位數縮小到2024年的近乎相同。
同時,中國在人工智慧出版物和專利方面繼續領先。與此同時,模型開發日益全球化,來自中東、拉丁美洲和東南亞等地區的顯著發布也越來越多。
美國歷來主導人工智慧研究和模型開發,而中國一直排名第二。然而,最近的證據表明,這一格局正在迅速變化,中國開發的模型正在迅速趕上美國同類產品。
2023年,領先的美國模型顯著優於其中國對手。在LMSYS Chatbot Arena評比中,2024年1月頂尖美國模型的表現比最佳中國模型高出9.26%。到2025年2月,這一差距已縮小至僅1.70%(圖2.1.36)。
1.7%是這樣算出來的, (1385-1362)/1362=1.7%

source: Artificial Intelligence Index Report 2025, Figure 2.1.36
在2023年底,在MMLU、MMMU、MATH和HumanEval等基準測試上,性能差距分別為17.5、13.5、24.3和31.6個百分點(圖2.1.37)。到2024年底,這些差異已顯著縮小至僅0.3、8.1、1.6和3.7個百分點。

source: Artificial Intelligence Index Report 2025, Figure 2.1.37
重點5 : 負責任人工智慧生態系統正在演變—但發展不均衡
人工智慧相關事故急劇增加,但各大工業模型開發商對於 負責任人工智慧(RAI)的標準化評估卻不多見。然而,HELM Safety、AIR-Bench 和 FACTS 等新基準為評估事實性和安全性提供了有前景的工具。
在企業中,認識 負責任人工智慧(RAI) 風險與採取有意義的行動之間仍然存在差距。相較之下,各國政府展現越來越強的緊迫感:2024 年,全球人工智慧治理合作加強,經合組織、歐盟、聯合國和非洲聯盟等組織發布了以透明度、可信度和其他負責任的人工智慧核心原則為重點的框架。
從圖3.2.6可知,主要模型開發商一致在相同的通用能力基準上測試其旗艦模型—涵蓋數學、編程和語言技能,其中,MMLU、GPQA Diamond和MATH是2024年發布的主要模型的通用能力基準。

source: Artificial Intelligence Index Report 2025, Figure 3.2.6
從圖3.2.7可知,關於安全性和負責任人工智慧基準,各家領先開發商並未達成明確共識,其中o1、GPT-4.5兩個模型在RAI的測試較為完整(9項測試完成6項);Claude 3.7則完成3項;而DeepSeek-R1、Gemini 2.5等2個模型只完成1項測試;Grok-2、Llama 3.3則都沒有做測試。

source: Artificial Intelligence Index Report 2025, Figure 3.2.7
重點6 : 全球對人工智慧的樂觀情緒正在上升,但地區間分歧依然嚴重
在中國(83%)、印尼(80%)和泰國(77%)等國家,絕大多數人認為人工智慧產品和服務利大於弊。相較之下,加拿大(40%)、美國(39%)和荷蘭(36%)等地的樂觀情緒仍然低得多。
不過,情緒正在改變:自 2022 年以來,幾個先前懷疑的國家的樂觀情緒顯著增強,包括德國(+10%)、法國(+10%)、加拿大(+8%)、英國(+8%)和美國(+4%)。

source: Artificial Intelligence Index Report 2025, Figure 8.1.2
重點7 : 人工智慧變得更有效率、經濟實惠且易於取得
在小型模型能力不斷增強的推動下,GPT-3.5 等級系統的推理成本在 2022 年 11 月至 2024 年 10 月期間下降了 280 倍以上。在硬體層面,成本每年下降 30%,而能源效率每年提高 40%。開源模型與封源模型之間的差距也在縮小,一年內在某些基準測試中將效能差異從 8% 縮小到僅 1.7%。這些趨勢共同作用,迅速降低了高階人工智慧的門檻。
近期人工智慧的進步主要來自於規模擴大—即增加模型大小和訓練數據可以提高性能的理念。雖然規模擴大顯著提升了人工智慧能力,但最近一個值得注意的趨勢是高性能小型模型的崛起。
圖2.1.38展示了在MMLU(一個廣泛使用的語言模型基準)上得分超過60%的最小模型尺寸的減少情況。作為參考,早期驅動ChatGPT的模型,如GPT-3.5 Turbo,在MMLU上的得分約為70%。2022年,在MMLU上超過60%的最小模型是PaLM,擁有5400億參數。到2024年,微軟的Phi-3 Mini僅有38億參數,就達到了相同的門檻,標誌著兩年內模型尺寸減少了142倍。

source: Artificial Intelligence Index Report 2025, Figure 2.1.38
2024年是小型人工智慧模型的突破之年。幾乎每一個主要的人工智慧開發商都發布了緊湊高效的模型,包括GPT-4o mini、o1-mini、Gemini 2.0 Flash、Llama 3.1 8B和Mistral Small 3.5。
小型模型的崛起具有多方面的重要意義
- 它展示了日益提高的算法效率,使開發者能夠以更少的數據和更低的訓練成本實現更多功能。這些效率提升,結合不斷增長的數據集,可能導致更高性能模型的出現。
- 小型模型的推理通常更快且成本更低。它們的出現也降低了人工智慧開發者和希望將人工智慧整合到運營中的企業的進入門檻。”
重點8 : 各國政府正透過監管和投資加大對人工智慧的投入
2024 年,美國聯邦機構推出了 59 項與人工智慧相關的法規,數量是 2023 年的兩倍多,發布這些法規的機構數量也是 2023 年的兩倍。
在全球範圍內,自 2023 年以來,75 個國家的立法中對人工智慧的提及增加了 21.3%,是 2016 年以來的 9 倍。除了日益受到關注之外,各國政府也在大規模投資:加拿大承諾投資 24 億美元,中國啟動了 475 億美元的半導體基金,法國承諾投資 1,090 億歐元,印度承諾投資 12.5 億美元,沙烏地阿拉伯的「超越計畫」(Project Transcendence)是一項 1,000 億美元的計畫。

source: Artificial Intelligence Index Report 2025, Figure 6.2.19
重點9 : 人工智慧和電腦科學教育正在擴大,但在獲取機會和準備程度的差距仍然存在
目前,三分之二的國家提供或計劃提供 K-12 電腦科學教育,數量是 2019 年的兩倍,其中非洲和拉丁美洲的進展最為迅速。
在美國,擁有電腦學士學位的畢業生數量在過去 10 年增加了 22%。然而,由於電力等基礎設施的差距,許多非洲國家的上網服務仍然有限。
在美國,81% 的 K-12 電腦科學教師表示人工智慧應該成為基礎電腦科學教育的一部分,但不到一半的教師認為自己有能力教導人工智慧。
*K12教育是指從幼稚園(K)到高中(12)的整個學校階段

source: Artificial Intelligence Index Report 2025, Figure 7.2.17
重點10 : 工業界在人工智慧領域正在快速發展,但前沿領域正在縮小
2024 年,近 90% 的著名人工智慧模型來自工業界,高於 2023 年的 60%,而學術界仍是高引用率研究的最大來源。模型規模持續快速成長-訓練運算量每五個月翻一番,資料集每八個月翻一番,電力使用量每年增加一倍。然而,性能差距正在縮小:排名第一和第十名的模型之間的得分差距在一年內從 11.9% 縮小到 5.4%,前兩名之間的差距現在僅為 0.7%。

source: Artificial Intelligence Index Report 2025, Figure 2.1.39
重點11 : 人工智慧因其對科學的影響而獲得最高榮譽
人工智慧日益增長的重要性體現在重大科學獎項中:兩項諾貝爾獎分別表彰了深度學習(物理學)及其在蛋白質折疊中的應用(化學)的工作,而圖靈獎則表彰了強化學習的突破性貢獻。
Google 和 Isomorphic Lab 最新推出的 AlphaFold 系列模型 AlphaFold 3,不僅能預測蛋白質結構,還能更精確地模擬蛋白質與關鍵生物分子(DNA、RNA、配體、抗體)的互動。
圖5.1.8 比較了 AlphaFold 3 在預測蛋白質-配體互動準確性方面與其他頂尖對接工具(如Vina和Gnina)的表現,基於根均方偏差(RMSD)低於2埃的預測百分比,這是對接準確性的重要衡量標準。
AlphaFold 3 與先前最先進的方法相比具有競爭力,特別是在預先定義結合口袋時表現更為有效,這意味著對接算法已事先獲知蛋白質上小分子(配體)預期結合的特定區域。
AlphaFold 3 能夠通過模擬小分子-蛋白質互動來加速藥物開發,這對疾病研究至關重要。此外,AlphaFold 3 的開源訪問權限讓全球科學家都能受益。”

source: Artificial Intelligence Index Report 2025, Figure 5.1.8
重點12 : 複雜推理仍然是一個挑戰
人工智慧模型在國際數學奧林匹克問題等任務上表現出色,但在 PlanBench 等複雜推理基準上仍有困難。即使有可證明的正確解決方案,它們也常常無法可靠地解決邏輯任務,這限制了它們在精確度至關重要的高風險環境中的有效性。
“規劃 規劃是一項涉及推理改變世界的行動的智能任務。它需要考慮假設的未來狀態,包括潛在的外部行動和其他轉變性事件。
PlanBench
來自亞利桑那州立大學的一個研究小組提出了PlanBench,這是一套包含自動規劃社區使用的問題的基準測試,特別是那些在國際規劃競賽中使用的問題。PlanBench旨在測試LLM在規劃任務上的表現。該基準測試在600個問題上測試模型。在2022年基準測試發布後,研究人員證明像GPT-4和GPT-3.5這樣的模型在規劃任務上仍然面臨困難。
OpenAI的o1發布引起了人工智慧研究社區的熱烈反響,因為它被設計為主動推理而非純粹作為自迴歸LLM運作。在PlanBench基準測試中,o1顯示出顯著改進,儘管它在可靠和一致的規劃方面仍有挑戰。
在Blocksworld零樣本評估(一個特定的規劃評估領域)中,o1達到了97.8%的分數—遠超下一個最佳LLM,Llama 3.1 405B(62.6%),並大幅超越GPT-4o(35.5%)(圖2.7.9)。
在更具挑戰性的Mystery Blocksworld領域,其中一些答案在語法上被混淆,o1零樣本得分為52.8%,相比之下Llama 3.1 405B僅為8%。而GPT-4的得分為0%。規劃是一個組合問題,解決需要長解決方案的問題預計需要超過線性時間。

source: Artificial Intelligence Index Report 2025, Figure 2.7.9




