Google推出史上最強大AI模型Gemini

大家應該還記憶猶新吧,OpenAI在2022年11月推出ChatGPT後,Google為不落人後在2023年2月8日也匆忙推出AI模型Brad,但卻發生被同業狠狠輾壓的慘狀,不過就在2023年12月6日,Google強勢回歸,在其官方部落格隆重介紹其最強大的AI模型Gemini。深入了解Gemini展現的能力後,似乎看到周星馳主演的少林足球中的一幕有關師兄弟在足球場「元神歸位」的場景,令人既興奮又期待。

一、Gemini簡介

Gemini 是Google各團隊(包括我們在Google研究院的同事)大規模協作的結果。它是從頭開始構建的多模態,這意味著它可以概括和無縫地理解、操作和組合不同類型的資訊,包括文本、代碼、音訊、圖像和視頻。

Gemini 也是Google迄今為止最靈活的型號——能夠在從數據中心到行動裝置的所有設備上高效運行。其最先進的功能將顯著增強開發人員和企業客戶使用 AI 構建和擴充的方式。

Gemini三種版本

Gemini Ultra
最大、最強大的型號,適用於高度複雜的任務。

Gemini Pro
用於擴展各種任務的最佳型號。2023年12月6日開始,Gemini Pro以英語集成到谷歌的人工智慧聊天機器人Bard中,在包括美國,亞洲和非洲在內的170多個地區提供,並計劃2024年使用更強大的軟體對其進行更新。

Gemini Nano
最高效的設備端任務模型。“nano”,是專門為在行動裝置上運行而設計的,並將整合到谷歌最新的Pixel手機中。這將在設備上“原生運行”,並且“nano”模型“針對行動裝置進行了優化——因此Android開發人員可以輕鬆構建離線工作的人工智慧應用程式和功能,或者使用個人[資訊]更好地在設備上保密”。
“nano”有助於解決該技術的經濟問題,使用移動手機上可用的計算能力運行生成式人工智慧,而不是通過大型科技集團運營的伺服器上的雲,將大大降低運行此類系統的成本。這也為那些希望將私人數據限制在設備上的人提供了一層保證。

三種版本在功能、性能、隱私保護、內容選擇、價格比較如下圖所示:

二、Gemini有哪些強大的能力

一般的大型語言模型在創建多模態模型時是將不同的模態進行單獨訓練,然後將它們拼接在一起以粗略地模仿其中的一些功能。這些模型有時可以很好地執行某些任務,例如描述圖像,但在更概念化和複雜的推理方面會遇到困難。

但Gemini 設計為原生多模態,從一開始就對不同的模態進行預訓練,這可讓 Gemini的準確度遠遠優於現有的多模態模型——而且它的功能在幾乎每個領域都是最先進的。

(一)卓越的推理能力

Gemini 1.0 複雜的多模態推理功能可以説明理解複雜的書面和視覺資訊。這使得它在發現在大量數據中難以辨別的知識方面具有獨特的技能。

它通過閱讀、過濾和理解資訊從數十萬份檔中提取見解的卓越能力將有助於在從科學到金融的許多領域以數位速度實現新的突破。

(二)解讀文本、圖像、音訊的能力

Gemini 1.0 經過訓練,可以同時識別和理解文本、圖像、音訊等,因此它可以更好地理解細微的資訊,並可以回答與複雜主題相關的問題。這使得它特別擅長解釋數學和物理等複雜學科的推理。

(三)程式撰寫能力

Gemini 1.0可以理解、解釋和生成世界上最流行的程式設計語言(如 Python、Java、C++ 和 Go)的高質量代碼。它能夠跨語言工作並推理複雜資訊,使其成為世界上領先的編碼基礎模型之一。

Gemini Ultra 在多個編碼基準測試中表現出色,包括 HumanEval(用於評估編碼任務性能的重要行業標準)和 Natural2Code(我們的內部保留數據集),它使用作者生成的來源(author-generated sources)而不是基於 Web 的資訊(web-based information)

(四)可靠、可擴展、高效的

使用Google內部設計的張量處理單元 (TPU) v4 和 v5e 在 AI 優化的基礎架構上大規模訓練了 Gemini 1.0。這可讓Gemini成為最可靠、最可擴展的訓練模型,也是最高效的服務模型。

三、Gemini的表現

Google一直在嚴格測試Gemini模型,並評估它們在各種任務中的表現。從自然圖像、音訊和視頻理解到數學推理,Gemini Ultra 在大型語言模型 (LLM) 研發中使用的 32 個廣泛使用的學術基準中的 30 個方面,其性能超過了當前最先進的結果。

Gemini Ultra 的得分為 90.0%,是第一個在 MMLU(大規模多任務語言理解)方面優於人類專家的模型,MMLU 使用數學、物理、歷史、法律、醫學和倫理學等 57 個科目的組合來測試世界知識和解決問題的能力,這意味著 Gemini 能夠生成與人類寫作難以區分的文字。

(一)Gemini文本分析能力

Gemini 在包括文本和編碼在內的8個基準測試中,Gemini有7個測試超越了ChatGPT-4。

(二)Gemini多模態測試

多模態測試是一種評估大型語言模型 (LLM) 在多模態理解和推理能力方面的基准測試。多模態理解和推理是指 LLM 能夠理解和處理來自不同模態的信息,例如文本、圖像、圖表和表格,並根據其知識和理解來進行推理和推理。

1.MMMU基準測試

在各種多模態測試中(如MMMU、MM-QA、MM-NLG),MMMU 是目前最全面和最具挑戰性的多模態測試之一。它已被用來評估各種 LLM(大型語言模型)。

Gemini Ultra 在新的 MMMU 基準測試中也獲得了 59.4% 的最新分數,該基準測試由跨越不同領域的多模態任務組成,需要深思熟慮的推理。(GPT 4的測試準確率為56%)

MMMU:一種新的基準測試,旨在評估需要大學水平的學科知識和刻意推理的大規模多學科任務的多模態模型。MMMU包括從大學考試,測驗和教科書中精心收集的11.5K多模態問題,涵蓋六個核心學科:藝術與設計,商業,科學,健康與醫學,人文與社會科學以及技術與工程。這些問題涵蓋 30 個主題和 183 個子領域,包括 30 種高度異質的圖像類型,例如圖表、圖表、地圖、表格、樂譜和化學結構。與現有的基準測試不同,MMMU專注於使用特定領域的知識進行高級感知和推理,挑戰模型來執行類似於專家面臨的任務。MMMU將激勵社區建立下一代多模態基礎模型,以實現專家通用人工智慧。 MMMU 是目前最全面和最具挑戰性的多模態測試之一。它已被用來評估各種 LLM(大型語言模型)。 MMMU 可評估 LLM 在以下三個方面的能力

  • 感知:LLM 能夠理解和處理來自不同模態的信息,例如文本、圖像、圖表和表格。
  • 知識:LLM 能夠利用其知識來回答問題和解決問題。
  • 推理:LLM 能夠根據其知識和理解來進行推理和推理。

2.其他模態測試結果

Gemini 在一系列多模式基準測試中大多數超越GPT-4V的效能;在6個圖像測試中,Gemini的準確率皆高於GPT-4V;在2個影片測試中,Gemini的準確率皆高於GPT-4V;在2個聲音測試中,Gemini僅在”FLEURS”的準確率低於GPT-4V;總結來說,10個多模態測試,Gemini有9個測試的準確率高於GPT-4V。

四、令人驚豔的Gemini能力測試影片

Google在YouTube平台發布的6分22秒的Gemini的介紹影片,以實際案例的方式,完整展現Gemini在多模態的分析理解能力,內容實在太驚豔,建議大家一定要看一看。

五、Google發展AI的原則

雖然Google對人工智慧的潛力持樂觀態度,但Google明白先進技術可能會帶來重要的挑戰,因此必須明確、深思熟慮和肯定地應對這些挑戰。 從Google的發展AI原則中可了解他們對負責任地開發AI技術的承諾。

人工智慧應用的目標

  1. 對社會有益
    新技術的擴大影響日益影響到整個社會。人工智慧的進步將對醫療保健、安全、能源、交通、製造和娛樂等廣泛領域產生變革性影響。因此當人工智慧技術的潛在發展和使用時,將考慮廣泛的社會和經濟因素,並將在總體可能的好處大大超過可預見的風險和負面影響的情況下進行。 人工智慧還增強了我們大規模理解內容含義的能力。我們將努力利用人工智慧提供高品質和準確的資訊,同時繼續尊重我們經營所在國家的文化、社會和法律規範。我們將繼續深思熟慮地評估何時在非商業基礎上提供我們的技術。
  2. 避免製造或強化不公平的偏見
    人工智慧演算法和數據集可以反映、強化或減少不公平的偏見。但區分公平和不公平的偏見並不總是那麼簡單,而且因文化和社會而異。Google將努力避免對人們的不公正影響,特別是與種族、民族、性別、國籍、收入、性取向、能力以及政治或宗教信仰等敏感特徵有關的影響。
  3. 進行安全構建和測試
    Google將繼續制定和應用強有力的安全和安保措施,以避免造成傷害風險的意外結果。在設計的人工智慧系統時保持適當的謹慎,並尋求根據人工智慧安全研究的最佳實踐來開發它們。在適當的情況下,將會在受限的環境中測試人工智慧技術,並在部署后監控其運行情況。
  4. 對人負責
    Google將設計人工智慧系統,為反饋、相關解釋和上訴提供適當的機會。人工智慧技術將受到適當的人類指導和控制。
  5. 納入隱私設計原則
    Google會將隱私原則納入人工智慧技術的開發和使用中。並提供通知和同意的機會,鼓勵具有隱私保護措施的架構,並提供適當的透明度和對數據使用的控制。
  6. 堅持科學卓越的高標準
    技術創新植根於科學方法和對開放探究、嚴謹知識、誠信和協作的承諾。人工智慧工具有可能在生物學、化學、醫學和環境科學等關鍵領域開啟新的科學研究和知識領域。在推進人工智慧發展的同時,追求高標準的科學卓越。 未來將與一系列利益攸關方合作,利用科學嚴謹和多學科的方法,促進這一領域的深思熟慮的領導。並負責任地分享人工智慧知識,發佈教育材料、最佳實踐和研究,使更多人能夠開發有用的人工智慧應用。
  7. 可用於符合以下原則的用途
    在開發和部署人工智慧技術時,會根據以下因素評估可能的用途:
    (1) 主要目的和用途:技術和應用程式的主要目的和可能的用途,包括解決方案與有害用途的密切程度或適應程度
    (2)性質和獨特性:我們是否提供獨特的技術或更普遍的技術
    (3)規模:該技術的使用是否會產生重大影響
    (4)Google 參與的性質:我們是提供通用工具、為客戶提供整合工具,還是開發定製解決方案

Google不會用AI做的事情

  1. 造成或可能造成整體傷害的技術。如果存在重大的傷害風險,只會在我們認為收益大大超過風險的情況下進行,並將納入適當的安全限制。
  2. 主要目的或實施是造成或直接便利傷害人員的武器或其他技術。
  3. 收集或使用違反國際公認規範的資訊進行監視的技術。
  4. 其目的違反廣泛接受的國際法和人權原則的技術。

參考資料:

  1. Gemini 1.0 技術文件
  2. Google發展AI的原則
  3. Welcome to the Gemini era
  4. Introducing Gemini: our largest and most capable AI model