馬斯克 (Elon Musk) 發佈新的 AI 聊天機器人“Grok”來對抗 ChatGPT 

馬斯克投資的xAI初創公司推出生成式AI模型,用來挑戰谷歌、臉書及OpenAI的聊天機器人。”Grok”能以較少的參數就能達到不錯測試評分,後續應該會有不錯的成績。

參考資料:

  1. Elon Musk releases new AI chatbot ‘Grok’ in bid to take on ChatGPT
  2. Announcing Grok

馬斯克(Elon Musk) 的人工智慧新創公司xAI 發布了其第一個人工智慧模型,這位科技億萬富翁希望透過一款與X(前身為Twitter)緊密整合的時尚聊天機器人來挑戰OpenAI、Google和Meta。

馬斯克在2023/11/4晚上在X平台(Twitter)的一篇文章中表示,新的人工智慧系統”Grok”可以“實時訪問”社交媒體平臺X的資訊,這使其“比其他模型具有巨大優勢”,這些模型在很大程度上依賴於舊的互聯網數據檔案。

馬斯克補充說,聊天機器人「喜歡諷刺」,並以「一點幽默」回應,希望賦予格Grok更多的個性,使其在日益擁擠的市場中脫穎而出。

Elon Musk在2023/11/4的貼文

Grok簡介

the xAI Team xAI 團隊對Grok的描述

Grok 是一個以《銀河系漫遊指南》為藍本的 AI,因此幾乎可以回答任何事情,更難的是,甚至可以建議要問什麼問題!

Grok 旨在以一點機智的方式回答問題,並且具有叛逆的傾向,所以如果您討厭幽默,請不要使用它!

Grok 的一個獨特而根本的優勢是它通過 X 平台實時瞭解世界。它還將回答大多數其他人工智慧系統拒絕的辛辣問題。

Grok 仍然是一個非常早期的測試版產品——我們在 2 個月的培訓中所能做到的最好的產品——所以期望它在您的幫助下每週都能快速改進。

為什麼要建造 Grok

在xAI,希望創造人工智慧工具,幫助人類尋求理解和知識。通過創建和改進Grok,目標是:

  1. 收集反饋並確保我們正在構建能夠最大限度地造福全人類的 AI 工具。我們認為,設計對各種背景和政治觀點的人都有用的人工智慧工具非常重要。我們還希望在遵守法律的前提下,通過我們的人工智慧工具為我們的使用者提供支援。我們與Grok的目標是在公開場合探索和展示這種方法。
  2. 賦能研究和創新:我們希望 Grok 成為任何人的強大研究助手,幫助他們快速訪問相關信息、處理數據並提出新想法。
  3. 最終目標是人工智慧工具協助追求理解。

Grok-1之旅

  1. 為Grok提供動力的引擎是Grok-1,這是該公司在過去四個月中開發的前沿LLM(大語言模型)。在這段時間里,Grok-1經歷了多次反覆迭代。
  2. 在宣佈 xAI 之後,該公司訓練了一個具有 330 億個參數的原型 LLM (Grok-0)。這個早期模型在標準 LM (語言模型)基準測試上接近 Meta的LLaMA 2模型 (700億個參數) 功能,但只使用了一半的訓練資源。在過去的兩個月里,在推理和編碼能力方面取得了重大改進,最終推出了 Grok-1,這是一種功能更強大的最先進的語言模型,在 HumanEval 編碼任務中實現了 63.2%,在 MMLU 上實現了 73%。(大約排在第6名,如下圖)

HumanEval: 是一個評估語言模型優劣的數據集,是由OpenAI以手寫方式撰寫。包含一組164個程式設計挑戰。 每個問題都包括一個函數簽名、文檔字串、正文和幾個單元測試,每個問題平均有7.7個測試。 HumanEval數據集中的程式設計任務包含了評估語言理解、推理、算法和簡單數學。 這個數據集可讓其他人評估其模型的功能正確性並衡量其解决問題的能力。

數据集位於Github: https://www.github.com/openai/human-eval

HumanEval數據集的論文: Evaluating Large Language Models Trained on Code

Grok簡介

the xAI Team xAI 團隊對Grok的描述

Grok 是一個以《銀河系漫遊指南》為藍本的 AI,因此幾乎可以回答任何事情,更難的是,甚至可以建議要問什麼問題!

Grok 旨在以一點機智的方式回答問題,並且具有叛逆的傾向,所以如果您討厭幽默,請不要使用它!

Grok 的一個獨特而根本的優勢是它通過 X 平台實時瞭解世界。它還將回答大多數其他人工智慧系統拒絕的辛辣問題。

Grok 仍然是一個非常早期的測試版產品——我們在 2 個月的培訓中所能做到的最好的產品——所以期望它在您的幫助下每週都能快速改進。

為什麼要建造 Grok

在xAI,希望創造人工智慧工具,幫助人類尋求理解和知識。通過創建和改進Grok,目標是:

  1. 收集反饋並確保我們正在構建能夠最大限度地造福全人類的 AI 工具。我們認為,設計對各種背景和政治觀點的人都有用的人工智慧工具非常重要。我們還希望在遵守法律的前提下,通過我們的人工智慧工具為我們的使用者提供支援。我們與Grok的目標是在公開場合探索和展示這種方法。
  2. 賦能研究和創新:我們希望 Grok 成為任何人的強大研究助手,幫助他們快速訪問相關信息、處理數據並提出新想法。
  3. 最終目標是人工智慧工具協助追求理解。

Grok-1之旅

  1. 為Grok提供動力的引擎是Grok-1,這是該公司在過去四個月中開發的前沿LLM(大語言模型)。在這段時間里,Grok-1經歷了多次反覆迭代。
  2. 在宣佈 xAI 之後,該公司訓練了一個具有 330 億個參數的原型 LLM (Grok-0)。這個早期模型在標準 LM (語言模型)基準測試上接近 Meta的LLaMA 2模型 (700億個參數) 功能,但只使用了一半的訓練資源。在過去的兩個月里,在推理和編碼能力方面取得了重大改進,最終推出了 Grok-1,這是一種功能更強大的最先進的語言模型,在 HumanEval 編碼任務中實現了 63.2%,在 MMLU 上實現了 73%。(大約排在第6名,如下圖)

HumanEval: 是一個評估語言模型優劣的數據集,是由OpenAI以手寫方式撰寫。包含一組164個程式設計挑戰。 每個問題都包括一個函數簽名、文檔字串、正文和幾個單元測試,每個問題平均有7.7個測試。 HumanEval數據集中的程式設計任務包含了評估語言理解、推理、算法和簡單數學。 這個數據集可讓其他人評估其模型的功能正確性並衡量其解决問題的能力。

數据集位於Github: https://www.github.com/openai/human-eval

HumanEval數據集的論文: Evaluating Large Language Models Trained on Code

MMLU(大規模多任務語言理解)是一種新的基準測試,旨在通過僅在零樣本和少樣本設置中評估模型來衡量預訓練期間獲得的知識。這使得基準更具挑戰性,並且更類似於我們評估人類的方式。該基準涵蓋 STEM、人文、社會科學等領域的 57 個學科。它的難度從初級到高級專業水準不等,它既考驗世界知識,也考驗解決問題的能力。科目範圍從數學和歷史等傳統領域到法律和倫理學等更專業的領域。主題的粒度和廣度使基準測試成為識別模型盲點的理想選擇。

這個網頁 Multi-task Language Understanding on MMLU,提供了不同模型在語言模型的效能(2023.11.05查詢)

Grok的測試績效

為了評估 Grok-1 的能力,該公司使用一些衡量數學和推理能力的標準機器學習基準進行了一系列評估。

  1. GSM8k:中學數學單詞問題,(Cobbe 等人,2021 年),使用思維鏈提示。
  2. MMLU:多學科多項選擇題(Hendrycks 等人,2021 年),提供了 5 次上下文示例。
  3. HumanEval:Python 代碼完成任務,(Chen 等人,2021 年),pass@1評估為零樣本。
  4. 數學:用 LaTeX 編寫的初中和高中數學問題(Hendrycks 等人,2021 年),提示固定的 4 次提示。

在這些基準測試中,Grok-1 表現出強勁的結果,超過了其計算類中的所有其他模型,包括 ChatGPT-3.5 和 Inflection-1。只有像 GPT-4 這樣使用大量訓練數據和計算資源進行訓練的模型才能超越它。這展示了我們在 xAI 以極高的效率訓練 LLM 方面取得的快速進展。

此外為了展現Grok對於新數據的評估能力,該公司使用 2023 年匈牙利全國高中數學期末考試來評分,該期末考試於 2023年5 月底發布。Grok 以 C (59%) 通過了考試,而 Claude-2 獲得了相同的成績 (55%),GPT-4 以 68% 的成績獲得了 B。

Grok使用甲骨文的雲計算平台

甲骨文公司董事長兼首席技術官在2023年9月20日,提及Cohere、NVIDIA 和 X.AI 等供應商使用甲骨文的雲產品(Gen2 Oracle Cloud Infrastructure (OCI))來訓練大型語言模型 (LLM)。