第四期-生成式人工智慧在金融業的運用及其風險管理(2025/11/26)補充內容

評估模型的表現-混淆矩陣(Confusion Matrix)

混淆矩陣可計算出許多模型評估指標,包括準確率、精確率、召回率和 F值分數等。

準確率(Accuracy)
模型正確預測的比例
計算公式為 (TP + TN) / (TP + TN + FP + FN)

精確率(Precision)
在模型預測為正類別的樣本中,真正為正類別的比例
計算公式為 TP / (TP + FP)

召回率(Recall
在所有正類別樣本中,模型成功預測為正類別的比例

計算公式為 TP / (TP + FN)

F值分數(F-score

精確率和召回率的加權調和平均數

計算公式

當Precision和Recall權重一樣時β=1,稱為F1-Score

RAG, KG-based GraphRAGs and Community-based GraphRAGs

https://arxiv.org/pdf/2502.11371

RAG vs. GraphRAG: A Systematic Evaluation and Key Insights , by Meta, IBM, 密西根大學、奧瑞岡大學(2025/10/17)

RAG vs Graph RAG

項目RAGGraph RAG
資料類型非結構化文字資料結構化資料或可轉換為圖的文字資料
查詢類型單跳問題、細節導向問題多跳推理問題、跨段落/跨文件問題
摘要任務擅長捕捉細節、精準回答擅長生成多面向、具多樣性的摘要
檢索方式向量相似度、語義搜尋圖結構搜尋、社群摘要、實體關係推理
優勢快速、準確、易於部署推理能力強、可處理複雜關聯
劣勢缺乏推理能力、容易幻覺建構成本高、圖譜品質影響大
適用任務FAQ、事實查詢、精準摘要知識密集任務、跨文件整合
適合使用情境•查詢內容明確、可直接從文本擷取答案 •資料量大但結構鬆散,無需建立知識圖譜 •需要快速部署與低建置成本的應用場景 •單一文件或短文本摘要任務•查詢需跨段落、跨文件推理,或需多步邏輯推導 •資料具結構性或可轉換為圖結構(如政策規範、醫療紀錄) •需要高可解釋性與知識追溯能力 •多代理系統或需共享知識庫的應用架構

知識圖譜RAG技術介紹與探討, 中華電信研究所

JPMorgan Chase評估AI agent專利介紹

基於大型語言模型的程式碼產生評估方法和系統

JPMorgan Chase 專利公告(2025/9/25)

基於大型語言模型的程式碼產生評估方法和系統

      METHOD AND SYSTEM FOR EVALUATION OF CODE GENERATION BY LARGE LANGUAGE MODEL BACKGROUND

1.這份專利文件描述了一個系統化評估大型語言模型(LLM)生成程式碼品質的方法與系統。

2.這份專利本質上是一個 AI Agent 評估系統,特別聚焦於評估 Agent 與外部 API 互動的能力。

3.提供了一種方法和系統,用於評估由大型語言模型 (LLM) 生成的軟體程式碼品質。該方法包括:接收一組用於執行任務並生成輸出的指令;將可用的應用程式介面 (API) 清單和指令作為輸入提供給 LLM,並向 LLM 提交請求以選擇一個 API 並基於該指令生成一組可執行程式碼;從 LLM 接收所選擇的 API 和該組可執行程式碼;執行該組可執行程式碼以執行任務並生成輸出;以及評估該組可執行程式碼的準確性、穩健性和/或一致性。

AI agent效能評估架構

流程圖說明

📊 四大階段

1.⚙️ 配置階段
設定評估參數與測試策略

2.📚 資料準備階段
構建三層式評估資料集

3.🤖 LLM 互動階段
提交任務並接收 Agent 回應

4.🔍 評估階段
三大維度深度評估

AI agent測試案例生成流程

根據專利文件,測試案例的生成採用 半自動化混合策略:

專利 Figure 8 展示的 Prompt 範例

System Prompt:

你是一個測試案例生成專家。根據提供的範例,生成類似但不同的測試案例。