內容
評估模型的表現-混淆矩陣(Confusion Matrix)
混淆矩陣可計算出許多模型評估指標,包括準確率、精確率、召回率和 F值分數等。

準確率(Accuracy)
模型正確預測的比例
計算公式為 (TP + TN) / (TP + TN + FP + FN)
精確率(Precision)
在模型預測為正類別的樣本中,真正為正類別的比例
計算公式為 TP / (TP + FP)
召回率(Recall)
在所有正類別樣本中,模型成功預測為正類別的比例
計算公式為 TP / (TP + FN)
F值分數(F-score)
精確率和召回率的加權調和平均數
計算公式

當Precision和Recall權重一樣時β=1,稱為F1-Score

RAG, KG-based GraphRAGs and Community-based GraphRAGs

https://arxiv.org/pdf/2502.11371
RAG vs. GraphRAG: A Systematic Evaluation and Key Insights , by Meta, IBM, 密西根大學、奧瑞岡大學(2025/10/17)
RAG vs Graph RAG
| 項目 | RAG | Graph RAG |
| 資料類型 | 非結構化文字資料 | 結構化資料或可轉換為圖的文字資料 |
| 查詢類型 | 單跳問題、細節導向問題 | 多跳推理問題、跨段落/跨文件問題 |
| 摘要任務 | 擅長捕捉細節、精準回答 | 擅長生成多面向、具多樣性的摘要 |
| 檢索方式 | 向量相似度、語義搜尋 | 圖結構搜尋、社群摘要、實體關係推理 |
| 優勢 | 快速、準確、易於部署 | 推理能力強、可處理複雜關聯 |
| 劣勢 | 缺乏推理能力、容易幻覺 | 建構成本高、圖譜品質影響大 |
| 適用任務 | FAQ、事實查詢、精準摘要 | 知識密集任務、跨文件整合 |
| 適合使用情境 | •查詢內容明確、可直接從文本擷取答案 •資料量大但結構鬆散,無需建立知識圖譜 •需要快速部署與低建置成本的應用場景 •單一文件或短文本摘要任務 | •查詢需跨段落、跨文件推理,或需多步邏輯推導 •資料具結構性或可轉換為圖結構(如政策規範、醫療紀錄) •需要高可解釋性與知識追溯能力 •多代理系統或需共享知識庫的應用架構 |
知識圖譜RAG技術介紹與探討, 中華電信研究所
JPMorgan Chase評估AI agent專利介紹
基於大型語言模型的程式碼產生評估方法和系統

JPMorgan Chase 專利公告(2025/9/25)
基於大型語言模型的程式碼產生評估方法和系統
METHOD AND SYSTEM FOR EVALUATION OF CODE GENERATION BY LARGE LANGUAGE MODEL BACKGROUND
1.這份專利文件描述了一個系統化評估大型語言模型(LLM)生成程式碼品質的方法與系統。
2.這份專利本質上是一個 AI Agent 評估系統,特別聚焦於評估 Agent 與外部 API 互動的能力。
3.提供了一種方法和系統,用於評估由大型語言模型 (LLM) 生成的軟體程式碼品質。該方法包括:接收一組用於執行任務並生成輸出的指令;將可用的應用程式介面 (API) 清單和指令作為輸入提供給 LLM,並向 LLM 提交請求以選擇一個 API 並基於該指令生成一組可執行程式碼;從 LLM 接收所選擇的 API 和該組可執行程式碼;執行該組可執行程式碼以執行任務並生成輸出;以及評估該組可執行程式碼的準確性、穩健性和/或一致性。

AI agent效能評估架構

流程圖說明
📊 四大階段
1.⚙️ 配置階段
設定評估參數與測試策略
2.📚 資料準備階段
構建三層式評估資料集
3.🤖 LLM 互動階段
提交任務並接收 Agent 回應
4.🔍 評估階段
三大維度深度評估
AI agent測試案例生成流程
根據專利文件,測試案例的生成採用 半自動化混合策略:

專利 Figure 8 展示的 Prompt 範例
System Prompt:
你是一個測試案例生成專家。根據提供的範例,生成類似但不同的測試案例。





