目錄
什麼是 AI 護欄(guardrails)?
AI 護欄是一種設計來確保公司的 AI 工具,特別是大型語言模型(LLM),能夠與組織標準、政策和價值觀保持一致的系統 McKinsey。就像高速公路上的護欄防止車輛偏離道路一樣,AI 護欄防止 AI 系統產生不適當或危險的輸出。
護欄是一組可編程的、基於規則的系統,位於用戶和基礎模型之間,以確保 AI 模型在組織定義的原則範圍內運作
AI護欄的運作機制
1. 輸入護欄(Input Guardrails)
輸入護欄在 LLM 應用處理請求之前應用,攔截傳入的輸入以判斷它們是否安全可繼續處理 Confident AI。
常見使用場景:
- 主題護欄: 識別用戶何時提出離題問題,並提供關於 LLM 可以幫助的主題建議 OpenAI Cookbook
- 越獄檢測: 檢測用戶試圖劫持 LLM 並覆蓋其提示的行為
- 提示注入防護: 捕捉提示注入實例,防止用戶試圖隱藏惡意代碼 OpenAI Cookbook
- 隱私保護: 防止輸入包含不想儲存的敏感個人資訊
2. 輸出護欄(Output Guardrails)
輸出護欄評估生成的輸出是否存在漏洞。如果檢測到問題,LLM 系統通常會重試生成設定次數以產生更安全的輸出 Confident AI。
檢測內容包括:
- 幻覺(Hallucination):輸出包含不準確或虛構的細節
- 毒性內容:包含髒話、有害語言或仇恨言論
- 偏見:包含性別、種族或政治偏見的輸出
- 資料洩漏:意外暴露個人識別資訊
AI護欄(guardrails)涵蓋的風險類型
沒有護欄,LLM 安全性會變成噩夢 Confident AI。以下是護欄檢查的最常見漏洞:
- 資料洩漏(Data Leakage): 輸出是否意外暴露個人識別資訊
- 提示注入(Prompt Injection): 檢測並防止旨在操縱提示的惡意輸入
- 越獄(Jailbreaking): 精心設計的輸入試圖繞過安全限制
- 偏見(Bias): 包含性別、種族或政治偏見的輸出
- 毒性(Toxicity): 包含髒話、有害語言或仇恨言論
- 隱私(Privacy): 防止輸入包含敏感個人資訊
- 幻覺(Hallucination): 包含不準確或虛構細節的回應
開源 AI 護欄軟體比較表
基本資訊比較
| 項目 | Guardrails AI | NVIDIA NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 開發者 | Guardrails AI 團隊 | NVIDIA | Meta (Facebook) | Confident AI |
| 首次發布 | 2023 | 2023 | 2025 年 5 月 | 2023 |
| 授權 | Apache 2.0 | Apache 2.0 | Apache 2.0 | Apache 2.0 |
| 主要語言 | Python | Python | Python | Python |
| GitHub Stars | ~7K+ | ~4K+ | 新發布 (~1K+) | ~3K+ |
核心定位與目標
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 主要定位 | 輸入/輸出驗證框架 | 對話流程控制系統 | AI 代理安全防護 | LLM 評估與測試框架 |
| 核心理念 | Pydantic 風格的 LLM 輸出驗證 | 可編程的對話護欄 | 分層防禦架構 | 類 Pytest 的單元測試 |
| 適用場景 | 通用 LLM 應用、RAG 系統 | 對話式 AI、聊天機器人 | AI 代理、編碼助手 | LLM 評估、CI/CD 測試 |
技術架構與方法
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 核心技術 | 驗證器 + 結構化輸出 | 文本嵌入 + Colang DSL | 多掃描器組合 | LLM-as-Judge + 評估指標 |
| 架構風格 | 模組化驗證框架 | 事件驅動狀態機 | 分層防禦系統 | 測試驅動評估 |
| 特殊語言 | RAIL (規範語言) | Colang (對話流程語言) | 無 (Python API) | 無 (Python API) |
| 整合方式 | 可獨立使用或嵌入應用 | 包裝整個應用邏輯 | 靈活插入各階段 | 獨立評估流程 |
主要功能特性
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 輸入護欄 | ✅ 支援 | ✅ 主要功能 | ✅ 核心功能 | ❌ 評估用途 |
| 輸出護欄 | ✅ 核心功能 | ✅ 支援 | ✅ 支援 | ❌ 評估用途 |
| 主題控制 | ⚠️ 需自訂 | ✅ 內建支援 | ⚠️ 需自訂 | ❌ |
| 對話流程管理 | ❌ | ✅ 核心功能 | ❌ | ❌ |
| 提示注入檢測 | ✅ 支援 | ✅ 支援 | ✅ PromptGuard 2 | ✅ 可檢測 |
| 越獄檢測 | ✅ 支援 | ✅ 支援 | ✅ 高精度 (97.5%) | ✅ 可檢測 |
| 代理對齊檢查 | ❌ | ⚠️ 部分支援 | ✅ AlignmentCheck | ❌ |
| 程式碼安全 | ⚠️ 需自訂 | ❌ | ✅ CodeShield | ❌ |
| PII 檢測 | ✅ 支援 | ✅ 支援 | ⚠️ 可自訂 | ✅ 可檢測 |
| 幻覺檢測 | ✅ 支援 | ⚠️ 需配置 | ❌ | ✅ 核心指標 |
| 毒性檢測 | ✅ 支援 | ✅ 支援 | ⚠️ 可自訂 | ✅ 核心指標 |
驗證器/檢查器生態
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 預建驗證器 | 50+ (Guardrails Hub) | 多種內建 Rails | 3 個核心掃描器 | 15+ 評估指標 |
| 自訂能力 | ✅ 強大 (Python) | ✅ 強大 (Colang) | ✅ 可擴展 | ✅ 強大 (Python) |
| 社群貢獻 | ✅ 活躍 | ✅ 成長中 | 🆕 剛開始 | ✅ 活躍 |
| 驗證方式 | ML/LLM/規則/啟發式 | 嵌入向量 + LLM | BERT 分類器 + LLM | LLM + NLP + 統計 |
核心組件詳細功能
Guardrails AI
- Validators: 毒性檢測、競爭對手提及、事實檢查、資料洩漏等
- RAIL Spec: XML 格式規範,定義輸出結構和約束
- Hub: 社群貢獻的驗證器市場
- Re-prompting: 失敗時自動重新提示
NeMo Guardrails
- Colang Flows: 定義對話狀態機
- Rails 類型: Topical, Safety, Security Rails
- Action System: 連接外部服務和工具
- Embedding Models: 用於意圖匹配和流程選擇
- NIM 整合: 與 NVIDIA NIM 微服務整合
LlamaFirewall
- PromptGuard 2: 86M/22M 參數 BERT 分類器,低延遲檢測
- AlignmentCheck: CoT 審計,檢測目標劫持
- CodeShield: 靜態分析引擎,檢測不安全程式碼
- 自訂掃描器: 支援正則表達式和 LLM 提示
DeepEval
- 評估指標: G-Eval, Answer Relevancy, Hallucination, RAGAS 等
- 紅隊測試: 40+ 安全漏洞檢測
- 合成資料集: 自動生成測試資料
- 追蹤系統: @observe 裝飾器用於組件級評估
效能與延遲
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 延遲影響 | 低至中等 | ~0.5 秒 (5 個並行護欄) | 極低 (生產就緒) | 不適用 (離線評估) |
| GPU 加速 | ⚠️ 可選 | ✅ 支援 | ✅ 可選 | ⚠️ 可選 |
| 吞吐量 | 高 | 高 (最佳化過) | 極高 | 中等 |
| 資源需求 | 輕量至中等 | 中等 | 輕量 | 中等 |
整合能力
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| LangChain | ✅ 完整支援 | ✅ 原生整合 | ✅ 可整合 | ✅ 支援 |
| LlamaIndex | ✅ 支援 | ✅ 支援 | ⚠️ 可整合 | ✅ 原生整合 |
| OpenAI API | ✅ 支援 | ✅ 支援 | ✅ 支援 | ✅ 支援 |
| 本地 LLM | ✅ 支援 | ✅ 支援 | ✅ 支援 | ✅ 支援 |
| REST API | ✅ Server 模式 | ✅ Server 模式 | ✅ 可部署 | ✅ API 服務 |
| CI/CD | ✅ 支援 | ⚠️ 可整合 | ✅ 適合 | ✅ 原生支援 |
部署方式
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 無伺服器 | ✅ 支援 | ⚠️ 有限 | ✅ 適合 | ✅ 支援 |
| 容器化 | ✅ Docker | ✅ Docker | ✅ Docker | ✅ Docker |
| 雲端服務 | ✅ 任何雲端 | ✅ 任何雲端 | ✅ 任何雲端 | ✅ Confident AI 平台 |
| 邊緣設備 | ⚠️ 有限 | ❌ | ✅ 輕量版 (22M) | ❌ |
| VPC 內部署 | ✅ 完全支援 | ✅ 完全支援 | ✅ 完全支援 | ✅ 支援 |
使用難度
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 學習曲線 | 低至中等 | 中至高 | 低至中等 | 低 |
| 設置複雜度 | 簡單 | 中等 | 簡單 | 非常簡單 |
| 文件完整性 | ✅ 優秀 | ✅ 優秀 | ✅ 完整 | ✅ 優秀 |
| 範例豐富度 | ✅ 豐富 | ✅ 豐富 | ✅ 基本 | ✅ 非常豐富 |
| Python 熟悉度需求 | 中等 | 中等 | 低至中等 | 低至中等 |
| ML 知識需求 | 低 | 低至中等 | 低 | 中等 |
成本考量
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 軟體成本 | 完全免費 | 完全免費 | 完全免費 | 完全免費 |
| LLM API 成本 | 可能產生 (依驗證器) | 會產生 | 較低 (主要用 BERT) | 會產生 (評估用) |
| 硬體依賴 | 無特殊需求 | 建議 NVIDIA GPU | 無特殊需求 | 無特殊需求 |
| 營運成本 | 低至中等 | 中等 | 低 | 低至中等 |
社群與支援
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 社群活躍度 | ✅ 高 | ✅ 高 | 🆕 新興 | ✅ 高 |
| 企業支援 | ✅ 有 | ✅ NVIDIA 支援 | ✅ Meta 支援 | ✅ Confident AI |
| 更新頻率 | 高 | 高 | 🆕 剛開始 | 非常高 |
| Discord/論壇 | ✅ 活躍 | ✅ 活躍 | ⚠️ 建立中 | ✅ 活躍 |
| 商業夥伴 | Bloomberg, Pear VC | 多家企業 | Meta 生態系 | Y Combinator |
特殊優勢
Guardrails AI
- ✅ 最靈活的驗證框架
- ✅ 豐富的預建驗證器庫
- ✅ 可獨立使用,不綁定特定架構
- ✅ 結構化輸出生成能力強
- ✅ 與 NeMo Guardrails 可互通
NeMo Guardrails
- ✅ 企業級對話控制
- ✅ GPU 加速性能優異
- ✅ NVIDIA 生態系整合
- ✅ Colang 提供強大的流程控制
- ✅ 最適合複雜對話場景
LlamaFirewall
- ✅ 專為 AI 代理設計
- ✅ 最低延遲 (生產就緒)
- ✅ 代理對齊檢查獨特
- ✅ 程式碼安全掃描
- ✅ 分層防禦架構
DeepEval
- ✅ 專注評估與測試
- ✅ 紅隊測試能力最強 (40+ 漏洞)
- ✅ CI/CD 整合最佳
- ✅ 類 Pytest 語法熟悉
- ✅ 雲端平台支援完整
典型使用案例
| 使用案例 | 推薦方案 | 原因 |
|---|---|---|
| RAG 問答系統 | Guardrails AI | 豐富的輸出驗證器,結構化輸出 |
| 客服聊天機器人 | NeMo Guardrails | 強大的對話流程控制 |
| 編碼助手 | LlamaFirewall | CodeShield 程式碼安全掃描 |
| AI 代理系統 | LlamaFirewall | 代理對齊檢查,低延遲 |
| 金融諮詢 | Guardrails AI + NeMo | 雙層防護,合規性檢查 |
| 內容審核 | Guardrails AI | 多種內容安全驗證器 |
| LLM 開發測試 | DeepEval | 完整評估框架,CI/CD 整合 |
| 多輪對話 | NeMo Guardrails | 狀態機管理,流程控制 |
| 企業知識庫 | Guardrails AI | 事實檢查,幻覺檢測 |
互補性與組合使用
推薦組合
- Guardrails AI + NeMo Guardrails: 官方支援互通,結合驗證能力和流程控制
- LlamaFirewall + 任何框架: 作為最外層防禦,保護 AI 代理
- DeepEval + 任何護欄: 用於評估護欄效果和系統性能
- 三層防護: LlamaFirewall (代理層) + NeMo (對話層) + Guardrails AI (驗證層)
選擇建議
選擇 Guardrails AI
- ✅ 需要靈活的驗證框架
- ✅ 想要豐富的預建驗證器
- ✅ 需要結構化輸出生成
- ✅ 希望獨立於對話框架使用
- ✅ 重視社群生態和可擴展性
選擇 NeMo Guardrails
- ✅ 建構對話式 AI 應用
- ✅ 需要複雜的對話流程控制
- ✅ 使用 NVIDIA 生態系統
- ✅ 需要企業級性能和 GPU 加速
- ✅ 重視對話主題和安全控制
選擇 LlamaFirewall
- ✅ 開發自主 AI 代理
- ✅ 需要極低延遲
- ✅ 重視程式碼生成安全
- ✅ 需要檢測代理目標劫持
- ✅ 希望分層防禦架構
選擇 DeepEval
- ✅ 主要需求是評估和測試
- ✅ 需要紅隊測試能力
- ✅ 整合 CI/CD 流程
- ✅ 需要基準測試和比較
- ✅ 重視持續監控和改進
技術成熟度評估
| 項目 | Guardrails AI | NeMo Guardrails | LlamaFirewall | DeepEval |
|---|---|---|---|---|
| 成熟度 | 成熟 (2 年+) | 成熟 (2 年+) | 新興 (< 1 年) | 成熟 (2 年+) |
| 生產就緒 | ✅ 是 | ✅ 是 | ✅ 是 | ✅ 是 |
| API 穩定性 | 穩定 | 穩定 | 發展中 | 穩定 |
| 向後兼容 | ✅ 良好 | ✅ 良好 | 🆕 待觀察 | ✅ 良好 |
| 企業採用 | ✅ 多家 | ✅ 廣泛 | 🆕 早期 | ✅ 成長中 |
未來發展方向
Guardrails AI
- 擴展 Guardrails Hub 生態系
- 增強結構化輸出能力
- 更多企業功能
NeMo Guardrails
- 多模態支援 (圖像、音訊)
- 更高效的 Rails 編排
- 擴展 NIM 整合
LlamaFirewall
- 多模態代理支援
- AlignmentCheck 延遲最佳化
- 更多安全掃描器
- 建立評測基準
DeepEval
- 更多評估指標
- 增強紅隊能力
- 持續監控功能
- 更好的可視化
更新日期: 2025 年 11 月 資料來源: 官方文件、GitHub、技術文章




