Grafana o11y-bench 深入剖析:讓 AI 真正面對 on-call 現場
o11y-bench 深入剖析:讓 AI 真正面對 on-call 現場
從任務設計、合成環境、Agent 架構、評分機制到報告輸出,逐一解析這個開放 benchmark 的每個組件——以及 Gemini 3 Flash Preview 的完整實測結果
先說清楚這在解決什麼問題
目前多數 LLM benchmark 測的是「知識」:模型知不知道 PromQL 的語法,知不知道什麼是 p99
ganhua.wang16 min read