Grafana o11y-bench 深入剖析：讓 AI 真正面對 on-call 現場

o11y-bench 深入剖析：讓 AI 真正面對 on-call 現場從任務設計、合成環境、Agent 架構、評分機制到報告輸出，逐一解析這個開放 benchmark 的每個組件——以及 Gemini 3 Flash Preview 的完整實測結果先說清楚這在解決什麼問題目前多數 LLM benchmark 測的是「知識」：模型知不知道 PromQL 的語法，知不知道什麼是 p99