HybridClaw
HybridClaw Lightweight Agent Runtime

HybridClaw Dokumentation

Observability für KI-Agenten

Metrics-Taxonomy, KPIs, Cost- & Safety-Telemetry — eingebaut in die Runtime, nicht aufgesteckt.

Monitoring DashboardsMetrics TaxonomyKPIsTelemetrySafetyReliabilityCost Control
HybridClaw Observability Dashboard mit Gateway-, Agent- und Execution-Spans, Latency- und Cost-per-Task-KPIs.

Live Monitoring Dashboard — Gateway, Agent & Execution Spans

Metrics Taxonomy

Jeder Span, jeder Tool-Call, jede Modell-Invocation emittiert strukturierte Telemetrie. Die Taxonomy ist stabil, dokumentiert und konsistent über Agenten hinweg — Dashboards, Alerts und SLOs funktionieren gleich für jedes Team.

Metric Was es misst Aggregation Typische Alert-Schwelle
task.latency_ms Wall-Clock-Dauer vom Task-Eingang bis zum Terminal State. p50, p95, p99 per Skill p95 > 2× Baseline
task.cost_eur Total Cost (Model + Tools) per Task in EUR. Sum per Agent / Skill / Tag Cost-per-Task > Budget
task.tokens_in / tokens_out Input- + Output-Tokens per LLM-Call. Sum per Model Plötzlicher 50%-WoW-Anstieg
eval.score Score aus Regression-Eval gegen task-spezifische Test-Cases. Min, Mean per Skill-Version Score-Drop > Schwelle blockt Deploy
safety.flag_rate Anteil der Tasks, die der Safety-Classifier flaggt. Rolling 1h, 24h > Baseline + 2σ
tool.error_rate Anteil der Tool-Calls mit Error-Return. Per Tool, rolling 5m > 5% sustained
human_handoff.rate Anteil der Tasks, die zu menschlicher Freigabe eskaliert werden. Per Skill, daily Plötzliche Änderung indiziert Skill-Drift
skill.regression_delta Eval-Score-Veränderung nach Skill- oder Modell-Update. Per Deploy Negatives Delta blockt Promotion

KPIs, die Operators wirklich nutzen

Per-Call-Metrics sind nützlich fürs Debugging. KPIs sind, was du vor einen Sponsor oder Board stellst, um zu zeigen, ob das Agenten-Programm zahlt.

Cost per resolved Task

Total Spend (Model + Tools + Human Review) geteilt durch Tasks, die einen Terminal-Success-State erreichen. Vergleichbar direkt mit Human-Only-Baseline.

Mean Time to Human Escalation

Wie lange Agenten autonom arbeiten, bevor ein Task übergeben wird. Steigend = Skill-Drift; fallend = wachsende Autonomie.

Skill Regression Delta nach Deploy

Eval-Score-Veränderung zwischen aktueller und vorheriger Skill-Version. Fängt Modell-Upgrades, die Verhalten still degradieren.

Human Approval Acceptance Rate

Anteil der vom Agenten vorgeschlagenen Actions, die Menschen akzeptieren. Niedrige Rate = schlechtes Judgement; Rate von 1.0 über Zeit = Trust-Schwelle erreicht, Gate automatisieren.

Safety Incident Rate

Geflaggte Outputs per 1000 Tasks. Per Channel und Skill getrackt — um neue Prompt-Injection- oder Jailbreak-Patterns zu fangen.

Time to First Useful Output

Von Channel-Message-In bis zur ersten nützlichen Agent-Response. Die user-facing Latency, die bestimmt, ob Agenten real-time wirken.

Reliability — Evals als Deploy-Gate

Modelle ändern sich. Skills werden editiert. Ohne Eval-Gate ist jeder Deploy ein Coin-Flip. HybridClaw zeichnet echte Task-Runs als Trajektorien auf, spielt sie gegen neue Skill- oder Modell-Versionen ab und surft Regressionen, bevor sie Production erreichen.

  • Trajektorie-Replay. Vergangene Runs werden zu Test-Cases. Neue Versionen müssen den Score erreichen oder schlagen.
  • Skill-Scorecards. Per-Skill-Dashboard zeigt Pass-Rate, Latency und Cost über das Eval-Set. Operators sehen auf einen Blick, ob ein Skill production-ready ist.
  • Deploy-Gate. Konfigurierbare Schwellen — Score, Latency, Cost — blockieren Promotion automatisch. Kein Mensch im Deploy-Loop, außer eine Regression tritt tatsächlich auf.
  • Content-addressed Rollback. Jede Skill-Version ist content-addressed. Rollback ist ein Command, deterministisch und auditierbar.

Cost Control

Agenten-Plattformen können Modell-Budgets schnell verbrennen. HybridClaw macht Cost zur first-class observable Metric — gemessen per Agent, per Skill, per Task — und zeigt die Hebel, die Operators brauchen.

Model Routing

Simple Tasks an günstigere Modelle, komplexe an leistungsfähige — basierend auf Cost-per-Quality, gemessen durch Evals.

Per-Agent-Budgets

Soft- und Hard-Caps per Tag / Woche / Monat. Soft-Cap warnt, Hard-Cap stoppt neue Tasks bis aufgehoben.

Cache-Layers

In-Memory, on-Disk und Shared-Cache für Skill-Outputs und Retrieval. Cache-Hits kosten nichts.

Trajektorie-Pruning

Skills, die konsistent Token-Budgets überschreiten, werden für Refactoring oder Context-Kompression geflaggt.

Cost-Reports

Daily / Weekly Cost-Reports per Agent und Skill, exportierbar als CSV.

Cost-per-Outcome KPI

Total Spend gegen Business-Outcomes (gelöste Tickets, generierte Leads etc.) tracken — nicht nur rohen Token-Verbrauch.

Safety-Telemetry

Safety ist kein Output-Filter — es ist ein kontinuierliches Signal im gleichen Telemetry-Stream wie Latency und Cost. Operators sehen Safety-Incidents neben den Actions, die sie verursacht haben, mit vollständigem Audit-Trail.

  • Jeder geflaggte Output wird mit der Trajektorie geloggt, die ihn erzeugt hat — Post-Incident-Review dauert Minuten, nicht Tage.
  • High-Impact-Actions (Transfers, externe Mails, Deletes) verlangen menschliche Freigabe — konfigurierbar per Skill, audit-gelogged.
  • Tamper-evidentes Audit-Log: jede Action chained und content-addressed. Operators können beweisen, was ein Agent gemacht hat, wann, und unter welcher Autorität.
  • EU-gehostete Control Plane. DSGVO- & AI-Act-konform by Design.