Ersetzt der Benchmark manuelle Docs-Reviews?

Nein — er ergänzt sie. Konzepte, Tutorials und Ton bleiben menschlich zu bewerten.

Welcher Bucket hat meist den größten Hebel?

Oft Discovery & Delivery — fehlendes llms.txt oder dreckiges Markdown blockiert alles Weitere.

Können wir den Score im Angebot zitieren?

Ja, mit Methodik-Version und Datum — als Diagnose, nicht als Garantie für Agent-Erfolg.

Benchmark für KI-lesbare Dokumentation

Warum Agenturen einen neutralen Docs-Benchmark brauchen

Coding-Agenten lesen Dokumentation häufiger als Menschen — bei API-Integration, Auth-Flows und Troubleshooting. Scheitern sie an fehlendem llms.txt, HTML-only oder Beispiellücken, ist das kein Modellproblem, sondern Interface-Design.

Der öffentliche DocsAlot-Benchmark (öffnet in neuem Tab) misst eine enge Frage: Kann ein Agent eure Docs entdecken, maschinenlesbar abrufen, Struktur verstehen und genug Kontext für den nächsten Schritt finden — ohne zu raten?

Steve Baka nutzt solche Scores in KI-Beratung als objektives Vorher/Nachher — nicht als Marketing-Ranking, sondern als Diagnose: Welcher Bucket fehlt?

Vier gewichtete Buckets — was wirklich geprüft wird

1. Discovery & Delivery: Existiert /llms.txt? /llms-full.txt? Haben Stichproben-Seiten gültige .md-Versionen? Sampling aus llms.txt-Links, sonst Fallback /getting-started, /api, /reference.

2. Content Structure: H1, Blockquote, sinnvolle H2-Abschnitte, Links mit Beschreibungen, ## Optional — angelehnt an AFDocs (öffnet in neuem Tab). Ein leeres llms.txt bringt null Punkte.

3. Task Readiness: Produktbeschreibung, Prerequisites, Integrationen, Fehlerbehandlung, Code-Beispiele. Polierte UI hilft nicht, wenn Auth unklar bleibt.

4. Access & Recovery: Markdown liefert Markdown (nicht HTML-Fehlerseiten), akzeptable Latenz, kein JS-Pflicht-Rendering, Accept: text/markdown, sauberer Body ohne Nav/Footer-Müll.

Vendor-Neutralität als Diagnose, nicht als Werbung

Benchmarks scheitern, wenn der Anbieter gleichzeitig Test und Sieger ist. Nützlich ist ein Tool, das unbequeme Ergebnisse zulässt: Open-Source schlägt Commercial, schlichtes Design schlägt Fancy — weil Machine-Delivery besser ist.

Leaderboards zeigen eine Zahl; entscheidend ist das Failure Pattern: Fehlt llms.txt? Ist Markdown dreckig? Keine Beispiele? Agentur-Reports sollten Bucket-Breakdowns liefern, nicht nur „Score 62“.

Benchmark-Mode ohne versteckte Host-Ausnahmen — sonst kein Vertrauen beim Kunden-Audit.

Grenzen — was der Benchmark nicht misst

Kein End-to-End-Workflow, keine Code-Validierung, keine live API-Calls. Es misst Docs-Operability, nicht Software-Operability.

Trotzdem relevant: Docs sind oft der erste Kontakt von Agenten mit eurem Produkt — scheitert der, bricht Adoption ab, bevor Menschen eingreifen.

Separate Benchmarks für CLI, Auth und Recovery folgen logisch — siehe Man-Pages für CLIs.

So setzt ihr den Benchmark in Beratung ein

1. Baseline vor Projektstart erfassen. 2. Maßnahmen nach Bucket priorisieren (Discovery vor Copywriting). 3. Nach Deploy erneut messen — gleiche Methodik-Version.

Schnell-Check für Kunden-Domains: Agent-Ready-Check. Verknüpft mit Dokumentation KI-lesbar machen für Umsetzung und llms.txt reicht nicht für Negotiation.

Enge Claims sind nützliche Claims — der Benchmark sagt nicht „beste Docs der Welt“, sondern „agentenlesbar genug für den nächsten Schritt“.

Benchmark für KI-lesbare Dokumentation

Kurzantwort

Warum Agenturen einen neutralen Docs-Benchmark brauchen

Vier gewichtete Buckets — was wirklich geprüft wird

Vendor-Neutralität als Diagnose, nicht als Werbung

Grenzen — was der Benchmark nicht misst

So setzt ihr den Benchmark in Beratung ein

Über den Autor

Häufige Fragen

Referenzen

Dokumentation KI-lesbar machen — Praxisleitfaden

Warum die meiste Developer-Dokumentation scheitert

Kurzantwort

Warum Agenturen einen neutralen Docs-Benchmark brauchen

Vier gewichtete Buckets — was wirklich geprüft wird

Vendor-Neutralität als Diagnose, nicht als Werbung

Grenzen — was der Benchmark nicht misst

So setzt ihr den Benchmark in Beratung ein

Über den Autor

Häufige Fragen

Referenzen

Verwandte Artikel

Dokumentation KI-lesbar machen — Praxisleitfaden

Warum die meiste Developer-Dokumentation scheitert