Warum Inference-Ökonomie KI-Berater betrifft
Inference-as-a-Service wirkt von außen wie skalierbare Umsatzlinie — GPU-Kapazität verkaufen, Modell-API weiterreichen. In der Praxis: Unit Economics bestrafen kleine Fehler schneller als in klassischem SaaS. Umsatz kann steigen, während Contribution Margin kollabiert — wenn COGS, Utilization und Pricing nicht wöchentlich gemanagt werden.
Muster in der Branche: Akquisitionen (BentoML, Replicate, Groq, Lepton) und Shutdowns (Ploomber, Modelbit) — nicht weil Nachfrage fake ist, sondern weil Standalone-Inference schwer zu halten ist.
Steve Baka: Berater, die Kunden Modell-Hosting, Fine-Tuning oder „eigene GPU“ empfehlen, müssen Utilization und Margin genauso erklären wie Latenz und Modellwahl.
Fünf strukturelle Härten
1. Volatile COGS — GPU-Verfügbarkeit, Modell-Mix (klein → Riesen), Latenz-SLOs erzwingen Overprovisioning, Burst-Traffic. Festpreise + steigende Kosten pro Token = unter Wasser, bevor Finance es sieht.
2. Utilization — 70 % vs. 45 % Auslastung bei ähnlichem Umsatz kann existential sein. Wochenend-Täler, ein Kunde flutet, Pilot reserviert Kapazität ohne Verbrauch.
3. GPU-Umsatz ≠ gute Deals — Low-Commitment, Low-Margin, hoher Support-Aufwand = Laufband ohne Moat.
4. Cloud-Level Reliability bei Startup-Größe — Uptime, Latenz, Failover, Incident — teuer, bevor Enterprise-Preise zahlbar sind.
5. Zange — Upstream (Modell/Hardware) und Downstream (Procurement, Anbieter-Vergleich) drücken die Mitte.
Kapital und Konsolidierung
Unabhängig bleiben heißt oft: Kapazität vor garantierter Nachfrage reservieren, Repricing-Zyklen überleben, Enterprise-Sales-Zyklen finanzieren, Utilization-Shocks absorbieren. Ohne Balance-Sheet endet ein schlechter Quartalszyklus das Unternehmen.
Große Player (Baseten, Together, Modal, Hugging Face, fal, Fireworks, RunPod, Anyscale u. a.) haben hunderte Millionen Equity absorbiert — Kategorie konsolidiert trotz wachsender Nachfrage.
Für KMU-Kunden: Managed API (OpenAI, Anthropic, EU-Alternativen) vs. Self-Host — Entscheidung über TCO, nicht Hero-Image. Siehe OpenAI vs. Open Source Kosten und Hybrid-Routing.
Was Überlebensfähigkeit erfordert
Pricing-Hygiene — lebendes System, nicht einmaliges Sheet. Demand Quality > Volume — vorhersehbare, committed Kunden schlagen Burst ohne Retention.
Produktisierte Reliability — nicht nur Statuspage und Helden-On-Call. Differenzierung jenseits „wir hosten Modelle“ — Workflow, Vertical, DX mit messbarer Time-to-Value.
Kapitalstrategie ehrlich — Effizienz ersetzt nicht immer Balance-Sheet in Infra-Kategorien.
Beratungs-Checkliste für Kunden mit Inference-Ambitionen
□ Wöchentliche Utilization-Math □ Contribution Margin pro Kunde/Workload □ Repricing-Trigger bei Modell-/GPU-Shift □ SLO vs. Overprovisioning-Kosten □ Exit: Build vs. Buy vs. API.
2026-Erwartung: wenige standalone Gewinner, weiter Konsolidierung — Nachfrage wächst, Margin-Disziplin entscheidet.
Inference ist reales Business — eines der unversöhnlichsten in AI gerade. Agenturen sollten das vor dem Pitch „wir bauen euch Inference“ aussprechen.
