0 Prozent gelesen

Steve Baka · Strategie

Inference-Unit-Economics: Was KI-Berater wissen müssen

Utilization, COGS und Konsolidierung — warum GPU-Umsatz täuschen kann und wie ihr Kunden realistisch beratet.

Export

Kurzantwort

Inference-Startups scheitern oft an volatilen COGS und Utilization — nicht an fehlender Nachfrage; KI-Berater müssen Margin, Pricing und Build-vs-Buy vor GPU-Heldenstorys klären.

Warum Inference-Ökonomie KI-Berater betrifft

Inference-as-a-Service wirkt von außen wie skalierbare Umsatzlinie — GPU-Kapazität verkaufen, Modell-API weiterreichen. In der Praxis: Unit Economics bestrafen kleine Fehler schneller als in klassischem SaaS. Umsatz kann steigen, während Contribution Margin kollabiert — wenn COGS, Utilization und Pricing nicht wöchentlich gemanagt werden.

Muster in der Branche: Akquisitionen (BentoML, Replicate, Groq, Lepton) und Shutdowns (Ploomber, Modelbit) — nicht weil Nachfrage fake ist, sondern weil Standalone-Inference schwer zu halten ist.

Steve Baka: Berater, die Kunden Modell-Hosting, Fine-Tuning oder „eigene GPU“ empfehlen, müssen Utilization und Margin genauso erklären wie Latenz und Modellwahl.

Fünf strukturelle Härten

1. Volatile COGS — GPU-Verfügbarkeit, Modell-Mix (klein → Riesen), Latenz-SLOs erzwingen Overprovisioning, Burst-Traffic. Festpreise + steigende Kosten pro Token = unter Wasser, bevor Finance es sieht.

2. Utilization — 70 % vs. 45 % Auslastung bei ähnlichem Umsatz kann existential sein. Wochenend-Täler, ein Kunde flutet, Pilot reserviert Kapazität ohne Verbrauch.

3. GPU-Umsatz ≠ gute Deals — Low-Commitment, Low-Margin, hoher Support-Aufwand = Laufband ohne Moat.

4. Cloud-Level Reliability bei Startup-Größe — Uptime, Latenz, Failover, Incident — teuer, bevor Enterprise-Preise zahlbar sind.

5. Zange — Upstream (Modell/Hardware) und Downstream (Procurement, Anbieter-Vergleich) drücken die Mitte.

Kapital und Konsolidierung

Unabhängig bleiben heißt oft: Kapazität vor garantierter Nachfrage reservieren, Repricing-Zyklen überleben, Enterprise-Sales-Zyklen finanzieren, Utilization-Shocks absorbieren. Ohne Balance-Sheet endet ein schlechter Quartalszyklus das Unternehmen.

Große Player (Baseten, Together, Modal, Hugging Face, fal, Fireworks, RunPod, Anyscale u. a.) haben hunderte Millionen Equity absorbiert — Kategorie konsolidiert trotz wachsender Nachfrage.

Für KMU-Kunden: Managed API (OpenAI, Anthropic, EU-Alternativen) vs. Self-Host — Entscheidung über TCO, nicht Hero-Image. Siehe OpenAI vs. Open Source Kosten und Hybrid-Routing.

Was Überlebensfähigkeit erfordert

Pricing-Hygiene — lebendes System, nicht einmaliges Sheet. Demand Quality > Volume — vorhersehbare, committed Kunden schlagen Burst ohne Retention.

Produktisierte Reliability — nicht nur Statuspage und Helden-On-Call. Differenzierung jenseits „wir hosten Modelle“ — Workflow, Vertical, DX mit messbarer Time-to-Value.

Kapitalstrategie ehrlich — Effizienz ersetzt nicht immer Balance-Sheet in Infra-Kategorien.

Beratungs-Checkliste für Kunden mit Inference-Ambitionen

□ Wöchentliche Utilization-Math □ Contribution Margin pro Kunde/Workload □ Repricing-Trigger bei Modell-/GPU-Shift □ SLO vs. Overprovisioning-Kosten □ Exit: Build vs. Buy vs. API.

2026-Erwartung: wenige standalone Gewinner, weiter Konsolidierung — Nachfrage wächst, Margin-Disziplin entscheidet.

Inference ist reales Business — eines der unversöhnlichsten in AI gerade. Agenturen sollten das vor dem Pitch „wir bauen euch Inference“ aussprechen.

FAQ

Häufige Fragen

Quellen

Referenzen

Weiterlesen

OpenAI vs Open Source: Kostenmodell für KMU

Realistischer TCO-Vergleich zwischen API und self-hosted KI — mit Rework, Ops und Entscheidungsmatrix für KMU.

OpenAI vs. Open Source: Wann was

Die richtige Wahl ist keine Ideologiefrage. Entscheidend sind Time-to-Value, Compliance-Risiko, Ergebnisqualität und vollständige Betriebskosten über den gesamten Lebenszyklus.