Soll ein KMU eigene GPUs betreiben?

Selten als Default — nur bei stabiler Auslastung, klarem Margin-Modell und Ops-Kapazität. Sonst Managed API oder spezialisierte Provider mit Commit.

Wie erkläre ich Utilization dem Management?

Gleicher Umsatz, andere Auslastung = anderer Cashflow. Einfaches Szenario 45 % vs. 70 % mit gleicher Revenue-Linie.

Passt das zu EU/DSGVO-Stack?

Ja — Region und AVV ändern nicht die Margin-Logik. EU-Hosting kann teurer sein; TCO in [KI-Stack EU](/stevebaka/blog/ki-stack-eu-hosting-dsgvo) einrechnen.

Inference-Unit-Economics: Was KI-Berater wissen müssen

Warum Inference-Ökonomie KI-Berater betrifft

Inference-as-a-Service wirkt von außen wie skalierbare Umsatzlinie — GPU-Kapazität verkaufen, Modell-API weiterreichen. In der Praxis: Unit Economics bestrafen kleine Fehler schneller als in klassischem SaaS. Umsatz kann steigen, während Contribution Margin kollabiert — wenn COGS, Utilization und Pricing nicht wöchentlich gemanagt werden.

Muster in der Branche: Akquisitionen (BentoML, Replicate, Groq, Lepton) und Shutdowns (Ploomber, Modelbit) — nicht weil Nachfrage fake ist, sondern weil Standalone-Inference schwer zu halten ist.

Steve Baka: Berater, die Kunden Modell-Hosting, Fine-Tuning oder „eigene GPU“ empfehlen, müssen Utilization und Margin genauso erklären wie Latenz und Modellwahl.

Fünf strukturelle Härten

1. Volatile COGS — GPU-Verfügbarkeit, Modell-Mix (klein → Riesen), Latenz-SLOs erzwingen Overprovisioning, Burst-Traffic. Festpreise + steigende Kosten pro Token = unter Wasser, bevor Finance es sieht.

2. Utilization — 70 % vs. 45 % Auslastung bei ähnlichem Umsatz kann existential sein. Wochenend-Täler, ein Kunde flutet, Pilot reserviert Kapazität ohne Verbrauch.

3. GPU-Umsatz ≠ gute Deals — Low-Commitment, Low-Margin, hoher Support-Aufwand = Laufband ohne Moat.

4. Cloud-Level Reliability bei Startup-Größe — Uptime, Latenz, Failover, Incident — teuer, bevor Enterprise-Preise zahlbar sind.

5. Zange — Upstream (Modell/Hardware) und Downstream (Procurement, Anbieter-Vergleich) drücken die Mitte.

Kapital und Konsolidierung

Unabhängig bleiben heißt oft: Kapazität vor garantierter Nachfrage reservieren, Repricing-Zyklen überleben, Enterprise-Sales-Zyklen finanzieren, Utilization-Shocks absorbieren. Ohne Balance-Sheet endet ein schlechter Quartalszyklus das Unternehmen.

Große Player (Baseten, Together, Modal, Hugging Face, fal, Fireworks, RunPod, Anyscale u. a.) haben hunderte Millionen Equity absorbiert — Kategorie konsolidiert trotz wachsender Nachfrage.

Für KMU-Kunden: Managed API (OpenAI, Anthropic, EU-Alternativen) vs. Self-Host — Entscheidung über TCO, nicht Hero-Image. Siehe OpenAI vs. Open Source Kosten und Hybrid-Routing.

Was Überlebensfähigkeit erfordert

Pricing-Hygiene — lebendes System, nicht einmaliges Sheet. Demand Quality > Volume — vorhersehbare, committed Kunden schlagen Burst ohne Retention.

Produktisierte Reliability — nicht nur Statuspage und Helden-On-Call. Differenzierung jenseits „wir hosten Modelle“ — Workflow, Vertical, DX mit messbarer Time-to-Value.

Kapitalstrategie ehrlich — Effizienz ersetzt nicht immer Balance-Sheet in Infra-Kategorien.

Beratungs-Checkliste für Kunden mit Inference-Ambitionen

□ Wöchentliche Utilization-Math □ Contribution Margin pro Kunde/Workload □ Repricing-Trigger bei Modell-/GPU-Shift □ SLO vs. Overprovisioning-Kosten □ Exit: Build vs. Buy vs. API.

2026-Erwartung: wenige standalone Gewinner, weiter Konsolidierung — Nachfrage wächst, Margin-Disziplin entscheidet.

Inference ist reales Business — eines der unversöhnlichsten in AI gerade. Agenturen sollten das vor dem Pitch „wir bauen euch Inference“ aussprechen.

Inference-Unit-Economics: Was KI-Berater wissen müssen

Kurzantwort

Warum Inference-Ökonomie KI-Berater betrifft

Fünf strukturelle Härten

Kapital und Konsolidierung

Was Überlebensfähigkeit erfordert

Beratungs-Checkliste für Kunden mit Inference-Ambitionen

Über den Autor

Häufige Fragen

Referenzen

OpenAI vs Open Source: Kostenmodell für KMU

OpenAI vs. Open Source: Wann was

Kurzantwort

Warum Inference-Ökonomie KI-Berater betrifft

Fünf strukturelle Härten

Kapital und Konsolidierung

Was Überlebensfähigkeit erfordert

Beratungs-Checkliste für Kunden mit Inference-Ambitionen

Über den Autor

Häufige Fragen

Referenzen

Verwandte Artikel

OpenAI vs Open Source: Kostenmodell für KMU

OpenAI vs. Open Source: Wann was