Faktura za AI rośnie. Nikt nie wie dlaczego. Większość firm, z którymi rozmawiam, dokładnie wie, ile zapłaciła OpenAI w zeszłym miesiącu — i kompletnie nie wie, ile kosztował ich jeden obsłużony ticket, jeden wygenerowany dokument, jedna sesja użytkownika z asystentem AI w produkcie.
To nie jest błąd księgowy. To brak warstwy, której do tej pory nikt w organizacji nie potrzebował. Cloud miał FinOps. AWS Cost Explorer. Tagowanie zasobów. Showback / chargeback. AI nie ma jeszcze nic z tego ustandaryzowanego — a koszty rosną dwucyfrowo co kwartał.
Ten tekst pokazuje, jak zrobić sobie szybki audyt kosztów AI w 3–5 dni. Jeśli wyjdzie z niego, że problem jest większy niż „mam dwa drogie modele do refactoringu” — to dobry punkt startowy do pełnego audytu. Jeśli wyjdzie, że wszystko jest pod kontrolą — to nie zmarnowane 3 dni, tylko spokojny sen.
Trzy liczby, które zdradzają problem w 30 minut
Zanim wejdziesz w szczegóły, sprawdź trzy liczby. Każda firma jest w stanie je policzyć w pół godziny, bez żadnych narzędzi.
- Koszt per useful output. Nie linia API z faktury — koszt jednego ticketu, który naprawdę został zamknięty, jednego dokumentu, który ktoś naprawdę przeczytał, jednego streszczenia, które ktoś naprawdę wykorzystał. Wiele firm liczy „koszt per request” — ale 40% requestów to retry, błędy i odpowiedzi, których nikt nie użył.
- AI cost jako % marży brutto. Poniżej 3% śpisz spokojnie. Powyżej 10% masz problem z marżą, nie z kosztem AI. Między 3% a 10% jest strefa, w której audyt zwraca się najszybciej — bo widać konkretne źródła.
- Koncentracja power-userów. Top 5% userów konsumuje typowo 30–50% kosztu funkcji AI. Jeśli nie wiesz, jaki to procent u Ciebie, jesteś ślepy na największe ryzyko unit economics.
Jeśli AI cost / marża brutto wychodzi powyżej 8% — odłóż artykuł i napisz do mnie. Twoja organizacja przepala konkretne pieniądze, a 3 dni audytu zwrócą się w pierwszym miesiącu po wdrożeniu quick winów.
Krok 1 — Rozbij rachunek
Faktura zbiorcza od OpenAI / Anthropic / Azure to abstrakcja. Pierwszy ruch to rozbicie jej na cztery widoki: per dostawca, per model, per use-case, per dział. Wszystkie cztery, nie jeden.
Większość systemów billingowych pokazuje pierwszy widok. Pozostałe trzy musisz zrekonstruować — z logów aplikacji, z metadanych requestów, z tagowania projektów po Twojej stronie. Jeśli nie tagujesz requestów, to jest punkt zero pierwszego audytu: tagowanie.
Typowy rozkład po rozbiciu wygląda mniej więcej tak (przykład z firmy SaaS o 38k zł / mies. AI spendzie):
| Model | Use-case | Spend / mies. | % | Ocena |
|---|---|---|---|---|
| gpt-4o | support bot | 12 480 zł | 32% | drogi do tego zadania |
| claude-opus | rag doc q&a | 8 920 zł | 24% | drogi do tego zadania |
| gpt-4o-mini | intent-router | 5 410 zł | 14% | odpowiedni |
| claude-haiku | summariser | 3 200 zł | 8% | odpowiedni |
| embeddings-3 | vector search | 2 110 zł | 6% | odpowiedni |
| gemini-pro | agent-loop | 1 940 zł | 5% | retry rate ↑ |
| copilot | seats | 2 480 zł | 7% | 3 nieaktywne licencje |
| cursor | seats | 1 720 zł | 4% | odpowiedni |
Pierwsza obserwacja: dwa drogie modele (gpt-4o, claude-opus) odpowiadają za 56% kosztu. Druga: support bot używa gpt-4o do zadania, które obsługuje gpt-4o-mini za 1/15 ceny. Trzecia: jest waste subskrypcyjny — 3 nieaktywne licencje Copilota to ok. 750 zł/mies. spalanych na pustym koncie.
Krok 2 — Drogi model do prostego zadania
Najczęstsze i najtańsze do wdrożenia źródło oszczędności. Większość zespołów zaczyna projekt od „daj GPT-4o, niech działa” — i tak zostaje. Po roku okazuje się, że support bot, który odpowiada na 80% zapytań kategorii „jak resetować hasło”, używa najdroższego modelu na rynku.
Reguła praktyczna jest prosta: routing modeli na podstawie intencji. Pierwszy tani model (np. gpt-4o-mini) klasyfikuje, czy zadanie wymaga modelu reasoning-class, czy wystarczy szybki/tani. Reszta jedzie po właściwej trasie.
Pseudokod, który wdrażamy najczęściej:
async function route(userMessage) {
// 1. Tani router decyduje o trasie
const intent = await classify({
model: "gpt-4o-mini",
messages: [{role: "system", content: ROUTING_PROMPT},
{role: "user", content: userMessage}],
// max_tokens 4 — odpowiedź to jeden z: SIMPLE / COMPLEX / ESCALATE
max_tokens: 4,
});
// 2. Trasa do właściwego modelu
if (intent === "SIMPLE") return ask("gpt-4o-mini", userMessage);
if (intent === "COMPLEX") return ask("claude-sonnet", userMessage);
if (intent === "ESCALATE") return handoffToHuman(userMessage);
}Co dostajesz: koszt na drogim modelu spada o 60–80%, jakość outputu w wartościach mierzonych przez human review nie spada (a często rośnie — bo gpt-4o-mini nie zaczyna „kreatywnie” odpowiadać na proste pytania).
Routing modeli wymaga ewaluacji. Nie wystarczy „wdrożyłem i działa” — potrzebujesz zestawu testowych konwersacji i pomiaru kosztu + jakości przed i po. Bez tego ryzykujesz, że oszczędzasz 60% kosztu, ale tracisz 5 p.p. retencji klienta.
Krok 3 — Koszt per useful output
Najtrudniejsza, ale najważniejsza liczba w całym audycie. Definicja: jaki jest koszt jednej akcji AI, która rzeczywiście wygenerowała wartość biznesową.
„Wartość biznesowa” to nie jest „request się powiódł HTTP 200”. To jest: ticket został zamknięty pozytywnie, dokument został przeczytany, podsumowanie zostało skopiowane, kod został zaakceptowany w PR. Większość firm liczy requesty. Powinny liczyć useful outputs.
Mieliśmy klienta, który miał piękny dashboard: koszt 0,034 zł / request. Wyglądało świetnie. Po dołożeniu warstwy „czy user zaakceptował odpowiedź” okazało się, że 54% requestów to były retry tej samej intencji. Realny koszt per useful output: 0,074 zł. Ponad dwukrotnie więcej.
Jak to zmierzyć:
- Tag każdego requestu metadanymi:
user_id,session_id,intent,outcome. - W aplikacji rejestruj sygnał „outcome”: user kliknął „pomocne” / „skopiowane” / „zamknij ticket” / „wyślij” — cokolwiek oznacza dla Twojego procesu „użyłem tego”.
- W warstwie kosztowej: sumuj koszt requestów, które należą do sesji z pozytywnym outcome — to są te „useful”. Reszta to overhead.
Narzędzia, które robią to out-of-the-box: Langfuse, Helicone, LangSmith, Portkey. Wybór zależy od stacku — ale wdrożenie któregokolwiek jest tańsze niż mierzenie tego ręcznie po fakcie.
Quick wins, które prawie zawsze się sprawdzają
Lista rekomendacji, które w 80% audytów wchodzą na pierwsze miejsca. Niski wysiłek wdrożenia, wysoki efekt finansowy:
| Rekomendacja | Efekt | Wysiłek | Czas |
|---|---|---|---|
| Routing modeli (intent → tani/drogi) | −40 do −85% inferencji | średni | 1–2 tyg. |
| Prompt caching (system prompt + tools) | do −90% input tokens | niski | 2–5 dni |
| Skrócenie system promptu (audyt context bloatu) | −15 do −40% kosztu | niski | 1–3 dni |
Twardy max_output_tokens | −20 do −35% output | niski | 1 dzień |
| Usunięcie nieaktywnych licencji | natychmiastowe ↓ | trywialny | godziny |
| Batch API do zadań offline | do −50% kosztu | średni | 1 tydz. |
| Alerty + limity budżetowe per user | odcina ekstrema | niski | 2–4 dni |
Kombinacja pierwszych czterech pozycji to typowo 50–70% redukcji kosztu API w pierwszych 30 dniach od audytu. Bez utraty jakości — bo wszystkie cztery to czysta optymalizacja techniczna, nie zmniejszanie funkcjonalności.
Czego nie znajdziesz robiąc to sam
Powyższe kroki dają około 70% wartości pełnego audytu. Pozostałe 30% to elementy, których nie da się zrobić bez perspektywy zewnętrznej:
- Pricing AI feature. Czy aktualny plan pokrywa zmienny koszt power-userów. To wymaga unit economics modelu, nie tylko kosztu API.
- Mapa Shadow AI. Inwentaryzacja narzędzi kupowanych obok głównego stacku przez różne działy — typowo 30–50% wszystkich subskrypcji AI w organizacji.
- ROI per use-case. Decyzja keep / kill / iterate dla każdej funkcji AI w produkcie. Wymaga porównania kosztu z mierzalnym wpływem na retencję, konwersję lub przychód.
- Roadmapa wdrożenia. Konkretny plan, co wdrożyć w 30/60/90 dni — z priorytetami, zależnościami i właścicielami zadań.
Podsumowanie
Audyt kosztów AI nie jest skomplikowany. Jest dyscypliną — zrobienia trzech rzeczy, których większość zespołów nie robi: rozbicia rachunku, policzenia kosztu per useful output i sprawdzenia koncentracji power-userów.
Jeśli zrobisz to dziś samodzielnie, w ciągu tygodnia będziesz wiedział, czy masz problem na 5 000 zł / rok czy na 200 000 zł / rok. To wystarczy, żeby świadomie podjąć decyzję: czy zostaje przy DIY, czy zatrudniasz kogoś, kto przeprowadzi pełny audyt z deliverable'ami i roadmapą.
— Andrzej Datta, AI FinOps. Pytania, komentarze, własne case'y: andrzej@aifinops.pl.