Faktura za AI rośnie. Nikt nie wie dlaczego. Większość firm, z którymi rozmawiam, dokładnie wie, ile zapłaciła OpenAI w zeszłym miesiącu — i kompletnie nie wie, ile kosztował ich jeden obsłużony ticket, jeden wygenerowany dokument, jedna sesja użytkownika z asystentem AI w produkcie.

To nie jest błąd księgowy. To brak warstwy, której do tej pory nikt w organizacji nie potrzebował. Cloud miał FinOps. AWS Cost Explorer. Tagowanie zasobów. Showback / chargeback. AI nie ma jeszcze nic z tego ustandaryzowanego — a koszty rosną dwucyfrowo co kwartał.

Ten tekst pokazuje, jak zrobić sobie szybki audyt kosztów AI w 3–5 dni. Jeśli wyjdzie z niego, że problem jest większy niż „mam dwa drogie modele do refactoringu” — to dobry punkt startowy do pełnego audytu. Jeśli wyjdzie, że wszystko jest pod kontrolą — to nie zmarnowane 3 dni, tylko spokojny sen.

Trzy liczby, które zdradzają problem w 30 minut

Zanim wejdziesz w szczegóły, sprawdź trzy liczby. Każda firma jest w stanie je policzyć w pół godziny, bez żadnych narzędzi.

  1. Koszt per useful output. Nie linia API z faktury — koszt jednego ticketu, który naprawdę został zamknięty, jednego dokumentu, który ktoś naprawdę przeczytał, jednego streszczenia, które ktoś naprawdę wykorzystał. Wiele firm liczy „koszt per request” — ale 40% requestów to retry, błędy i odpowiedzi, których nikt nie użył.
  2. AI cost jako % marży brutto. Poniżej 3% śpisz spokojnie. Powyżej 10% masz problem z marżą, nie z kosztem AI. Między 3% a 10% jest strefa, w której audyt zwraca się najszybciej — bo widać konkretne źródła.
  3. Koncentracja power-userów. Top 5% userów konsumuje typowo 30–50% kosztu funkcji AI. Jeśli nie wiesz, jaki to procent u Ciebie, jesteś ślepy na największe ryzyko unit economics.
Tip

Jeśli AI cost / marża brutto wychodzi powyżej 8% — odłóż artykuł i napisz do mnie. Twoja organizacja przepala konkretne pieniądze, a 3 dni audytu zwrócą się w pierwszym miesiącu po wdrożeniu quick winów.

Krok 1 — Rozbij rachunek

Faktura zbiorcza od OpenAI / Anthropic / Azure to abstrakcja. Pierwszy ruch to rozbicie jej na cztery widoki: per dostawca, per model, per use-case, per dział. Wszystkie cztery, nie jeden.

Większość systemów billingowych pokazuje pierwszy widok. Pozostałe trzy musisz zrekonstruować — z logów aplikacji, z metadanych requestów, z tagowania projektów po Twojej stronie. Jeśli nie tagujesz requestów, to jest punkt zero pierwszego audytu: tagowanie.

Typowy rozkład po rozbiciu wygląda mniej więcej tak (przykład z firmy SaaS o 38k zł / mies. AI spendzie):

ModelUse-caseSpend / mies.%Ocena
gpt-4osupport bot12 480 zł32%drogi do tego zadania
claude-opusrag doc q&a8 920 zł24%drogi do tego zadania
gpt-4o-miniintent-router5 410 zł14%odpowiedni
claude-haikusummariser3 200 zł8%odpowiedni
embeddings-3vector search2 110 zł6%odpowiedni
gemini-proagent-loop1 940 zł5%retry rate ↑
copilotseats2 480 zł7%3 nieaktywne licencje
cursorseats1 720 zł4%odpowiedni

Pierwsza obserwacja: dwa drogie modele (gpt-4o, claude-opus) odpowiadają za 56% kosztu. Druga: support bot używa gpt-4o do zadania, które obsługuje gpt-4o-mini za 1/15 ceny. Trzecia: jest waste subskrypcyjny — 3 nieaktywne licencje Copilota to ok. 750 zł/mies. spalanych na pustym koncie.

Krok 2 — Drogi model do prostego zadania

Najczęstsze i najtańsze do wdrożenia źródło oszczędności. Większość zespołów zaczyna projekt od „daj GPT-4o, niech działa” — i tak zostaje. Po roku okazuje się, że support bot, który odpowiada na 80% zapytań kategorii „jak resetować hasło”, używa najdroższego modelu na rynku.

Reguła praktyczna jest prosta: routing modeli na podstawie intencji. Pierwszy tani model (np. gpt-4o-mini) klasyfikuje, czy zadanie wymaga modelu reasoning-class, czy wystarczy szybki/tani. Reszta jedzie po właściwej trasie.

Pseudokod, który wdrażamy najczęściej:

async function route(userMessage) {
  // 1. Tani router decyduje o trasie
  const intent = await classify({
    model: "gpt-4o-mini",
    messages: [{role: "system", content: ROUTING_PROMPT},
               {role: "user", content: userMessage}],
    // max_tokens 4 — odpowiedź to jeden z: SIMPLE / COMPLEX / ESCALATE
    max_tokens: 4,
  });

  // 2. Trasa do właściwego modelu
  if (intent === "SIMPLE")   return ask("gpt-4o-mini",   userMessage);
  if (intent === "COMPLEX")  return ask("claude-sonnet", userMessage);
  if (intent === "ESCALATE") return handoffToHuman(userMessage);
}

Co dostajesz: koszt na drogim modelu spada o 60–80%, jakość outputu w wartościach mierzonych przez human review nie spada (a często rośnie — bo gpt-4o-mini nie zaczyna „kreatywnie” odpowiadać na proste pytania).

Uwaga

Routing modeli wymaga ewaluacji. Nie wystarczy „wdrożyłem i działa” — potrzebujesz zestawu testowych konwersacji i pomiaru kosztu + jakości przed i po. Bez tego ryzykujesz, że oszczędzasz 60% kosztu, ale tracisz 5 p.p. retencji klienta.

Krok 3 — Koszt per useful output

Najtrudniejsza, ale najważniejsza liczba w całym audycie. Definicja: jaki jest koszt jednej akcji AI, która rzeczywiście wygenerowała wartość biznesową.

„Wartość biznesowa” to nie jest „request się powiódł HTTP 200”. To jest: ticket został zamknięty pozytywnie, dokument został przeczytany, podsumowanie zostało skopiowane, kod został zaakceptowany w PR. Większość firm liczy requesty. Powinny liczyć useful outputs.

Mieliśmy klienta, który miał piękny dashboard: koszt 0,034 zł / request. Wyglądało świetnie. Po dołożeniu warstwy „czy user zaakceptował odpowiedź” okazało się, że 54% requestów to były retry tej samej intencji. Realny koszt per useful output: 0,074 zł. Ponad dwukrotnie więcej.

Jak to zmierzyć:

  • Tag każdego requestu metadanymi: user_id, session_id, intent, outcome.
  • W aplikacji rejestruj sygnał „outcome”: user kliknął „pomocne” / „skopiowane” / „zamknij ticket” / „wyślij” — cokolwiek oznacza dla Twojego procesu „użyłem tego”.
  • W warstwie kosztowej: sumuj koszt requestów, które należą do sesji z pozytywnym outcome — to są te „useful”. Reszta to overhead.

Narzędzia, które robią to out-of-the-box: Langfuse, Helicone, LangSmith, Portkey. Wybór zależy od stacku — ale wdrożenie któregokolwiek jest tańsze niż mierzenie tego ręcznie po fakcie.

Quick wins, które prawie zawsze się sprawdzają

Lista rekomendacji, które w 80% audytów wchodzą na pierwsze miejsca. Niski wysiłek wdrożenia, wysoki efekt finansowy:

RekomendacjaEfektWysiłekCzas
Routing modeli (intent → tani/drogi)−40 do −85% inferencjiśredni1–2 tyg.
Prompt caching (system prompt + tools)do −90% input tokensniski2–5 dni
Skrócenie system promptu (audyt context bloatu)−15 do −40% kosztuniski1–3 dni
Twardy max_output_tokens−20 do −35% outputniski1 dzień
Usunięcie nieaktywnych licencjinatychmiastowe ↓trywialnygodziny
Batch API do zadań offlinedo −50% kosztuśredni1 tydz.
Alerty + limity budżetowe per userodcina ekstremaniski2–4 dni

Kombinacja pierwszych czterech pozycji to typowo 50–70% redukcji kosztu API w pierwszych 30 dniach od audytu. Bez utraty jakości — bo wszystkie cztery to czysta optymalizacja techniczna, nie zmniejszanie funkcjonalności.

Czego nie znajdziesz robiąc to sam

Powyższe kroki dają około 70% wartości pełnego audytu. Pozostałe 30% to elementy, których nie da się zrobić bez perspektywy zewnętrznej:

  • Pricing AI feature. Czy aktualny plan pokrywa zmienny koszt power-userów. To wymaga unit economics modelu, nie tylko kosztu API.
  • Mapa Shadow AI. Inwentaryzacja narzędzi kupowanych obok głównego stacku przez różne działy — typowo 30–50% wszystkich subskrypcji AI w organizacji.
  • ROI per use-case. Decyzja keep / kill / iterate dla każdej funkcji AI w produkcie. Wymaga porównania kosztu z mierzalnym wpływem na retencję, konwersję lub przychód.
  • Roadmapa wdrożenia. Konkretny plan, co wdrożyć w 30/60/90 dni — z priorytetami, zależnościami i właścicielami zadań.

Podsumowanie

Audyt kosztów AI nie jest skomplikowany. Jest dyscypliną — zrobienia trzech rzeczy, których większość zespołów nie robi: rozbicia rachunku, policzenia kosztu per useful output i sprawdzenia koncentracji power-userów.

Jeśli zrobisz to dziś samodzielnie, w ciągu tygodnia będziesz wiedział, czy masz problem na 5 000 zł / rok czy na 200 000 zł / rok. To wystarczy, żeby świadomie podjąć decyzję: czy zostaje przy DIY, czy zatrudniasz kogoś, kto przeprowadzi pełny audyt z deliverable'ami i roadmapą.

— Andrzej Datta, AI FinOps. Pytania, komentarze, własne case'y: andrzej@aifinops.pl.