Jak nasadit AI agenta do produkce, ať nepadá
Demo AI agenta vypadá skvěle. Produkce ho rozloží — runaway smyčky, halucinace, nulová viditelnost. Šest věcí, které musíte mít před spuštěním.
Demo AI agenta je snadné. Zavoláte API, model odpoví, ukážete to stakeholderům. Všichni jsou spokojeni.
Pak ho nasadíte do produkce. Za týden vám přijde faktura za 3 000 dolarů, protože agent uvízl ve smyčce a volal model 8 000krát. Nebo vrátí strukturovaný příkaz, který neexistuje, protože mu uživatel podstrčil instrukci v přirozeném jazyce. Nebo prostě nevíte, co se děje — žádné logy, žádné metriky, žádný kontext.
Tohle jsou problémy, na které narazíte. Nikoli pokud, nýbrž kdy.
Tady je šest věcí, které musíte mít vyřešené, než AI agenta pustíte do provozu.
1. Cost gate — zastav runaway smyčku dřív, než se projeví na faktuře
Každý agent, který volá LLM v cyklu, je potenciální runaway smyčka. Stačí chyba v podmínce ukončení, nečekaný výstup modelu nebo síťový timeout — a agent volá API stovky nebo tisíce krát.
Řešení je mechanické: cost gate, který hodí výjimku ještě před requestem, pokud byl denní budget vyčerpán. Počítáte tokeny přesně — cache write jsou 1,25× dražší než standardní vstup, cache read stojí 0,10×. Pokud to neukazujete v rozpočtu, nevidíte skutečnou cenu.
Bez tohohle vám jeden zacyklený agent prožere měsíční budget za noc. S ním skončí gracefully s výjimkou a alertem.
2. Guardraily — sanitizace vstupu a server-side validace výstupu
LLM je open input/output systém. To znamená dvě rizika:
Na vstupu: uživatel může vložit instrukce v přirozeném jazyce, které změní chování modelu. Prompt injection — ne teorie, ale reálný vektor. Vstup sanitizujte dřív, než se dostane do systémového promptu.
Na výstupu: model vrací strukturovaný výsledek (JSON příkaz, název entity, číselný kód). Bez validace vrátí hodnotu, která vypadá správně, ale neexistuje v systému. Řešíme to server-side regex guardy — ne jen schema validation, ale skutečná kontrola vůči povoleným hodnotám. Konkrétně tam, kde admin píše volný text a model z něj extrahuje strukturovaný příkaz: bez guardu by halucinovaný příkaz prošel dál do systému tiše.
Guardraily nezbrzdí agenta. Zbrzdí škody.
3. Observabilita — každé LLM volání musí být auditovatelné
Produkční systém bez viditelnosti do LLM volání řídíte poslepu. Nevíte, kde je latence, co stojí, která konfigurace vrací špatné výsledky.
Každé volání logujeme se čtyřmi dimenzemi: tokeny (vstup/výstup/cache), latence, cena, konfigurace (model, teplota, systémový prompt verze). Data agregujeme per poskytovatel a per model.
Výsledek je konkrétní: vidíte, že GPT-4o mini je na konkrétním use case 8× levnější než GPT-4o a přitom dostatečně přesný. Nebo že jeden endpoint odpovídá za 60 % celkových nákladů. Bez čísel to jsou jen dojmy.
4. Fallback a self-healing — agent musí přežít vlastní chyby
AI agenti chybují. Model občas vrátí nevalidní JSON. Dotaz selže kvůli dočasné nedostupnosti. Výsledek neodpovídá schématu.
Dvě věci pomáhají:
Lokální inference jako hedge. Jednoduchý úkol — například sentiment — nemusí jít vždy do cloudového API. Výpočet lokálně = nulová latence, nulová cena, nulová závislost na externím provideru. Hedge na dostupnost i náklady.
Self-healing při selhání. Když dotaz selže nebo vrátí nevalidní výstup, agent dostane chybovou zprávu a vygeneruje opravený dotaz. Jeden retry s kontextem chyby řeší většinu přechodných problémů. Místo pádu dostanete degradovaný, ale funkční výsledek.
Graceful degradation — ne zbytečný pád na první chybě.
5. Human-in-the-loop a audit log — AI nesmí být černá skříňka
Extrakce dat z faktur, právní dokumenty, finanční rozhodnutí — to jsou oblasti, kde chyba AI má reálné důsledky. Tady nestačí sledovat přesnost. Nestačí ani 90 %.
Human-in-the-loop je architektonické rozhodnutí, ne workaround. Model navrhne, člověk potvrdí. Každé rozhodnutí — návrh i potvrzení — jde do audit logu s časem, uživatelem a kontextem.
Dva efekty: nižší riziko u kritických dat a lepší tréninkový signál (vidíte, kde model chybuje a proč ho člověk opravuje).
Pro referenci: municipální RAG chatbot s teplotou 0.1 dosahuje ~90 % přesnosti na živých datech. Zbývajících 10 % je argument pro review, ne pro slepou důvěru.
6. Eval před nasazením — jak poznáte, že změna pomohla?
Bez systematického vyhodnocení jsou změny v promptech a konfiguracích slepé střílení. Zlepšili jste přesnost, nebo jste ji rozbili v jiném segmentu vstupů?
Eval nemusí být složitý — stačí sada reprezentativních vstupů a očekávaných výstupů, která se spustí při každé změně. Teplotu volíme nízkou (0.1) pro faktické úlohy, kde deterministický výstup je cennější než kreativita.
Honest gap: neděláme fine-tuning ani MLOps. Optimalizujeme na promptové a architektonické úrovni, ne na úrovni modelových vah. Pro většinu produkčních use cases to stačí.
Jak to drží dohromady
Všechny výše uvedené komponenty fungují jen tehdy, když AI agent není izolovaný chatbot. Musí být zapojen do reálného systému — s daty, stavem, business logikou. Model dává smysl ve chvíli, kdy ví, s čím pracuje: má kontext zakázky, historii komunikace, strukturu dat ze systému. Bez toho je to jen generátor textu.
Cost gate, guardraily, observabilita, fallback, human-in-the-loop a eval jsou infrastruktura kolem modelu. Model samotný je jen jedna vrstva.
FAQ
Musím řešit všechno najednou, nebo to jde postupně?
Jde to postupně, ale cost gate a observabilita patří do první verze. Bez nich nemáte data na to, abyste rozhodli, co řešit dál. Guardraily přidejte, jakmile agent zpracovává vstup od uživatelů. Human-in-the-loop implementujte tam, kde chyba má reálné důsledky.
Co když model, který teď používám, skončí nebo zdraží?
Proto oddělujeme volání modelu za abstrakční vrstvou — switch providera nebo modelu je pak změna konfigurace, ne refaktor. Tohle je jedna z věcí, kde architektura rozhoduje dřív, než se problém projeví.
Je AI v produkci výrazně dražší než v demu?
Demo volá model desítkykrát. Produkce volá model tisíckrát denně. Náklady jsou ale hlavně o tom, co počítáte. Cache read stojí 0,10× standardní ceny — správné kešování sníží fakturu dramaticky. Observabilita vám řekne, kde peníze jdou. Bez ní optimalizujete náhodně.
Pokud připravujete AI agenta do produkce a chcete projít architekturu dřív, než narazíte na problémy v provozu, napište nám — projdeme to spolu.