# Evals dla agentów AI: jak mierzyć jakość przed i po produkcji

Wiele organizacji uruchamia agentów AI po udanym demie i kilku ręcznych testach. Na początku wszystko wygląda dobrze: zespół widzi szybkie odpowiedzi, użytkownicy są zainteresowani, a liczba interakcji rośnie. Po kilku tygodniach pojawiają się jednak znane problemy: niespójność odpowiedzi, trudne do odtworzenia błędy, wzrost kosztu korekt oraz konflikty między zespołami o to, kto ma rację, gdy agent działa "czasem dobrze".

Źródło tych problemów jest zwykle to samo: brak systemu ewaluacji, który łączy etap przedprodukcyjny z rzeczywistą jakością po wdrożeniu. Organizacja mierzy aktywność, ale nie mierzy niezawodności decyzji.

Centralna teza tego playbooka brzmi: evals dla agentów AI muszą być zaprojektowane jako ciągły system zarządzania jakością, a nie jednorazowy test release'u. Tylko wtedy da się skalować agentów bez skalowania reworku, ryzyka i kosztów ukrytych.

Dlaczego klasyczne QA nie wystarcza dla agentów

Agenci AI różnią się od klasycznych aplikacji tym, że ich zachowanie zależy od zmiennego kontekstu: zapytań użytkownika, narzędzi, danych zewnętrznych, polityk bezpieczeństwa i wersji modelu. Ta zmienność oznacza, że test "pass/fail" na statycznych przypadkach nie oddaje realnej jakości.

NIST AI RMF 1.0 (2023) wskazuje, że zarządzanie ryzykiem AI wymaga ciągłej obserwacji i adaptacji kontroli. organizacja powinna łączyć: - ewaluacje offline przed produkcją, - testy w warunkach zbliżonych do rzeczywistych, - monitoring online po wdrożeniu, - procedury szybkiej korekty i ponownej walidacji.

Bez tej pętli agent może być "dobry na benchmarku", ale słaby w procesie, który ma obsługiwać.

Architektura evals: cztery warstwy jakości

Skuteczny system evals dla agentów warto budować warstwowo. Każda warstwa odpowiada na inne pytanie i redukuje inny typ ryzyka.

### Warstwa 1: Correctness evals

Sprawdza, czy agent dostarcza poprawny rezultat merytoryczny dla jasno zdefiniowanych zadań. Tu używa się zestawu przypadków referencyjnych i kryteriów akceptacji.

Przykładowe metryki: - odsetek poprawnych odpowiedzi, - precision/recall dla zadań klasyfikacyjnych, - odsetek odpowiedzi wymagających pełnej poprawki człowieka.

Ta warstwa minimalizuje ryzyko oczywistych błędów rzeczowych.

### Warstwa 2: Robustness evals

Sprawdza, jak agent zachowuje się przy nietypowych lub trudnych wejściach: niejednoznacznych instrukcjach, sprzecznych danych, próbach obejścia polityk.

Inspiracje z OWASP Top 10 for LLM Applications (2023) i praktyk red teamingu pomagają projektować scenariusze typu prompt injection, nieautoryzowane ujawnienie danych czy naruszenie instrukcji systemowych.

Ta warstwa minimalizuje ryzyko degradacji w warunkach niestandardowych.

### Warstwa 3: Process-quality evals

Sprawdza, czy agent poprawia proces biznesowy, a nie tylko "ładnie odpowiada". Tu ocenia się m.in. czas realizacji zadania, odsetek reworku, zgodność z procedurą i wpływ na SLA.

To krytyczne, bo wartość biznesowa agentów powstaje w workflow, nie w izolowanym oknie czatu.

### Warstwa 4: Safety and governance evals

Sprawdza zgodność działania z politykami bezpieczeństwa, prywatności i odpowiedzialności. Wysokie znaczenie mają przypadki graniczne: kiedy agent powinien odmówić, eskalować do człowieka lub poprosić o dodatkową autoryzację.

Ta warstwa ogranicza ryzyko prawne i reputacyjne oraz wspiera model human-in-the-loop.

Jak budować zestaw testów, który nie starzeje się po tygodniu

Najczęstszy błąd to statyczny zestaw testów tworzony na start projektu i nieaktualizowany po zmianach produktu. Agenci uczą się z nowych danych, integrują nowe narzędzia i obsługują nowe intencje użytkowników, więc testy też muszą ewoluować.

Praktyczna zasada: utrzymuj trzy koszyki przypadków.

- **Golden set**: reprezentatywne przypadki krytyczne dla jakości i bezpieczeństwa; stabilny rdzeń do porównań trendu. - **Recent failures set**: przypadki z realnych incydentów i reklamacji; aktualizowane cyklicznie. - **Change-impact set**: przypadki dotknięte najnowszą zmianą modelu, promptu lub integracji.

Takie podejście łączy porównywalność z aktualnością i zapobiega sytuacji, w której evals "zaliczają", ale użytkownik nadal widzi regres.

Bramka produkcyjna: kiedy agent jest gotowy do wdrożenia

Playbook evals powinien definiować formalną bramkę go/no-go. Bez niej decyzje wdrożeniowe są podatne na presję terminu i intuicję sponsorów.

Minimalna bramka produkcyjna dla agenta: 1. Spełnione progi correctness na golden secie. 2. Brak krytycznych naruszeń w robustness i safety evals. 3. Potwierdzony wpływ na metryki procesu w środowisku pre-production. 4. Zdefiniowany plan monitoringu online i reakcja na incydenty. 5. Jasno określone warunki human override.

Wdrożenie warunkowe jest dopuszczalne, ale warunki muszą być mierzalne i mieć właściciela.

Monitoring po wdrożeniu: evals online jako system wczesnego ostrzegania

Po uruchomieniu agenta jakość zaczyna żyć własnym życiem. Zmieniają się profile zapytań, sezonowość, zachowania użytkowników i dane źródłowe. Dlatego evals online nie mogą być "ładnym dashboardem", tylko systemem wykrywania odchyleń.

Warto monitorować równolegle: - jakość odpowiedzi: acceptance rate, rework rate, complaint rate, - niezawodność operacyjną: latency, timeouty, błędy narzędzi, - bezpieczeństwo: liczba blokad polityk, eskalacje, wykryte próby nadużyć, - ekonomikę: koszt na zakończone zadanie i koszt na poprawne zakończenie.

Kluczowe jest sprzężenie tych metryk z alarmami i procedurą decyzji: ograniczenie zakresu, rollback konfiguracji, dodatkowy review, czasowe zatrzymanie funkcji.

Jak połączyć evals z human-in-the-loop

System evals nie zastępuje człowieka, tylko mówi, gdzie obecność człowieka jest najbardziej potrzebna. Wysoka dojrzałość operacyjna polega na dynamicznym sterowaniu poziomem nadzoru.

Przykładowy model: - niski poziom ryzyka i wysoka jakość historyczna: automatyzacja z monitoringiem, - średnie ryzyko lub pogorszenie trendu: obowiązkowy sampling review, - wysokie ryzyko lub krytyczny drift: pełna walidacja człowieka przed wykonaniem akcji.

To podejście ogranicza zarówno ryzyko nadmiernej automatyzacji, jak i koszt ręcznej kontroli wszystkiego.

Antywzorce, które psują program evals

powtarza się kilka błędów: - benchmark-driven theater: optymalizacja pod test, a nie pod proces biznesowy, - metryki bez decyzji: dashboard jest pełny, ale nie ma progów i właścicieli reakcji, - brak segmentacji ryzyka: ten sam standard dla zadań niskiego i wysokiego wpływu, - oddzielenie ewaluacji od operacji: zespół jakości nie ma wpływu na release i rollback, - pomijanie kosztu jakości: mierzy się poprawność, ale nie mierzy kosztu osiągnięcia tej poprawności.

Jeśli te antywzorce się utrwalą, organizacja skaluje liczbę agentów szybciej niż zdolność utrzymania jakości.

Model operating cadence dla zespołu i leadershipu

Aby evals nie były jednorazowym projektem, potrzebny jest rytm operacyjny: - codziennie: przegląd sygnałów krytycznych i incydentów, - co tydzień: analiza trendów jakości i kosztu dla kluczowych agentów, - co miesiąc: decyzje o zmianie progów, zakresu automatyzacji i planu remediacji, - kwartalnie: przegląd portfela agentów na poziomie leadershipu.

Ten rytm łączy technikę z zarządzaniem. Zespół widzi, co naprawiać, a leadership widzi, czy organizacja naprawdę zyskuje na agentach AI.

Model kosztu jakości dla agentów AI

W tradycyjnym IT koszt jakości rozumie się często jako koszt testów i kontroli. W przypadku agentów AI obraz jest szerszy, bo koszt błędnej odpowiedzi bywa rozproszony po procesie: dodatkowy kontakt z klientem, ręczne poprawki, opóźnienie decyzji, eskalacja prawna, utrata zaufania.

Dlatego przy projektowaniu evals warto mierzyć co najmniej cztery kategorie: - **cost of prevention**: koszt przygotowania danych testowych, scenariuszy i automatyzacji ewaluacji, - **cost of appraisal**: koszt ciągłego monitoringu, przeglądów jakości i audytów, - **cost of internal failure**: koszt błędów wykrytych przed wpływem na klienta lub proces krytyczny, - **cost of external failure**: koszt błędów, które dotarły do klienta, partnera lub regulatora.

Ten model pozwala pokazać leadershipowi, że inwestycja w evals obniża koszt całkowity jakości, nawet jeśli podnosi krótkoterminowy koszt operacyjny zespołu.

Projektowanie progów decyzyjnych dla różnych klas ryzyka

Jednym z powodów sporów między biznesem a technologią jest brak wspólnego języka progów jakości. Ten sam wynik może być akceptowalny w zadaniu niskiego wpływu i nieakceptowalny w zadaniu regulowanym.

Praktycznie warto stosować macierz progów: - **Klasa A (wysoki wpływ)**: niski tolerowany poziom błędu, obowiązkowy human approval, szybka eskalacja przy regresie. - **Klasa B (średni wpływ)**: umiarkowana tolerancja błędu, sampling review i warunkowa automatyzacja. - **Klasa C (niski wpływ)**: większa automatyzacja, monitoring trendów i cykliczne przeglądy.

Taka segmentacja upraszcza decyzje go/no-go, bo z góry wiadomo, jakie standardy muszą być spełnione przed zwiększeniem skali.

Jak przygotować organizację do audytu jakości agentów

Coraz więcej organizacji musi odpowiadać na pytanie audytora: "jak udowadniacie, że agent działa zgodnie z deklarowanym przeznaczeniem?". Odpowiedź nie może opierać się na pojedynczym raporcie testowym.

Minimalny pakiet audytowy powinien obejmować: - wersjonowany katalog evals i kryteriów akceptacji, - historię zmian modelu, promptów i narzędzi wraz z wynikiem walidacji, - rejestr incydentów jakościowych i działań naprawczych, - dowody działania human-in-the-loop dla klas zadań wysokiego ryzyka.

Taki pakiet zwiększa nie tylko gotowość regulacyjną, ale również wewnętrzną dyscyplinę jakości. Zespół szybciej widzi, które zmiany poprawiają produkt, a które tylko przesuwają problem.

Executive Takeaway

Co się zmieniło? Evals dla agentów AI przechodzą od testu przedwdrożeniowego do ciągłego systemu kontroli jakości, bezpieczeństwa i ekonomiki działania po uruchomieniu. Dlaczego to ważne? Bez połączenia evals offline i online firmy często wdrażają agentów, którzy dobrze wypadają na demie, ale generują rework, ryzyko i niestabilny koszt w produkcji. Co liderzy powinni zrobić? Wdrożyć czterowarstwowy model ewaluacji, formalną bramkę go/no-go oraz operacyjny rytm decyzji oparty na trendach jakości, ryzyka i kosztu.