Slučaj za AI pilote koji stvarno zažive

Ovo je dosadna polovica uvođenja AI-ja — polovica o kojoj nitko ne piše. Priča na većini pozornica, u većini članaka, u većini uprava i dalje je o tome što AI može. Stvarni problem na terenu mnogo je manje fotogeničan: koja od stvari koje AI može i dalje će biti u produkciji za šest mjeseci? Jer ostalo je stavka u budžetu koja se zatvori, a da nitko nije posve siguran što je proizvela.

Ovaj tekst želim posvetiti razlici između pilota koji zažive i onih koji ne. Ne zato što želim biti skeptičan prema AI-ju — vodim AI praksu i mislim da su alati izvanredni. Želim biti skeptičan prema pilotima. To dvoje nije isto.

Gdje piloti zapravo umiru

Smrtni list većine AI pilota potpisuje se na jednom od četiri mjesta.

Mjesto prvo: integracijski dug. Pilot je radio u sandboxu. Klasifikator je radio na CSV-u povijesnih upita. Prekrasan rezultat na test setu. Produkcijska integracija procijenjena je na „dva tjedna". Tri mjeseca poslije, pilot još čeka dozvole za čitanje CRM-a, tim je izgubio zalet, a izvorni sponzor opravdava kašnjenje na sastancima za reviziju budžeta.

Mjesto drugo: podaci koje model nikad nije vidio. Model je treniran na 800 uglađenih primjera. Produkcijski promet uključuje neformalno miješanje hrvatskog i engleskog, privitke koje OCR ne može pročitati i rubne slučajeve koji čine 12% volumena. Točnost pilota pada dvadeset postotnih bodova. Povjerenje tima pada još više. Tihi povlak.

Mjesto treće: nitko nije vlasnik procesa. AI generira prijedlog. Agent bi ga trebao pregledati i poslati. Ali „trebao bi" nosi puno težine — nema jasnog pravila eskalacije, nema mjerenja stope nadjačavanja i nitko nije odgovoran za dane kad model pogriješi. Šest tjedana poslije, agenti su naučili ignorirati prijedlog. Alat tehnički radi. Ne koristi se.

Mjesto četvrto: pogrešna metrika uspjeha. Pilot se mjerio tehničkom točnošću, a upravu je zanimalo vrijeme odgovora. Ili vremenom odgovora, a financije je zanimao trošak po upitu. Metrika koju pilot izvještava ne povezuje se s razgovorom o budžetu u sobi u kojoj se odlučuje o sudbini projekta. Zato ne preživi taj razgovor.

Četiri pitanja koja postavimo prije svakog pilota

Ne pokrećemo AI pilote koji padnu na jednom od ovih. Ne „radije ne bismo" — nego ne pokrećemo. Najbrži put do pilota koji zaživi jest odbiti pilote koji neće.

1. Je li proces dovoljno stabilan da ga se izmjeri?

Ako se temeljni proces mijenja svaki drugi mjesec — nova polja u obrascu, novo pravilo eskalacije, reorganizacija tima — pilot će mjeriti šum. Prvo zastanemo i stabiliziramo proces. Šest tjedana u kojima ne radimo ništa vezano uz AI, u službi pilota koji zapravo ima polaznu vrijednost koju može nadmašiti.

2. Je li put integracije stvaran?

Prije nego pilot krene, radimo jednotjedni integracijski probni zahvat: pristup za čitanje, pristup za pisanje, redovi, ponavljanja, nadzor. Produkcijske kvalitete, ne sandbox kvalitete. Ako put integracije prolazi kroz tri kvartala pregovora s nabavom i dobavljačem koji mora odobriti svaki API poziv, to kažemo i zadržimo pilot dok se to ne riješi.

3. Je li netko vlasnik petlje nadjačavanja?

Svaki AI proces u produkciji treba imenovanu osobu čiji je posao, u zadanom ritmu, pogledati slučajeve u kojima je model pogriješio, pitati zašto i odlučiti je li odgovor više podataka za treniranje, promjena procesa ili pravila eskalacije. Ako ne možemo imenovati tu osobu, ne krećemo. Točnost modela prvog dana najmanje je zanimljiva brojka; stopa poboljšanja kroz prvi mjesec govori hoće li projekt zaživjeti.

4. Pripada li metrika uspjeha sljedećoj reviziji budžeta?

Ako metrika koju će pilot izvještavati nije metrika o kojoj će uprava raspravljati na sljedećoj kvartalnoj reviziji, mijenjamo metriku — ne upravu. Metrika mora biti važna ljudima koji odlučuju hoće li pilot postati proizvodna linija. Sve drugo je istraživački projekt. Istraživački projekti su korisni, ali nisu piloti.

Kako izgleda pilot koji je zaživio u četvrtom mjesecu

Piloti koji su zaživjeli u našem portfelju imaju nešto zajedničko, i to nije tehnologija — protežu se od modela klase GPT-4, preko manjih fino podešenih klasifikatora, do jednog komada čistog pravilskog inženjeringa koji svi u timu i dalje milostivo zovu „AI projekt". Ono što dijele jest tekstura u četvrtom mjesecu.

U četvrtom mjesecu pilota koji je zaživio, tri su stvari istinite:

Netko iz operativnog tima — ne iz AI tima — vodi tjedni status. Pilot je upijen u operacije.
Metrika uspjeha je u redovnom izvještavanju tvrtke, ne u paralelnoj prezentaciji koju je složio AI sponzor.
Postoji backlog sljedećih najboljih primjena. Kad pilot zaživi, otvara se potražnja za sljedećim procesom. Ako u četvrtom mjesecu i dalje nema backloga, pilot vjerojatno nije stvarno zaživio — još je znatiželja.

Iskrena rečenica

Većini tvrtki s kojima razgovaram ne treba više AI eksperimenata. Treba im manje, bolje odabranih. Šačica procesa koji apsolutno opravdavaju AI — a postoje u gotovo svakoj tvrtki, neovisno o veličini — obično su očiti svakome tko je bio na terenu. Problem nije pronaći ih. Problem je disciplina da se kaže ne ostatku.

Ako se oko toga slažemo, ostalo je uglavnom logistika. Što je dosadna vijest, a ujedno i jedina iskrena.

Slučaj za AI pilote koji stvarno zažive.