- Reakcja - AI Trends - 6 min read
Co się stało?
Na Andrej Karpathy - były dyrektor Tesla AI i współzałożyciel OpenAI - opublikował autoresearch na GitHubto platforma typu open-source, która pozwala agentom sztucznej inteligencji na autonomiczne przeprowadzanie eksperymentów uczenia maszynowego w ciągu nocy na jednym procesorze graficznym. Główna idea: daj agentowi konfigurację treningową, idź spać i obudź się do 100 ukończonych eksperymentów - każdy z nich modyfikuje kod, trenuje przez pięć minut, sprawdza, czy wynik się poprawił i iteruje. Żadnego człowieka w pętli. Agent nigdy się nie zatrzyma, dopóki nie przerwiesz go ręcznie. W ciągu kilku dni od premiery repozytorium przekroczyło 8000 gwiazdek.
Co to właściwie oznacza - poza szumem informacyjnym
Sprecyzujmy, czym jest, a czym nie jest autoresearch. Nie jest to sztuczna inteligencja ogólnego przeznaczenia, która zastępuje analityków danych. Jest to ściśle określona pętla: jeden agent, jeden plik, który może modyfikować (train.py), jedno stałe 5-minutowe okno oceny, jedna metryka do optymalizacji. To, co sprawia, że jest to znaczące, to nie zakres - jest to decyzja dotycząca architektury Za tym stoi w pełni autonomiczny agent, który przeprowadza eksperyment, odczytuje wynik, decyduje, co spróbować dalej, i powtarza - z wyraźną instrukcją w kodzie, aby Nigdy nie przestawaj i nigdy nie pytaj człowieka o pozwolenie na kontynuowanie.
Ta filozofia projektowania - autonomiczna, samokierująca się, oparta na metrykach iteracja - jest szablonem, do którego szybko zmierza sztuczna inteligencja w przedsiębiorstwach. Nie tylko w badaniach ML, ale w każdej dziedzinie, w której istnieje jasny cel, mierzalne wyniki i wystarczająco duża przestrzeń wyszukiwania, że iteracja w tempie ludzkim jest wąskim gardłem. Co opisuje znaczną część tego, co zespoły BI i analityczne w przedsiębiorstwach robią każdego dnia.
Trzy konkretne implikacje dla zespołów korporacyjnych
1. "Agentic" nie jest już koncepcją badawczą - jest wzorcem produkcyjnym. Wkładem Karpathy'ego nie jest tutaj idea agentów AI; pokazuje, że czysta, minimalna, jednoplikowa implementacja może uruchomić 100 znaczących eksperymentów w ciągu jednej nocy na sprzęcie towarowym. Bariera we wdrażaniu autonomicznych pętli AI w kontekście korporacyjnym - automatyzacja raportowania, optymalizacja potoku danych, przetwarzanie dokumentów - właśnie znacznie spadła. Zespoły, które czekały na "dojrzałość" tego rozwiązania, powinny ponownie skalibrować swoje ramy czasowe.
2. Rola człowieka zmienia się z wykonywania na przeglądanie. Pętla automatycznego badania nie prosi o zatwierdzenie między eksperymentami. Generuje, testuje, zachowuje to, co działa, odrzuca to, co nie działa i idzie dalej. W kategoriach korporacyjnych jest to bezpośrednio powiązane z systemami sztucznej inteligencji, które sporządzają raporty, przeprowadzają analizy scenariuszy lub autonomicznie przetwarzają przychodzące żądania - i wyświetlają tylko te wyniki, które wymagają ludzkiej oceny. Nie jest to zagrożenie dla wykwalifikowanych analityków; jest to redystrybucja ich czasu. Mniej generowania, więcej oceny.
3. Jakość danych i jasne wskaźniki sukcesu stają się nienegocjowalne. Automatyczne wyszukiwanie działa, ponieważ ma jednoznaczną metrykę: bity walidacyjne na bajt. Niższy oznacza lepszy. Każdy eksperyment jest obiektywnie porównywalny. W środowisku korporacyjnym równoważne pytanie brzmi: jaki jest "val_bpb" Twojej organizacji? Jeśli nie można zdefiniować pojedynczego, mierzalnego kryterium sukcesu dla zautomatyzowanego przepływu pracy, autonomiczne agenty nie mogą go zoptymalizować. Projekty, które odniosą największe korzyści z agentowej sztucznej inteligencji, to te, które już wykonały pracę polegającą na zdefiniowaniu, co "lepiej" oznacza w konkretnych, mierzalnych kategoriach.
Perspektywa LeapLytics
Od kilku lat tworzymy systemy sztucznej inteligencji dla przepływów pracy w przedsiębiorstwach. przetwarzanie dokumentów, automatyczne raportowanie, automatyzacja wsparcia. Wzorzec, który Karpathy demonstruje w warstwie badań ML, jest tym samym wzorcem, który stosujemy w warstwie procesów biznesowych: zidentyfikuj powtarzalną pętlę, zdefiniuj kryterium sukcesu, pozwól agentowi działać i ujawnij wyjątki do przeglądu przez człowieka.
To, co autoresearch wyraźnie pokazuje, to różnica prędkości. 100 eksperymentów w 8 godzin. W kategoriach korporacyjnych: 100 przejrzanych wersji roboczych dokumentów, 100 oznaczonych anomalii danych, 100 skategoryzowanych zgłoszeń do pomocy technicznej - podczas gdy zespół śpi. Organizacje, które traktują to jako ciekawostkę, przekonają się, że te, które traktują to jako infrastrukturę, posunęły się znacznie do przodu, zanim ponownie się nad tym zastanowią. Pisaliśmy już wcześniej o tej dynamice w kontekście nasze własne przejście na wsparcie wspomagane przez sztuczną inteligencję - złożona korzyść z automatyzacji nie jest widoczna, dopóki się nie pojawi.
Co organizacje powinny zrobić teraz
- Zidentyfikuj jeden powtarzalny, mierzalny przepływ pracy w tym tygodniu. Nie ogólnikowe "powinniśmy zautomatyzować raportowanie". Konkretna pętla: ten typ dokumentu, przetwarzany w ten sposób, oceniany pod kątem tego kryterium. Automatyczne wyszukiwanie to przydatny model mentalny - jeśli nie możesz opisać swojego przepływu pracy w sposób, w jaki Karpathy opisuje swoją pętlę szkoleniową, nie jest on jeszcze gotowy na automatyzację agenta.
- Zainwestuj w jakość danych przed wdrożeniem agenta. Autonomiczni agenci wzmacniają wszystko, z czym pracują. Czyste, spójnie ustrukturyzowane dane wejściowe generują użyteczne autonomiczne dane wyjściowe. Nieuporządkowane, niespójne dane generują z pewnością błędne autonomiczne dane wyjściowe - z prędkością 100 razy większą niż w przypadku człowieka popełniającego ten sam błąd. Zarządzanie danymi jest teraz kwestią gotowości AI, a nie tylko kwestią porządkową.
- Przeformułuj "strategię AI" jako "które pętle automatyzujemy jako pierwsze". Większość strategii AI w przedsiębiorstwach jest nadal zorganizowana wokół narzędzi i dostawców. Bardziej użyteczną ramą, po przeprowadzeniu badań, jest: który z naszych przepływów pracy jest pętlą z mierzalnym wynikiem? Uszereguj je według ilości i wpływu. Zacznij od pętli o największym wolumenie i najwyraźniejszym pomiarze. To jest pierwsze wdrożenie agenta.
Co będzie dalej
Autoresearch jest celowo minimalny - jeden procesor graficzny, jeden plik, jedna metryka. Bezpośrednim kolejnym krokiem, widocznym już w forkach społeczności wyłaniających się z repozytorium, są warianty wieloagentowe: jeden agent generujący hipotezy, drugi przeprowadzający eksperymenty, trzeci oceniający i syntetyzujący wyniki. W kategoriach korporacyjnych oznacza to pełną automatyzację przepływu pracy: przyjmowanie, przetwarzanie, kontrola jakości i kierowanie wyników obsługiwane przez skoordynowany łańcuch agentów z ludzką weryfikacją tylko w określonych punktach wyjątkowych.
Ważniejsza zmiana ma charakter kulturowy. Sformułowanie Karpathy'ego - że pionierskie badania nad sztuczną inteligencją "były kiedyś wykonywane przez komputery mięsne w przerwach między jedzeniem, spaniem i innymi rozrywkami" - jest celowo prowokacyjne. Ale podstawowa kwestia jest poważna: przewaga konkurencyjna w pracy związanej ze sztuczną inteligencją przesuwa się z szybkości wykonywania zadań przez człowieka na jakość projektowanych pętli i przejrzystość wskaźników, które optymalizujesz. Jest to prawdą w badaniach ML. Jest to równie prawdziwe w analityce korporacyjnej, raportowaniu ryzyka i przepływach pracy wymagających dużej ilości dokumentów. Pytanie nie brzmi już, czy budować te pętle. Chodzi o to, jak szybko.