
Następny przełom w AI: modele uczące się w trakcie pracy, nie tylko podczas treningu
W skrócie
- Laboratoria AI stawiają na trening w milionach weryfikowalnych środowisk z uczeniem przez wzmacnianie, licząc że wytworzy to ogólne zdolności rozwiązywania problemów zbliżone do AGI.
- Kluczową barierą jest efektywność próbkowania: modele są milion razy mniej efektywne niż ludzie podczas treningu, a większość dziedzin życia nie da się zamknąć w odtwarzalnych symulatorach.
- Obiecującym rozwiązaniem jest metoda on-policy self-distillation (OPSD), która pozwala przenosić wiedzę zdobytą w trakcie sesji z powrotem do wag modelu bez potrzeby zewnętrznej nagrody weryfikowalnej.
Czołowe laboratoria sztucznej inteligencji stawiają dziś na jeden główny kierunek badań: jeśli wytrenujemy modele AI do wykonywania milionów weryfikowalnych zadań w tysiącach zróżnicowanych środowisk uczenia przez wzmacnianie (ang. reinforcement learning, RL), to w efekcie powstanie coś bliskiego ogólnej sztucznej inteligencji (AGI). Założenie jest takie, że taki trening wytworzy ogólne umiejętności rozwiązywania problemów — zdolność do robienia postępów w otwartych zadaniach przez tygodnie, mimo błędów, pomyłek i niejednoznaczności dwarkesh.com.
Optymiści wskazują, że rzekomo fundamentalne ograniczenia obecnego paradygmatu uczenia — niska efektywność próbkowania czy brak ciągłego uczenia — można po prostu przeskalować większą ilością obliczeń, tak jak wszystkie „fundamentalne" problemy przetwarzania języka naturalnego ustąpiły pod naporem mocy obliczeniowej wrzuconej w duże modele językowe dwarkesh.com.
Dlaczego obsługa komputera pozostaje w tyle za kodowaniem i matematyką?
Interesującym symptomem głębszego problemu jest fakt, że postęp w dziedzinie obsługi komputera przez AI przebiega znacznie wolniej niż w kodowaniu czy matematyce — mimo że obie kategorie są równie weryfikowalne (czy zamówienie na Etsy zostało złożone? czy podatki zostały wysłane?). Jedną z niedocenianych przyczyn jest to, że sama weryfikowalność nie wystarczy — dziedzina musi być też „grindowalna", czyli umożliwiać uruchamianie tysięcy równoległych prób w deterministycznym i powtarzalnym symulatorze dwarkesh.com.
Przy treningu modeli do kodowania można stworzyć środowisko z repozytorium kodu i brakującą funkcją, a następnie uruchomić tysiąc równoległych agentów pracujących nad tym samym problemem, każdy z własną kopią kontenera. W przypadku obsługi komputera to nie działa — nie można wysłać tysiąca agentów przez ten sam proces zakupu na Amazon.com, bo operatorzy serwisu wykryją boty i je zablokują dwarkesh.com.
Rozwiązaniem byłoby tworzenie klonów popularnych aplikacji i stron internetowych, ale jest to dziś bardzo pracochłonne i trudne do skalowania. Gdy modele staną się wystarczająco dobre w kodowaniu, by same budować takie klony z wysoką wiernością, obsługa komputera prawdopodobnie zacznie szybko nadrabiać zaległości dwarkesh.com.
Granica skalowalności: czego nie da się zamknąć w symulatorze
Obecna letargia obsługi komputera ujawnia głębszą prawdę: jeśli nie można zbudować bardzo powtarzalnego celu treningowego dla danej dziedziny, modele będą miały trudności z postępem. Wynika to z faktu, że modele są podczas treningu niezwykle mało efektywne w zakresie próbkowania dwarkesh.com.
Jak wytrenować AI do budowania biznesu? Jak nauczyć ją wygrywać sprawy sądowe, osiągać zyski na rynkach finansowych czy pomagać kandydatom w wygrywaniu wyborów? Takie zadania wymagają interakcji ze światem i nie da się ich odtworzyć w centrum danych. Zewnętrzna weryfikacja może zajmować miesiące lub lata rzeczywistych działań i nie można jej wielokrotnie powtarzać przez perturbowanie działań modelu w tysiącach równoległych prób dwarkesh.com.
Jakie środowisko RL uczyniłoby AI tak dobrą w polityce jak Lyndon Johnson, albo tak sprawną w budowaniu firmy kosmicznej jak Elon Musk? To pytanie pozostaje bez odpowiedzi. Laboratoria zakładają, że uczenie przez wzmacnianie z weryfikowalną nagrodą (RLVR) uogólni się na wszystkie te dziedziny — że jeśli wytrenujesz model w wystarczającej liczbie odtwarzalnych środowisk, powstanie ogólny agent zdolny do planowania, szybkiego uczenia się z nowych informacji i nabywania nowych umiejętności w trakcie sesji dwarkesh.com.
Dario Amodei w rozmowie podcastowej ujawnił znamienną wskazówkę: wyjaśniając, dlaczego wydajność modelu spada przy długim kontekście, powiedział, że trening na krótkim kontekście niekoniecznie uogólnia się na długi kontekst. Jeśli nie można uogólnić z krótkiego na długi horyzont, jak agenci mają uogólniać z treningu na zadaniach biurowych do działania w prawdziwym świecie i budowania biznesu od zera? dwarkesh.com## Marnotrawstwo wnioskowania i problem ciągłego uczenia
Około 30–50% mocy obliczeniowej laboratorium trafia na wnioskowanie, a ta moc obliczeniowa nie robi nic produktywnego, by poprawić model. Co gorsza, to właśnie podczas wdrożenia ujawniają się najbardziej wartościowe informacje, z których model mógłby się uczyć: co naprawdę dzieje się w organizacjach, do czego model jest używany, jakie błędy popełnia w rzeczywistości dwarkesh.com.
Sytuację można porównać do genialnego studenta, któremu nigdy nie pozwolono odbyć stażu — zamiast tego dostaje coraz więcej akademickich studiów przypadków w postaci treningu RL w środowiskach symulowanych. Jest to marnotrawstwo, bo modele są szeroko wdrożone w gospodarce, ćwiczą się na milionach różnych zadań i mają dostęp do ogromnej ilości milczącej wiedzy organizacyjnej i dziedzinowej dwarkesh.com.
Ciągłe uczenie wymaga jednak powrotu do wag modelu. AI nie może po prostu budować coraz większej pamięci podręcznej (KV cache) rosnącej w miarę uczenia się od kolejnych użytkowników — to nie jest skalowalne i nie tak uczą się ludzie. Ludzkie ciągłe uczenie polega mniej na przechowywaniu wszystkich obserwacji w gotowości do przywołania, a bardziej na wbudowywaniu właściwych intuicji i wiedzy ogólnej z powrotem w struktury poznawcze dwarkesh.com.
Gdy tylko przechodzi się do aktualizacji wag, traci się efektywność próbkowania uczenia w kontekście, bo aktualizacje gradientowe są bardzo mało efektywne pod względem próbkowania. Dotychczas działające modele uczące się online musiały uczyć się tej samej rzeczy od milionów użytkowników — na przykład model Cursor Tab uczy się online, przewidując, które edycje zostały zaakceptowane, na podstawie ponad 400 milionów żądań dziennie dwarkesh.com.
OPSD: obiecująca metoda łącząca uczenie w sesji z aktualizacją wag
Rozwiązaniem może być metoda on-policy self-distillation (OPSD). Idea polega na tym, by zachęcać model bazowy do dokonywania tych samych przewidywań przy rozwiązywaniu rzeczywistego problemu, jakich dokonałby model z całym kontekstem zgromadzonym po długiej sesji. Celem jest destylacja tego, czego model nauczył się w sesji, z powrotem do samych wag dwarkesh.com.
OPSD ma dwie przewagi nad RLVR. Po pierwsze, nie wymaga zewnętrznej weryfikowalnej nagrody — wystarczy model, który potrafi nauczyć się właściwych rzeczy w oknie kontekstowym, a następnie można trenować model bazowy, by dopasowywał się do doświadczonego modelu-nauczyciela. Po drugie, OPSD dostarcza znacznie gęstszy sygnał nadzoru niż naiwne RL — zamiast propagować pojedynczą nagrodę przez całą trajektorię, można trenować na podstawie rozbieżności prawdopodobieństwa na poziomie każdego tokenu między nauczycielem a uczniem dwarkesh.com.
OPSD jest też lepsza od nadzorowanego dostrajania (SFT) w zastosowaniach ciągłego uczenia. Naiwne SFT trenowałoby model bazowy do przewidywania wszystkich tokenów obserwowanych podczas sesji — ale to nie ma sensu jako cel uczenia. Lepiej w pracy staje się nie ten, kto perfekcyjnie odtwarza transkrypt każdego dnia, lecz ten, kto konsoliduje garść spostrzeżeń i wiedzy istotnej dla lepszego wykonywania zadań. RL nie cierpi na tę wadę i świetnie koncentruje aktualizację gradientu wyłącznie na tym, co jest istotne dla uzyskania właściwego wyniku — dlatego aktualizacje z RL są niezwykle rzadkie (sparse). To kluczowa właściwość dla ciągłego uczenia: ucząc się w pracy, nie chcesz nadpisywać i zapominać wszystkiego, co model bazowy już wie dwarkesh.com.
„Marzenie" jako czwarty wymiar skalowania
Istnieje jeszcze bardziej spekulatywna idea, którą można nazwać „marzeniem" (dreaming). Jeśli AI potrafi zbudować dobrą symulację rzeczywistości, w której ćwiczy nowe umiejętności lub wypróbowuje alternatywne strategie i wzmacnia to, co działa, mogłaby doświadczyć o rzędy wielkości więcej symulowanych prób w tym samym czasie rzeczywistym dwarkesh.com.
Kilka lat po wydaniu AlphaZero przez DeepMind, grupa badaczy wytrenowała model o nazwie EfficientZero. Gdyby ten model i człowiek mieli łącznie 2 godziny na grę w symulatorze gry Atari, której wcześniej nie widzieli, model prawdopodobnie pokonałby nowicjusza. Dla każdego kroku w prawdziwej grze EfficientZero rozgrywa dziesiątki symulowanych gier „w głowie". Przyszłe duże modele językowe mogłyby w podobny sposób zużywać znacznie mniej danych ze świata rzeczywistego, ćwicząc się bez końca w środowiskach budowanych dla siebie. Zasadnicza różnica polega na tym, że zbudowanie symulacji całego świata jest znacznie trudniejsze niż emulowanie gry w Go dwarkesh.com.
Gdyby to zadziałało, „marzenie" stałoby się czwartą osią skalowania — obok pretreningu, RL i obliczeń w czasie wnioskowania. Model spędzałby moc obliczeniową na pisaniu środowisk RL, w których ćwiczy umiejętności faktycznie używane w produkcji dla konkretnego użytkownika. Zamiast wywoływać polecenie /compact w Codex, Cursor czy Claude — które zużywa niewielką ilość obliczeń na napisanie podsumowania i daje namiastkę ciągłego uczenia — użytkownik wywoływałby /dream, które pochłaniałoby ogromne ilości obliczeń na zbudowanie i trening w wersji gry wideo tego, co model obserwuje w świecie dwarkesh.com.
Co to oznacza
Opisywany przez autora przełom dotyczy fundamentalnej zmiany w tym, jak modele AI będą się uczyć — nie tylko podczas jednorazowego, kosztownego treningu, ale w trakcie codziennej pracy. Dla polskich firm i organizacji korzystających z narzędzi AI oznacza to, że w perspektywie kilku lat modele mogą stać się znacznie bardziej użyteczne w zadaniach wymagających głębokiej wiedzy kontekstowej: rozumienia specyfiki konkretnej branży, struktury organizacji czy typowych błędów popełnianych w danym środowisku pracy.
Kluczowe ograniczenie, które autor identyfikuje, ma bezpośrednie przełożenie na to, w jakich dziedzinach AI będzie szybko się rozwijać, a w jakich pozostanie słaba. Dziedziny dające się zamknąć w odtwarzalnych symulatorach — kodowanie, matematyka, gry — będą nadal przodować. Natomiast zadania wymagające interakcji z nieprzewidywalnym światem — negocjacje, polityka, budowanie biznesu, sprawy sądowe — pozostaną poza zasięgiem obecnego paradygmatu przez znacznie dłużej. To ważna informacja dla firm planujących automatyzację: nie wszystkie procesy są równie podatne na zastąpienie przez AI w krótkim horyzoncie.
Metody takie jak OPSD i „marzenie" są dziś w dużej mierze spekulatywne, ale wskazują kierunek, w którym zmierza badania. Jeśli się powiodą, granica między „modelem wytrenowanym" a „modelem uczącym się" zacznie się zacierać — a wartość narzędzi AI będzie w coraz większym stopniu zależeć od tego, ile czasu i danych z rzeczywistej pracy zdążyły zgromadzić. Dla użytkowników i organizacji oznacza to, że długoterminowe, konsekwentne korzystanie z tych narzędzi może stać się samo w sobie źródłem przewagi konkurencyjnej.
Szerszy kontekst
Nowe badanie naukowców ze Stanford University i Nvidia proponuje sposób, w jaki modele AI mogą kontynuować uczenie się po wdrożeniu — bez zwiększania kosztów wnioskowania.
Podejście zwane 'End-to-End Test-Time Training' (TTT-E2E) redefiniuje modelowanie językowe jako problem ciągłego uczenia się: zamiast zapamiętywać fakty podczas wstępnego treningu, modele uczą się adaptować w czasie rzeczywistym podczas przetwarzania nowych informacji.
Naukowcy rozwiązują ten problem, przechodząc od standardowego wstępnego treningu (uczenia modelu faktów) do meta-uczenia (uczenia modelu, jak się uczyć). Celem jest optymalizacja 'inicjalizacji' modelu, tak aby mógł on szybko przyswajać nowe informacje po uruchomieniu.
Skalowanie w czasie wnioskowania (zwane również skalowaniem obliczeniowym podczas wnioskowania, skalowaniem w czasie testowania lub po prostu skalowaniem wnioskowania) to termin zbiorczy dla metod przydzielających więcej mocy obliczeniowej i czasu podczas wnioskowania w celu poprawy wydajności modelu.
Obliczenia w czasie testowania to opłacalna technika zwiększania wydajności modeli AI bez ponownego treningu. Metoda ta umożliwia działanie modeli rozumowania, usprawnia mniejsze otwartoźródłowe duże modele językowe i poprawia dokładność w krytycznych zastosowaniach — od agentów AI po narzędzia dla przedsiębiorstw.
Kompromis między jakością i dokładnością odpowiedzi a czasem potrzebnym do jej uzyskania będzie kluczowym czynnikiem decydującym o tym, jak szeroko AI może się rozpowszechnić i zostać przyjęta w realnym świecie.
Analiza
Artykuł stawia tezę, że obecny paradygmat treningu AI — oparty na uczeniu przez wzmacnianie w weryfikowalnych, powtarzalnych środowiskach — ma strukturalne ograniczenie: działa tylko tam, gdzie da się zbudować deterministyczny symulator. To wyjaśnia, dlaczego kodowanie i matematyka rozwijają się w tempie wykładniczym, a obsługa komputera czy zadania wymagające interakcji z prawdziwym światem pozostają w tyle. Kluczowy wniosek jest taki, że weryfikowalność wyniku to warunek konieczny, ale niewystarczający — równie ważna jest możliwość uruchomienia tysięcy równoległych prób bez angażowania zewnętrznych systemów, które zablokują boty. Dla firm planujących automatyzację procesów to istotna wskazówka: podatność danego zadania na automatyzację zależy nie tylko od tego, czy wynik da się zmierzyć, ale od tego, czy środowisko treningowe da się sklonować i uruchomić na masową skalę.
Warte uwagi jest zestawienie artykułu z badaniami opisanymi przez venturebeat.com, gdzie Stanford i Nvidia proponują metodę „End-to-End Test-Time Training" (TTT-E2E) — podejście zbliżone duchem do opisywanego w artykule OPSD. Obie metody próbują rozwiązać ten sam problem: jak sprawić, by model uczył się podczas wdrożenia, nie tylko podczas kosztownego pretreningu. Metoda TTT-E2E przeformułowuje modelowanie języka jako problem ciągłego uczenia i uczy model, jak adaptować się w czasie rzeczywistym — bez wzrostu kosztów wnioskowania. To potwierdza, że kierunek wskazany w artykule nie jest czysto spekulatywny, lecz jest już przedmiotem konkretnych badań akademickich i przemysłowych.
Najgłębsza implikacja dotyczy struktury wartości w ekosystemie AI. Jeśli metody takie jak OPSD lub „marzenie" dojrzeją, model przestanie być produktem jednorazowo wytrenowanym i zamrożonym — stanie się bytem, który kumuluje wartość w czasie użytkowania. Oznacza to, że organizacje, które wcześniej i konsekwentniej wdrożą narzędzia AI w swoich procesach, zbudują trudną do skopiowania przewagę: ich modele będą po prostu lepiej skrojone pod specyfikę ich pracy. Jednocześnie artykuł uczciwie wskazuje granicę obecnego paradygmatu — zadania takie jak negocjacje, budowanie biznesu czy polityka pozostają poza zasięgiem RLVR nie dlatego, że są zbyt złożone, ale dlatego, że nie da się ich zamknąć w symulatorze działającym w centrum danych.
Źródła
Powiązane newsy
NVIDIA NeMo AutoModel przyspiesza dostrajanie modeli MoE: 3,7x wyższa przepustowość przy mniejszym zużyciu pamięci GPU1 lipca 2026
GLM-5.2: chiński model open-source z kontekstem 1M tokenów rzuca wyzwanie Claude'owi Opus30 czerwca 2026
Sakana AI wprowadza Marlin – agent badawczy dla firm generujący raporty do 100 stron w oparciu o AB-MCTS1 lipca 2026
Hugging Face wdraża ARD – standard wyszukiwania narzędzi i agentów AI w czasie rzeczywistym30 czerwca 2026