Artykuł pochodzi z wydania: Maj 2025
Trwająca rewolucja dużych modeli językowych (Large Language Models) rozpoczęła się trzy lata temu od publikacji usługi ChatGPT. Dziś popularnych neuronowych modeli językowych jest dużo więcej. Wśród nich są także sukcesywnie rozwijane polskie LLM-y.
Opublikowany pod koniec 2022 r. ChatGPT jest konwersacyjnym asystentem opracowanym przez OpenAI, opartym na dużym modelu językowym GPT i służącym do generowania odpowiedzi na dane wprowadzane przez użytkownika. Sercem usługi ChatGPT jest model z rodziny modeli językowych GPT 3.5 dostrojony na dużym i reprezentatywnym zbiorze instrukcji, a następnie wychowany na zebranych preferencjach.
Początki rewolucji AI
A jak to prościej ująć? Jest to narzędzie dostępne w przeglądarce internetowej lub aplikacji, które służy do generowania odpowiedzi w języku naturalnym na wszelkie pytania zadane w języku naturalnym. Dysponuje zarówno wiedzą będącą wynikiem procesu uczenia, jak i wynikiem integracji z wyszukiwarką internetową. ChatGPT formułuje odpowiedzi w języku naturalnym na zadane przez nas pytania, jego odpowiedzi zawierają pełne zdania, charakteryzuje je płynność i spójność, a to wszystko z zachowaniem kontekstu i w formie dialogu/konwersacji. Model, będący sercem ChatGPT, został opracowany z użyciem dużych zbiorów danych tekstowych liczonych w dziesiątkach TB (głównie treści internetowych, książek), ale też z użyciem olbrzymich mocy obliczeniowych, czyli tysięcy kart graficznych.
Opublikowany w listopadzie 2022 r. ChatGPT bazował na rodzinie modeli GPT 3.5. Oznacza to, że przed nim były już znane modele jak GPT 3 czy jego poprzednik GPT 2. Tym samym pewne znaki nowej technologii pojawiały się już w latach 2019–2020 i były zapowiedzią tego, co się wydarzyło później: dostarczenia masowemu odbiorcy usługi konwersacyjnej obsługującej szeroki zakres zadań i języków. Należy jednak pamiętać, że już w 2020 r. pojawił się GPT 3, największy wtedy neuronowy model językowy liczący 175 mld parametrów. Nie przykuł on jednak uwagi szerokiego społeczeństwa, ponieważ nie miał otwartej usługi dialogowej. Był więc raczej narzędziem dla informatyków o ograniczonych możliwościach konwersacji. Dopiero wersje GPT 3.5 z większym zakresem uczenia na instrukcjach (z większą liczbą typów zadań, w tym dialogów) oraz z elementem wychowania (uczenie ze wzmocnieniem na bazie ludzkich ocen, RLHF) dały znany dziś silnik do usługi ChatGPT.
Nowe narzędzie zyskało ponad milion użytkowników w ciągu zaledwie pięciu dni od premiery. Dla porównania Netflixowi zajęło to 41 miesięcy, Facebookowi – 10 miesięcy, a Instagramowi – 2,5 miesiąca. ChatGPT stał się też wiodącym propagatorem dziedziny NLP (Natural Language Processing), czyli nauki odpowiedzialnej za metody i modele przetwarzania języka naturalnego. Przetwarzanie języka naturalnego to gałąź sztucznej inteligencji, która umożliwia komputerom rozumienie języka ludzkiego oraz generowanie wypowiedzi w języku naturalnym. Większość użytkowników komputerów oraz internetu korzystała z NLP jeszcze przed premierą usługi ChatGPT, nie będąc w pełni tego świadomym. W literaturze jako jedno z pierwszych zastosowań metod NLP wskazuje się filtrowanie spamu mailowego, które towarzyszy na co dzień wszystkim użytkownikom e-mailowych skrzynek pocztowych, oraz maszynowe tłumaczenie tekstów.
Wraz z rozwojem internetu i mediów społecznościowych wielkie koncerny, takie jak np. Google czy Meta, zainwestowały olbrzymie środki w rozwój metod NLP. Celem tych działań było usprawnienie swoich rozwiązań bazujących na informacjach skomasowanych w olbrzymich rezerwuarach danych nieustrukturyzowanych – treści szeroko dostępnych w internecie, czy na platformach takich jak np. Facebook. Warto więc pamiętać, że wszyscy użytkownicy udostępniający informacje w Sieci byli i są dawcami danych dla BigTechów. ChatGPT pozwolił społeczeństwom zrozumieć, iż technologie NLP mogą efektywnie zmieniać całe procesy interakcji na linii człowiek – komputer, zarówno w kontekście automatyzacji, jak i wyszukiwania informacji. Proces ten dotyka coraz więcej obszarów cyfrowej gospodarki. ChatGPT stał się więc symbolem rewolucji AI. Proces ten ma jednak dużo większy zakres, więcej narzędzi i większe implikacje wychodzące daleko poza możliwości samego ChatGPT.
Rozwój cywilizacji opiera się bowiem na paśmie rewolucji wprowadzających do życia nowe narzędzia, czy procesy, które zmieniają sposób i wydajność produkcji. Doświadczyliśmy już takich przemian jak rewolucja przemysłowa z XVIII wieku, rewolucja motoryzacyjna z przełomu XIX i XX wieku oraz rewolucja środków masowego przekazu z XX i XXI wieku. Szczególnie ta ostatnia przyczyniła się do rozwoju mass mediów takich jak: prasa, radio, telewizja a później także internet i media społecznościowe.
Porównywalną do wspomnianych przemian technologicznych rewolucją jest wkroczenie do codziennego życia sztucznej inteligencji, w tym dużych modeli językowych, zwanych skrótowo LLM-ami. Proces, którego obecnie doświadczamy, rozpoczął się znacznie wcześniej, niż można by sądzić. Jedni wymieniają konkurs ImageNet z 2012 r. i zwycięstwo sieci konwolucyjnej AlexNet jako pierwszy silny sygnał nadejścia ery głębokich sieci neuronowych. Inni badacze wskazują słynną pracę „Attention Is All You Need” z 2017 r., w której zaproponowano nową architekturę sieci o nazwie Transformer, będącej obecnie wiodącą architekturą przy budowie nowoczesnych LLM-ów.
ChatGPT od kuchni
Cały mechanizm bazuje na głębokich sieciach neuronowych (deep learning), zastosowanych do przetwarzania języka naturalnego. Wykorzystano w nich neuronowy model języka naturalnego GPT wytrenowany na olbrzymich korpusach językowych w sposób w pełni nienadzorowany, a następnie dostrojono go do konkretnego zbioru zadań i preferencji, czyli „przyuczono go” do efektywnego odpowiadania na zadane przez użytkownika pytania. Pamiętajmy, że wielotorowe uczenie tego modelu dotykało wielu aspektów uczenia – od nienadzorowanego (wstępny trening), po nadzorowane (strojenie na instrukcjach), ale też uczenia ze wzmocnieniem, które okazały się niezwykle istotne dla sukcesu końcowej usługi ChatGPT.
Modele GPT są głębokimi sieciami neuronowymi wykorzystującymi wspomnianą wcześniej architekturę sieci o nazwie Transformer, która stała się architekturą pierwszego wyboru przy budowie nowoczesnych LLM-ów. Kluczowym, rewolucyjnym elementem architektury Transformer jest mechanizm atencji, który pozwala efektywnie uwzględniać relacje między słowami w wejściowym tekście. Uczenie tego rodzaju modeli można porównać do systemowej edukacji dziecka. Na początku uczymy je języka, dokładniej słów, jego podstawowych struktur, skrawków informacji, tak aby dziecko rozumiało, co się do niego mówi. W rezultacie ma ono samodzielnie formułować i wypowiadać określone frazy czy zdania. To jest etap uczenia odpowiadający fazie wstępnego trenowania w dużych modelach językowych. Kolejnym odpowiednikiem jest szkoła z konkretnymi przedmiotami (matematyka, języki, logika) – w nauczaniu LLM-ów odpowiada to tzw. fazie strojenia modelu na zbiorze instrukcji. Na końcu mamy etap, gdzie nasza wiedza jest weryfikowana. Dostajemy oceny, a one wskazują nam, w jakim stopniu dany materiał został opanowany. W dużych modelach językowych odpowiada to fazie trzeciej, czyli wychowaniu, tzw. uczeniu na preferencjach.
[…]
Marek Kozłowski
Autor jest kierownikiem AI LAB w OPI PIB w Warszawie, w którym zarządza pracą zespołu badaczy i programistów zajmującego się tworzeniem oprogramowania wzbogaconego inteligentnymi metodami przetwarzania danych tekstowych i obrazowych.