Generative pre-trained transformer

Generative pre-trained transformer (GPT), wstępnie przeszkolony transformator generatywny^[1] – rodzaj dużego modelu językowego (ang. large language model, LLM), czyli modelu uczenia maszynowego (ang. machine learning), który został wytrenowany na ogromnych zbiorach danych tekstowych i potrafi generować tekst na podstawie podanego mu kontekstu. GPT jest jednym z największych i najbardziej zaawansowanych modeli LLM. Pierwszy model GPT został przedstawiony przez firmę OpenAI w 2018 roku^[2]. Do tej pory OpenAI przedstawiła cztery wersje GPT. Modele GPT są również rozwijane przez inne firmy, takie jak: EleutherAI^[3], Cerebras^[4].

W uproszczeniu można powiedzieć, że GPT jest programem komputerowym, który przetwarza ogromne ilości tekstu, aby nauczyć się reguł języka. Następnie, gdy dostanie fragment tekstu, potrafi wygenerować sensowne i poprawne gramatycznie kontynuacje zdania, a gdy dostanie zapytanie, potrafi wygenerować sensowne odpowiedzi^[5]. Model GPT był trenowany na różnorodnych źródłach danych, w tym na artykułach z Wikipedii, artykułach prasowych i różnorodnych tekstach z internetu^[5].

Tym, co odróżnia GPT od innych rozwiązań LLM jest fakt, że model może być trenowany metodą uczenia nienadzorowanego. Dzieje się tak w pierwszej fazie treningu. W kolejnej fazie model jest trenowany metodą nadzorowaną, ale skupioną na konkretnych zastosowaniach^[2].

GPT jest modelem opartym na sieciach neuronowych (artificial neural networks) typu Transformer, które zostały specjalnie zaprojektowane do przetwarzania sekwencji danych, takich jak tekst^[2]. Sieci neuronowe są matematycznymi modelami, które próbują naśladować sposób działania ludzkiego mózgu, dzięki czemu potrafią uczyć się na podstawie przykładów i przetwarzać duże ilości danych. W przypadku GPT, sieci neuronowe są wykorzystywane do trenowania modelu językowego na dużym zbiorze danych tekstowych.

Jednym z najbardziej znanych zastosowań modelu GPT jest aplikacja ChatGPT udostępniona przez OpenAI.

Rozwój modeli GPT[edytuj | edytuj kod]

Kolejne generacje modeli GPT wprowadzały liczne ulepszenia oraz zwiększały ich zdolności, co pozwoliło na ich szerokie zastosowanie w dziedzinach takich jak przetwarzanie języka naturalnego, analiza danych czy tworzenie syntetycznych tekstów.

GPT-1, pierwszy model z serii, został wydany w 2018 roku. GPT-1 jako pierwszy model w serii GPT zastosował innowacyjne podejście do uczenia nienadzorowanego i uczenia transferowego. Umożliwiło to generowanie tekstów o większej spójności i zrozumiałości w porównaniu do wielu wcześniejszych modeli przetwarzania języka naturalnego, co stanowiło istotny krok w rozwoju sztucznej inteligencji opartej na NLP.

GPT-2 zostało wydane w lutym 2019 roku, a GPT-3 w czerwcu 2020 roku.

Kolejne wersje wprowadzały fundamentalne zmiany w architekturze i usprawnienia względem GPT-1, takie jak: zwiększenie liczby parametrów (co pozwoliło na lepsze modelowanie języka), oraz wytrenowanie na znacznie większym i bardziej zróżnicowanym zbiorze danych (dzięki czemu modele były w stanie lepiej generalizować i radzić sobie z różnorodnymi zadaniami związanymi z przetwarzaniem języka naturalnego).

Postęp w rozwoju modelu GPT-3 pozwolił na przełom w postaci nabycia przez model umiejętności wykonywania prostych zadań arytmetycznych, w tym tworzenia fragmentów kodu i wykonywania zadań wymagających pewnego poziomu inteligencji^[6]. GPT-4, najnowsza generacja modeli GPT, została udostępniona 14 marca 2023 roku. Nowszy model charakteryzuje się o 82% niższym prawdopodobieństwem udzielenia odpowiedzi na żądania użytkowników dotyczących treści niedozwolonych oraz o 40% większym prawdopodobieństwem przedstawienia odpowiedzi zgodnych z faktami w porównaniu z modelem GPT-3.5^[7].

Postęp i złożoność kolejnych wersji modelu GPT obrazuje tabela:

Model	Parametry	Warstwy dekodera	Rozmiar kontekstu tokenów	Warstwa ukryta	Rozmiar partii
GPT-1	117 milionów	12	512	768	64
GPT-2	1,5 miliarda	48	1024	1600	512
GPT-3	175 miliardów	96	2048	12 288	3,2 mln
GPT-4	1 bilion^{[potrzebny przypis]}	768	8192 do 32 768	49 152	Nieznany

Przypisy[edytuj | edytuj kod]

↑ Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP - Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-25] (pol.).
↑ ^a ^b ^c Improving Language Understanding by Generative Pre-Training.
↑ EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).
↑ Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.
↑ ^a ^b GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1.
↑ ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17] (pol.).
↑ GPT-4 [online], openai.com [dostęp 2023-04-17] (ang.).

Linki zewnętrzne[edytuj | edytuj kod]

Andrej Karpathy: State of GPT. Microsoft Build. (wideo)
But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning w serwisie YouTube

[1] Sztuczna inteligencja albo nas zbawi, albo zabije. Mam tyle samo nadziei, co obaw [online], CHIP - Technologie mamy we krwi!, 18 marca 2023 [dostęp 2024-05-25] (pol.).

[oai-2] Improving Language Understanding by Generative Pre-Training.

[3] EleutherAI Open-Sources Six Billion Parameter GPT-3 Clone GPT-J. [dostęp 2023-04-08]. (ang.).

[4] Cerebras Systems Releases Seven New GPT Models Trained on CS-2 Wafer-Scale Systems.

[s-5] GPT-3: Its Nature, Scope, Limits, and Consequences. „Minds & Machines”. 30, 681–694, 2020. DOI: 10.1007/s11023-020-09548-1.

[6] ChatGPT – historia i wersje [online], Wszystko O ChatGPT [dostęp 2023-04-17] (pol.).

[7] GPT-4 [online], openai.com [dostęp 2023-04-17] (ang.).

[1]

[2]

[3]

[4]

[5]

[6]

[7]