Obecnie Generatywna sztuczna inteligencja to temat, który zyskał duże znaczenie we współczesnym społeczeństwie. Z biegiem czasu wiele osób interesuje się tym tematem i chce zgłębić go głębiej. I nic dziwnego, skoro Generatywna sztuczna inteligencja budzi ciekawość i zainteresowanie szerokiego spektrum ludzi, od ekspertów w danej dziedzinie po tych, którzy po prostu szukają informacji. Dlatego w tym artykule zagłębimy się w ekscytujący świat Generatywna sztuczna inteligencja, badając jego różne aspekty i analizując jego wpływ dzisiaj. Bez wątpienia ten artykuł będzie punktem wyjścia dla tych, którzy chcą dowiedzieć się więcej o Generatywna sztuczna inteligencja i zagłębić się w jego fascynujący wszechświat.
Generatywna sztuczna inteligencja (ang. generative artificial intelligence, generative AI, GenAI) – ogół narzędzi sztucznej inteligencji służących do generowania tekstu, obrazów, filmów i innych danych z wykorzystaniem modeli generatywnych, najczęściej na podstawie podanych przez użytkownika podpowiedzi (ang. prompts)[1]. Modele generatywnej sztucznej inteligencji uczą się wzorców i struktury danych wejściowych, a następnie generują nowe dane o podobnych cechach[2].
Ulepszenia głębokich sieci neuronowych opartych na transformatorach, w szczególności dużych modeli językowych (LLM), umożliwiły rozwój generatywnych systemów sztucznej inteligencji na początku lat dwudziestych XXI wieku. Należą do nich chatboty, takie jak ChatGPT, Copilot, Gemini, DeepSeek i Claude, systemy generowania obrazu oparte na sztucznej inteligencji przekształcające tekst na obraz, takie jak Stable Diffusion, Midjourney i DALL-E, a także generatory przetwarzające tekst na wideo (np Sora) lub muzykę. Firmy takie jak OpenAI, Anthropic, Microsoft, Google i Baidu, a także wiele mniejszych firm opracowały własne generatywne modele sztucznej inteligencji[3][4].
Generatywna sztuczna inteligencja ma zastosowania w wielu różnych branżach, w tym w tworzeniu oprogramowania, opiece zdrowotnej, finansach, rozrywce, obsłudze klienta[5], sprzedaży i marketingu[6], sztuce, literaturze[7], modzie[8] i projektowaniu produktów. Pojawiły się jednak obawy dotyczące potencjalnego niewłaściwego wykorzystania generatywnej sztucznej inteligencji (cyberprzestępczość, generowanie fałszywych wiadomości lub deepfakes do oszukiwania ludzi lub manipulowania nimi)[9][10].
Pomysł generatywnej sztuki był znany w starożytnej Grecji gdzie tacy wynalazcy jak Dedal czy Heron z Aleksandrii byli opisywani jako potrafiący tworzyć maszyny automaton , które potrafiły pisać tekst, tworzyć dźwięki czy grać muzykę[11][12]. Jednym z bardziej znanych maszyn tego typu jest automaton Maillardeta .
Łańcuch Markowa był używany do analizy tekstu naturalnego od pierwszej publikacji przez jego twórcę Andrieja Markowa, który w 1906 opublikował analizę samogłosek w powieści Eugeniusz Oniegin[13][14]. Gdy łańcuch nauczy się korpusu języka, może zostać użyty jako generator tekstu oparty na prawdopodobieństwie[15][16].
Termin generatywna sztuczna inteligencja zaczął być używany w świecie akademickim w latach 1980. i 1990. w systemach planowania, w szczególności CAPP aby wygenerować sekwencje kroków do osiągnięcia określonego celu[17][18].
Generatywna sztuczna inteligencja w latach 1990. opierała się na technikach takich jak spełnialność więzów i przeszukiwanie przestrzeni stanów . Technologia była używana w wojsku[19] czy produkcji[20].
W latach 2000. w ramach modeli statystycznych definiowano modele takie jak generatywne i dyskryminacyjne potrafiące generować wyniki bazując na obserwacjach[21][22]. W ramach popularyzacji uczenia głębokiego w latach 2010. na popularności zyskiwały modele generowania obrazów z głębokich sieci jak np DeepDream oparty na sieciach konwolucyjnych[23].
Również w latach 2010. powstały architektury autoenkodera wariacyjnego i sieci generatywne GAN, które pozwalają na bardziej zaawansowane modele generatywne.
W 2017 zaprezentowano model transformatora, które pomogły w tworzeniu bardziej zaawansowanych sieci generatywnych niż długa pamięć krótkotrwała[24]. To doprowadziło do stworzenia architektury GPT-1 w 2018 i GPT-2 w 2019[25].
Nowe modele generatywne wprowadzone w tym okresie pozwoliły na uczenie nienadzorowane, co pozwoliło na znaczne ograniczenie lub eliminację czynnika ludzkiego w przygotowywaniu zbiorów uczących, co pozwoliło na tworzenie dużych modeli językowych[26].
W marcu 2020 anonimowy pracownik MIT opublikował serwis 15.ai, który pozwalał na generowanie sztucznego głosu w oparciu o małą ilość próbek głosu, co spopularyzowało pojęcie generatywnej sztucznej inteligencji[27].
Publikacja usługi DALL-E w 2021 do generowania obrazu z tekstu spopularyzowało korzystanie z generatywnej sztucznej inteligencji do generowania obrazów[28]. To pociągnęło za sobą stworzenie takich usług jak Midjourney[29] czy Stable Diffusion w 2022[30].
W listopadzie 2022 OpenAI wydało ChatGPT[31], który potrafił przeprowadzać konwersację z użytkownikiem, a później także generować obrazy, asystować przy tworzeniu kodu i przeprowadzać analizy, co spowodowało debatę nad wpływem generatywnej sztucznej inteligencji w przemyśle, edukacji czy sztuce[32].
W grudniu 2023 Google wydało model multimodalny Gemini[33].
W marcu 2024 Anthropic wydało model Claude, które w szeregu testów wyprzedziło modele od OpenAI i Google[34].
W styczniu 2025 roku DeepSeek wypuścił model R1 tworząc alternatywę do takich usług jak ChatGPT czy Claude[35].
Generatywna sztuczna inteligencja jest używana do tworzenia czatbotów takich jak ChatGPT, narzędzi programistycznych jak GitHub Copilot[36], generowania obrazu z tekstu jak Stable Diffusion i generowanie wideo z tekstu jak Sora. Modele generatywne są również integrowane w produktach biurowych jak Microsoft Office[37].
Mniejsze modele generatywne (mniej niż 10 mld parametrów) mogą działać na mniejszych maszynach jak Raspberry Pi[38] czy iPhone 11[39].
Modele z dziesiątkami miliardów parametrów mogą być uruchamiane na laptopie czy komputerze stacjonarnym jednak urządzenia mogą wymagać dodatkowych akceleratorów GPU czy NPU[40].
Modele z setkami miliardów parametrów i więcej jak GPT-4 wymagają specjalistycznych serwerów z macierzami GPU jak Nvidia H100 lub NPU np Google TPU. Centra danych z takimi systemami potrafią pobierać nawet 1 GW prądu[41][42]. Na rok 2024, koszt jednej karty wynosi 25-30 tys. USD[43].
W 2022 roku Stany Zjednoczone nałożyły ograniczenia eksportu zaawansowanych układów obliczeniowych do Chin . Aby zaadresować tę regulację, powstały układy takie jak Nvidia A800[44], H800[45] i Biren Technology BR104[46]. Dalsze ograniczenia eksportu administracji Stanów Zjednoczonych[47] skutkowały stworzeniem układu Nvidia H20 specjalnie dostosowanego na rynek chiński[48].
W 2024 roku został zaproponowany nowy system ograniczeń eksportu zaawansowanych chipów korzystających z technologii ze Stanów Zjednoczonych z wyszczególnieniem 3 regionów[49][50]:
W styczniu 2025 ogłoszono projekt Stargate z planem inwestycji 500 mld USD w centra danych w Stanach Zjednoczonych wspomagające działanie aplikacji sztucznej inteligencji[51].