Generatywna sztuczna inteligencja

Obecnie Generatywna sztuczna inteligencja to temat, który zyskał duże znaczenie we współczesnym społeczeństwie. Z biegiem czasu wiele osób interesuje się tym tematem i chce zgłębić go głębiej. I nic dziwnego, skoro Generatywna sztuczna inteligencja budzi ciekawość i zainteresowanie szerokiego spektrum ludzi, od ekspertów w danej dziedzinie po tych, którzy po prostu szukają informacji. Dlatego w tym artykule zagłębimy się w ekscytujący świat Generatywna sztuczna inteligencja, badając jego różne aspekty i analizując jego wpływ dzisiaj. Bez wątpienia ten artykuł będzie punktem wyjścia dla tych, którzy chcą dowiedzieć się więcej o Generatywna sztuczna inteligencja i zagłębić się w jego fascynujący wszechświat.

A detailed oil painting of figures in a futuristic opera scene
Théâtre D’opéra Spatial, obraz wygenerowany za pomocą Midjourney

Generatywna sztuczna inteligencja (ang. generative artificial intelligence, generative AI, GenAI) – ogół narzędzi sztucznej inteligencji służących do generowania tekstu, obrazów, filmów i innych danych z wykorzystaniem modeli generatywnych, najczęściej na podstawie podanych przez użytkownika podpowiedzi (ang. prompts)[1]. Modele generatywnej sztucznej inteligencji uczą się wzorców i struktury danych wejściowych, a następnie generują nowe dane o podobnych cechach[2].

Ulepszenia głębokich sieci neuronowych opartych na transformatorach, w szczególności dużych modeli językowych (LLM), umożliwiły rozwój generatywnych systemów sztucznej inteligencji na początku lat dwudziestych XXI wieku. Należą do nich chatboty, takie jak ChatGPT, Copilot, Gemini, DeepSeek i Claude, systemy generowania obrazu oparte na sztucznej inteligencji przekształcające tekst na obraz, takie jak Stable Diffusion, Midjourney i DALL-E, a także generatory przetwarzające tekst na wideo (np Sora) lub muzykę. Firmy takie jak OpenAI, Anthropic, Microsoft, Google i Baidu, a także wiele mniejszych firm opracowały własne generatywne modele sztucznej inteligencji[3][4].

Generatywna sztuczna inteligencja ma zastosowania w wielu różnych branżach, w tym w tworzeniu oprogramowania, opiece zdrowotnej, finansach, rozrywce, obsłudze klienta[5], sprzedaży i marketingu[6], sztuce, literaturze[7], modzie[8] i projektowaniu produktów. Pojawiły się jednak obawy dotyczące potencjalnego niewłaściwego wykorzystania generatywnej sztucznej inteligencji (cyberprzestępczość, generowanie fałszywych wiadomości lub deepfakes do oszukiwania ludzi lub manipulowania nimi)[9][10].

Historia

Wczesna historia

Automaton Maillardeta - programowalne urządzenie potrafiące generować grafikę

Pomysł generatywnej sztuki był znany w starożytnej Grecji gdzie tacy wynalazcy jak Dedal czy Heron z Aleksandrii byli opisywani jako potrafiący tworzyć maszyny automaton(inne języki), które potrafiły pisać tekst, tworzyć dźwięki czy grać muzykę[11][12]. Jednym z bardziej znanych maszyn tego typu jest automaton Maillardeta(inne języki).

Łańcuch Markowa był używany do analizy tekstu naturalnego od pierwszej publikacji przez jego twórcę Andrieja Markowa, który w 1906 opublikował analizę samogłosek w powieści Eugeniusz Oniegin[13][14]. Gdy łańcuch nauczy się korpusu języka, może zostać użyty jako generator tekstu oparty na prawdopodobieństwie[15][16].

Akademicka sztuczna inteligencja

Termin generatywna sztuczna inteligencja zaczął być używany w świecie akademickim w latach 1980. i 1990. w systemach planowania, w szczególności CAPP aby wygenerować sekwencje kroków do osiągnięcia określonego celu[17][18].

Generatywna sztuczna inteligencja w latach 1990. opierała się na technikach takich jak spełnialność więzów(inne języki) i przeszukiwanie przestrzeni stanów(inne języki). Technologia była używana w wojsku[19] czy produkcji[20].

Generatywne sieci neuronowe

Powyżej: przykład klasyfikacji obrazów oparty na modely dyskryminacyjnym. Poniżej: model generatywny tworzący obraz z tekstu

W latach 2000. w ramach modeli statystycznych definiowano modele takie jak generatywne i dyskryminacyjne potrafiące generować wyniki bazując na obserwacjach[21][22]. W ramach popularyzacji uczenia głębokiego w latach 2010. na popularności zyskiwały modele generowania obrazów z głębokich sieci jak np DeepDream(inne języki) oparty na sieciach konwolucyjnych[23].

Również w latach 2010. powstały architektury autoenkodera wariacyjnego i sieci generatywne GAN, które pozwalają na bardziej zaawansowane modele generatywne.

W 2017 zaprezentowano model transformatora, które pomogły w tworzeniu bardziej zaawansowanych sieci generatywnych niż długa pamięć krótkotrwała[24]. To doprowadziło do stworzenia architektury GPT-1 w 2018 i GPT-2 w 2019[25].

Nowe modele generatywne wprowadzone w tym okresie pozwoliły na uczenie nienadzorowane, co pozwoliło na znaczne ograniczenie lub eliminację czynnika ludzkiego w przygotowywaniu zbiorów uczących, co pozwoliło na tworzenie dużych modeli językowych[26].

Boom AI

Wykres pokazujący wielkość prywatnych inwestycji w sztuczną inteligencję (różowy) i generatywną sztuczną inteligencję (zielony)

W marcu 2020 anonimowy pracownik MIT opublikował serwis 15.ai, który pozwalał na generowanie sztucznego głosu w oparciu o małą ilość próbek głosu, co spopularyzowało pojęcie generatywnej sztucznej inteligencji[27].

Publikacja usługi DALL-E w 2021 do generowania obrazu z tekstu spopularyzowało korzystanie z generatywnej sztucznej inteligencji do generowania obrazów[28]. To pociągnęło za sobą stworzenie takich usług jak Midjourney[29] czy Stable Diffusion w 2022[30].

W listopadzie 2022 OpenAI wydało ChatGPT[31], który potrafił przeprowadzać konwersację z użytkownikiem, a później także generować obrazy, asystować przy tworzeniu kodu i przeprowadzać analizy, co spowodowało debatę nad wpływem generatywnej sztucznej inteligencji w przemyśle, edukacji czy sztuce[32].

W grudniu 2023 Google wydało model multimodalny Gemini[33].

W marcu 2024 Anthropic(inne języki) wydało model Claude, które w szeregu testów wyprzedziło modele od OpenAI i Google[34].

W styczniu 2025 roku DeepSeek wypuścił model R1 tworząc alternatywę do takich usług jak ChatGPT czy Claude[35].

Oprogramowanie i sprzęt

Architektura generatywnego agenta AI z wejściem, obróbką wstępną, dużym modelem językowym i obróbką końcową.

Generatywna sztuczna inteligencja jest używana do tworzenia czatbotów takich jak ChatGPT, narzędzi programistycznych jak GitHub Copilot[36], generowania obrazu z tekstu jak Stable Diffusion i generowanie wideo z tekstu jak Sora. Modele generatywne są również integrowane w produktach biurowych jak Microsoft Office[37].

Mniejsze modele generatywne (mniej niż 10 mld parametrów) mogą działać na mniejszych maszynach jak Raspberry Pi[38] czy iPhone 11[39].

Modele z dziesiątkami miliardów parametrów mogą być uruchamiane na laptopie czy komputerze stacjonarnym jednak urządzenia mogą wymagać dodatkowych akceleratorów GPU czy NPU[40].

Nvidia H100, jedna z kart używana na początku 2020. do tworzenia dużych modeli generatywnej sztucznej inteligencji

Modele z setkami miliardów parametrów i więcej jak GPT-4 wymagają specjalistycznych serwerów z macierzami GPU jak Nvidia H100(inne języki) lub NPU np Google TPU. Centra danych z takimi systemami potrafią pobierać nawet 1 GW prądu[41][42]. Na rok 2024, koszt jednej karty wynosi 25-30 tys. USD[43].

W 2022 roku Stany Zjednoczone nałożyły ograniczenia eksportu zaawansowanych układów obliczeniowych do Chin(inne języki). Aby zaadresować tę regulację, powstały układy takie jak Nvidia A800[44], H800[45] i Biren Technology BR104[46]. Dalsze ograniczenia eksportu administracji Stanów Zjednoczonych[47] skutkowały stworzeniem układu Nvidia H20 specjalnie dostosowanego na rynek chiński[48].

W 2024 roku został zaproponowany nowy system ograniczeń eksportu zaawansowanych chipów korzystających z technologii ze Stanów Zjednoczonych z wyszczególnieniem 3 regionów[49][50]:

  1. Kraje bez ograniczeń w imporcie, takie jak Stany Zjednoczone, Niemcy, Francja, Japonia
  2. Kraje z limitem 50 tys. zaawansowanych chipów jak Polska, Izrael, Meksyk, Indonezja
  3. Kraje z zakazem eksportu jak Chiny, Rosja

W styczniu 2025 ogłoszono projekt Stargate z planem inwestycji 500 mld USD w centra danych w Stanach Zjednoczonych wspomagające działanie aplikacji sztucznej inteligencji[51].

Przypisy

  1. Erin Griffith: Anthropic Said to Be Closing In on $300 Million in New A.I. Funding. The New York Times, 2023-01-27. . . (ang.).
  2. Andrej Karpathy: Generative models. 2016-06-16. . .
  3. Erin Griffith: Anthropic Said to Be Closing In on $300 Million in New A.I. Funding. The New York Times, 2023-01-27. . .
  4. June Yang: Google Cloud brings generative AI to developers, businesses, and governments. 2023-03-14. . .
  5. Brynjolfsson, Generative AI at Work, 2023 (Working Paper Series), DOI10.3386/w31161 .
  6. Don’t fear an AI-induced jobs apocalypse just yet. 2023-03-06. . .
  7. Jake Coyle: In Hollywood writers’ battle against AI, humans win (for now). AP News, 2023-09-27. . . (ang.).
  8. H. Harreis: Generative AI: Unlocking the future of fashion. . . (ang.).
  9. Justin Hendrix: Transcript: Senate Judiciary Subcommittee Hearing on Oversight of AI. techpolicy.press, 2023-05-16. . . (ang.).
  10. Felix M. Simon. Misinformation reloaded? Fears about the impact of generative AI on misinformation are overblown. „Harvard Kennedy School Misinformation Review”, 2023-10-18. DOI: 10.37016/mr-2020-127. . (ang.). 
  11. New Scientist Technology Blog: A programmable robot from 60 AD , web.archive.org, 12 stycznia 2017 .
  12. Gerard Brett, The Automata in the Byzantine "Throne of Solomon", „Speculum”, 29 (3), 1954, s. 477–487, DOI10.2307/2846790, ISSN 0038-7134, JSTOR2846790 .
  13. Prof. Charles Grinstead, Prof. Laurie Snell, Introduction to Probability, American Mathematical Society, 1997 .
  14. Pierre Bremaud, Markov Chains: Gibbs Fields, Monte Carlo Simulation, and Queues, Springer Science & Business Media, 9 marca 2013, ISBN 978-1-4757-3124-8 (ang.).
  15. First Links in the Markov Chain , American Scientist, 6 lutego 2017 (ang.).
  16. Shai Fine, Yoram Singer, Naftali Tishby, The Hierarchical Hidden Markov Model: Analysis and Applications, „Machine Learning”, 32 (1), 1998, s. 41–62, DOI10.1023/A:1007469218079, ISSN 1573-0565 (ang.).
  17. (PDF) Computer Aided Process Planning: The State-of-the-Art Survey,” , ResearchGate (ang.).
  18. S. Chien i inni, Automated planning and scheduling for goal-based autonomous spacecraft, „IEEE Intelligent Systems and their Applications”, 13 (5), 1998, s. 50–55, DOI10.1109/5254.722362, ISSN 2374-9423 .
  19. Thomas D. Garvey Northrup Fowler IlI, Overview: ARPA-Rome Laboratory Knowledge-Based Planning and Scheduling Initiative (ARPI) , AAAI (ang.).
  20. Computer Aided Process Planning: The State-of-the-Art Survey, 1989.
  21. Andrew Ng, Michael Jordan, On Discriminative vs. Generative Classifiers: A comparison of logistic regression and naive Bayes, „Advances in Neural Information Processing Systems”, 14, MIT Press, 2001 .
  22. Tony Jebara, Machine Learning, „SpringerLink”, 2004, DOI10.1007/978-1-4419-9011-2 (ang.).
  23. Research Blog: DeepDream - a code example for visualizing Neural Networks , web.archive.org, 8 lipca 2015 .
  24. Yihan Cao i inni, A Comprehensive Survey of AI-Generated Content (AIGC): A History of Generative AI from GAN to ChatGPT, „arXiv”, 2023, DOI10.48550/arXiv.2303.04226, arXiv:2303.04226 .
  25. Language Models are Unsupervised Multitask Learners, OpenAI, 2021 .
  26. Improving language understanding with unsupervised learning , openai.com, 14 lutego 2024 (ang.).
  27. Rionaldi Chandraseta, Generate Your Favourite Characters' Voice Lines using Machine Learning , Towards Data Science, 21 stycznia 2021 (ang.).
  28. OpenAI’s DALL-E creates plausible images of literally anything you ask it to – TechCrunch , web.archive.org, 6 stycznia 2021 .
  29. Midjourney Legacy Model Versions , web.archive.org, 26 września 2023 .
  30. Stable Diffusion Public Release , Stability AI (ang.).
  31. Introducing ChatGPT , openai.com, 13 marca 2024 (ang.).
  32. Ars Contributors, How ChatGPT turned generative AI into an “anything tool” , Ars Technica, 23 sierpnia 2023 (ang.).
  33. Miles Kruppa, Google Announces AI System Gemini After Turmoil at Rival OpenAI , WSJ (ang.).
  34. Michael Nuñez, Anthropic unveils Claude 3, surpassing GPT-4 and Gemini Ultra in benchmark tests , VentureBeat, 4 marca 2024 (ang.).
  35. Sharon Goldman, DeepSeek dropped an open-source AI bomb—what does it mean for OpenAI and Anthropic? , Fortune (ang.).
  36. Sam Sabin, GitHub taps generative AI to help coders keep security flaws out of their projects , Axios, 30 czerwca 2023 (ang.).
  37. Jonathan Vanian, Microsoft adds OpenAI technology to Word and Excel , CNBC, 16 marca 2023 (ang.).
  38. Les Pounder, How To Create Your Own AI Chatbot Server With Raspberry Pi 4 , Tom's Hardware, 25 marca 2023 (ang.).
  39. Jonathan Kemper, "Draw Things" App brings Stable Diffusion to the iPhone , THE DECODER, 10 listopada 2022 (ang.).
  40. Llama 2 and Llama 3.1 Hardware Requirements: GPU, CPU, RAM , Hardware Corner (ang.).
  41. Emil Sayegh, The Billion-Dollar AI Gamble: Data Centers As The New High-Stakes Game , Forbes (ang.).
  42. China built hundreds of AI data centers to catch the AI boom. Now many stand unused. , MIT Technology Review (ang.).
  43. Jonathan Vanian, Mark Zuckerberg indicates Meta is spending billions of dollars on Nvidia AI chips , CNBC, 18 stycznia 2024 (ang.).
  44. Anton Shilov, Nvidia's Chinese A800 GPU's Performance Revealed , Tom's Hardware, 7 maja 2023 (ang.).
  45. Nvidia tweaks flagship H100 chip for export to China as H800 | Reuters , web.archive.org, 22 listopada 2023 .
  46. How China’s Biren Is Attempting To Evade US Sanctions , SemiAnalysis, 24 października 2022 (ang.).
  47. Kif Leswing, U.S. curbs export of more AI chips, including Nvidia H800, to China , CNBC, 17 października 2023 (ang.).
  48. Here are the chips that Nvidia can sell to China , Quartz, 27 marca 2025 (ang.).
  49. Pożegnalny "prezent" Joe Bidena uderzy w Polskę. Może spowolnić rozwój AI , INNPoland.pl (pol.).
  50. Maciej Szostak, USA nakładają limity m.in. na Polskę — AI nie dla każdego , Obserwator Gospodarczy, 15 stycznia 2025 .
  51. Trump ogłasza projekt Stargate. 500 mld dolarów na sztuczną inteligencję w USA , Parkiet .