SpeakLeash

Dzisiaj chcemy porozmawiać o SpeakLeash, temacie, który zyskał duże znaczenie w ostatnich latach. SpeakLeash to temat, który był przedmiotem debat, badań i analiz w różnych obszarach, od polityki po naukę, w tym kulturę i społeczeństwo w ogóle. SpeakLeash wzbudził sprzeczne opinie, wywołał kontrowersje, był źródłem dyskusji i wzbudził zainteresowanie wielu osób. W tym artykule zbadamy różne aspekty SpeakLeash, zagłębimy się w jego znaczenie, implikacje i wpływ na dzisiejszy świat. Bez wątpienia SpeakLeash to temat, który nie pozostawia nikogo obojętnym i który zasługuje na dogłębne i przemyślane poruszenie.

SpeakLeash (znany również jako Spichlerz)[1] – polski projekt typu open source, założony w 2022 roku, zarządzany prze Fundację Speakleash. Celem projektu jest umożliwienie prowadzenia badań nad modelowaniem języka i uczeniem maszynowym w języku polskim[2][3]. Pierwotnym założeniem projektu było zbudowanie zestawu danych w języku polskim dla dużego modelu językowego (LLM). Obecnie projekt koncentruje się na tworzeniu narzędzi do ewidencji, filtrowania oraz utrzymania zestawów danych tekstowych, które mogą być bezpłatnie wykorzystane do trenowania modeli sztucznej inteligencji w języku polskim[4].

W 2023 bilbioteka Speaklesh udostępniana w formie open-source (licencja MIT)[5] zawierała 300 GB danych (54 milionów dokumentów) używanych do trenowania dużych modeli językowych (LLM).[6]

Historia

2022–2023: Początki projektu

Projekt SpeakLeash został zainicjowany przez Sebastiana Kondrackiego, aby wpłynąć na polonizację modelu Bloom, wielojęzycznego, dużego modelu językowego, który nie obsługiwał języka polskiego. Sebastian Kondracki nawiązał kontakt z przedstawicielami Hugging Face oraz członkami zespołu BigScience (twórców Blooma). W rezultacie powstała grupa robocza, która zajęła się polonizacją modelu. Uzyskano wsparcie EleutherAI w wytrenowaniu polskiego LLM-a[7]. W listopadzie 2022 roku zdecydowano o przekształceniu inicjatywy w projekt SpeakLeash, którego celem stało się zebranie i bezpłatne udostępnienie otwartych danych tekstowych dla wszystkich zainteresowanych. W 2023 roku projekt nawiązał współpracę z Akademickim Centrum Komputerowym Cyfronet AGH, które udostępniło swoje zasoby obliczeniowe[8][9].

2024–: Rozwój i powstanie Bielika

 Osobny artykuł: Bielik (model językowy).

W 2024 roku kontynuowano prace nad rozwojem zestawu danych oraz narzędzi do kontroli jakości. Wprowadzono generatywny model językowy Bielik[10] udostępniany wraz z narzędziami na platformie GitHub.

W 2025 roku Speaklesh otrzymał wyróżnienie „Rzeczpospolitej Cyfrowej” za opracowanie Bielika[11].

Zespół

Inicjator projektu:

Założyciele:

  • Mateusz Kuras
  • Paweł Wilk[13]
  • Marcin Kurzyna[14]
  • Waldemar Boszko
  • Jacek Chwiła[15]
  • Grzegorz Urbanowicz

Przypisy

  1. SpeakLeash | Spichlerz , SpeakLeash | Spichlerz, 1 lipca 2024 .
  2. Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .
  3. 1 Introduction, Krzysztof Ociepa i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI10.48550/arXiv.2410.18565 .
  4. Nikola Bochyńska, Zbiórka na „polski ChatGPT”. Ten rok będzie kluczowy , cyberdefence24.pl, 4 lutego 2025 .
  5. speakleash/speakleash, SpeakLeash /ˈspix.lɛʂ/, 20 marca 2025 .
  6. 6.1 Integration with Machine Learning Classifiers, Inez Okulska i inni, StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors, arXiv, 22 września 2023, DOI10.48550/arXiv.2309.12810 (ang.).
  7. AI mówi po polsku; przegląd rodzimych prac nad modelami językowymi. Centrum Cyfrowe, 2024-11. .
  8. Acknowledgements, Krzysztof Ociepa i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI10.48550/arXiv.2410.18565 .
  9. Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH , Nauka w Polsce .
  10. BIELIK.AI , 25 sierpnia 2024 .
  11. Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .
  12. Sebastian Kondracki , XIV KONFERENCJA SIM .
  13. Paweł Wilk , www.uni.lodz.pl (ang.).
  14. dr inż. Marcin Kurzyna - Jednostki i pracownicy - Strona główna UMCS , www.umcs.pl .
  15. Jacek Chwiła | hyperautomation.pl , hiperautomatyzacja6.robonomika.pl .

Linki zewnętrzne