SpeakLeash

SpeakLeash (znany również jako Spichlerz)^[1] – polski projekt typu open source, założony w 2022 roku, zarządzany prze Fundację Speakleash. Celem projektu jest umożliwienie prowadzenia badań nad modelowaniem języka i uczeniem maszynowym w języku polskim^[2]^[3]. Pierwotnym założeniem projektu było zbudowanie zestawu danych w języku polskim dla dużego modelu językowego (LLM). Obecnie projekt koncentruje się na tworzeniu narzędzi do ewidencji, filtrowania oraz utrzymania zestawów danych tekstowych, które mogą być bezpłatnie wykorzystane do trenowania modeli sztucznej inteligencji w języku polskim^[4].

W 2023 bilbioteka Speaklesh udostępniana w formie open-source (licencja MIT)^[5] zawierała 300 GB danych (54 milionów dokumentów) używanych do trenowania dużych modeli językowych (LLM).^[6]

Historia

2022–2023: Początki projektu

Projekt SpeakLeash został zainicjowany przez Sebastiana Kondrackiego, aby wpłynąć na polonizację modelu Bloom, wielojęzycznego, dużego modelu językowego, który nie obsługiwał języka polskiego^{[potrzebny przypis]}. Sebastian Kondracki nawiązał kontakt z przedstawicielami Hugging Face oraz członkami zespołu BigScience (twórców Blooma). W rezultacie powstała grupa robocza, która zajęła się polonizacją modelu. Uzyskano wsparcie EleutherAI w wytrenowaniu polskiego LLM-a^[7]. W listopadzie 2022 roku zdecydowano o przekształceniu inicjatywy w projekt SpeakLeash, którego celem stało się zebranie i bezpłatne udostępnienie otwartych danych tekstowych dla wszystkich zainteresowanych. W 2023 roku projekt nawiązał współpracę z Akademickim Centrum Komputerowym Cyfronet AGH, które udostępniło swoje zasoby obliczeniowe^[8]^[9].

2024–: Rozwój i powstanie Bielika

Osobny artykuł: Bielik (model językowy).

W 2024 roku kontynuowano prace nad rozwojem zestawu danych oraz narzędzi do kontroli jakości. Wprowadzono generatywny model językowy Bielik^[10] udostępniany wraz z narzędziami na platformie GitHub.

W 2025 roku Speaklesh otrzymał wyróżnienie „Rzeczpospolitej Cyfrowej” za opracowanie Bielika^[11].

Zespół

Inicjator projektu:

Sebastian Kondracki^[12]

Założyciele:

Mateusz Kuras
Paweł Wilk^[13]
Marcin Kurzyna^[14]
Waldemar Boszko
Jacek Chwiła^[15]
Grzegorz Urbanowicz

Przypisy

↑ SpeakLeash | Spichlerz , SpeakLeash | Spichlerz, 1 lipca 2024 .
↑ Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .
↑ 1 Introduction, KrzysztofK. Ociepa KrzysztofK. i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI: 10.48550/arXiv.2410.18565 .
↑ NikolaN. Bochyńska NikolaN., Zbiórka na „polski ChatGPT”. Ten rok będzie kluczowy , cyberdefence24.pl, 4 lutego 2025 .
↑ speakleash/speakleash, SpeakLeash /ˈspix.lɛʂ/, 20 marca 2025 .
↑ 6.1 Integration with Machine Learning Classifiers, InezI. Okulska InezI. i inni, StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors, arXiv, 22 września 2023, DOI: 10.48550/arXiv.2309.12810 (ang.).
↑ AI mówi po polsku; przegląd rodzimych prac nad modelami językowymi. Centrum Cyfrowe, 2024-11. .
↑ Acknowledgements, KrzysztofK. Ociepa KrzysztofK. i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI: 10.48550/arXiv.2410.18565 .
↑ Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH , Nauka w Polsce .
↑ BIELIK.AI , 25 sierpnia 2024 .
↑ Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .
↑ Sebastian Kondracki , XIV KONFERENCJA SIM .
↑ Paweł Wilk , www.uni.lodz.pl (ang.).
↑ dr inż. Marcin Kurzyna - Jednostki i pracownicy - Strona główna UMCS , www.umcs.pl .
↑ Jacek Chwiła | hyperautomation.pl , hiperautomatyzacja6.robonomika.pl .

Linki zewnętrzne

[1] SpeakLeash | Spichlerz , SpeakLeash | Spichlerz, 1 lipca 2024 .

[2] Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .

[3] 1 Introduction, KrzysztofK. Ociepa KrzysztofK. i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI: 10.48550/arXiv.2410.18565 .

[4] NikolaN. Bochyńska NikolaN., Zbiórka na „polski ChatGPT”. Ten rok będzie kluczowy , cyberdefence24.pl, 4 lutego 2025 .

[5] speakleash/speakleash, SpeakLeash /ˈspix.lɛʂ/, 20 marca 2025 .

[6] 6.1 Integration with Machine Learning Classifiers, InezI. Okulska InezI. i inni, StyloMetrix: An Open-Source Multilingual Tool for Representing Stylometric Vectors, arXiv, 22 września 2023, DOI: 10.48550/arXiv.2309.12810 (ang.).

[7] AI mówi po polsku; przegląd rodzimych prac nad modelami językowymi. Centrum Cyfrowe, 2024-11. .

[8] Acknowledgements, KrzysztofK. Ociepa KrzysztofK. i inni, Bielik 7B v0.1 : a Polish language model : development, insights, and evaluation, 2024, DOI: 10.48550/arXiv.2410.18565 .

[9] Bielik wylądował! Polski model językowy rozwinął skrzydła dzięki superkomputerom z AGH , Nauka w Polsce .

[10] BIELIK.AI , 25 sierpnia 2024 .

[11] Wyróżnienia „Rzeczpospolitej Cyfrowej”. Z polskimi innowacjami nie jest tak źle, wskazaliśmy wybitnych , Rzeczpospolita .

[12] Sebastian Kondracki , XIV KONFERENCJA SIM .

[13] Paweł Wilk , www.uni.lodz.pl (ang.).

[14] dr inż. Marcin Kurzyna - Jednostki i pracownicy - Strona główna UMCS , www.umcs.pl .

[15] Jacek Chwiła | hyperautomation.pl , hiperautomatyzacja6.robonomika.pl .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]