Dzisiaj chcemy porozmawiać o SpeakLeash, temacie, który zyskał duże znaczenie w ostatnich latach. SpeakLeash to temat, który był przedmiotem debat, badań i analiz w różnych obszarach, od polityki po naukę, w tym kulturę i społeczeństwo w ogóle. SpeakLeash wzbudził sprzeczne opinie, wywołał kontrowersje, był źródłem dyskusji i wzbudził zainteresowanie wielu osób. W tym artykule zbadamy różne aspekty SpeakLeash, zagłębimy się w jego znaczenie, implikacje i wpływ na dzisiejszy świat. Bez wątpienia SpeakLeash to temat, który nie pozostawia nikogo obojętnym i który zasługuje na dogłębne i przemyślane poruszenie.
SpeakLeash (znany również jako Spichlerz)[1] – polski projekt typu open source, założony w 2022 roku, zarządzany prze Fundację Speakleash. Celem projektu jest umożliwienie prowadzenia badań nad modelowaniem języka i uczeniem maszynowym w języku polskim[2][3]. Pierwotnym założeniem projektu było zbudowanie zestawu danych w języku polskim dla dużego modelu językowego (LLM). Obecnie projekt koncentruje się na tworzeniu narzędzi do ewidencji, filtrowania oraz utrzymania zestawów danych tekstowych, które mogą być bezpłatnie wykorzystane do trenowania modeli sztucznej inteligencji w języku polskim[4].
W 2023 bilbioteka Speaklesh udostępniana w formie open-source (licencja MIT)[5] zawierała 300 GB danych (54 milionów dokumentów) używanych do trenowania dużych modeli językowych (LLM).[6]
Projekt SpeakLeash został zainicjowany przez Sebastiana Kondrackiego, aby wpłynąć na polonizację modelu Bloom, wielojęzycznego, dużego modelu językowego, który nie obsługiwał języka polskiego[potrzebny przypis]. Sebastian Kondracki nawiązał kontakt z przedstawicielami Hugging Face oraz członkami zespołu BigScience (twórców Blooma). W rezultacie powstała grupa robocza, która zajęła się polonizacją modelu. Uzyskano wsparcie EleutherAI w wytrenowaniu polskiego LLM-a[7]. W listopadzie 2022 roku zdecydowano o przekształceniu inicjatywy w projekt SpeakLeash, którego celem stało się zebranie i bezpłatne udostępnienie otwartych danych tekstowych dla wszystkich zainteresowanych. W 2023 roku projekt nawiązał współpracę z Akademickim Centrum Komputerowym Cyfronet AGH, które udostępniło swoje zasoby obliczeniowe[8][9].
W 2024 roku kontynuowano prace nad rozwojem zestawu danych oraz narzędzi do kontroli jakości. Wprowadzono generatywny model językowy Bielik[10] udostępniany wraz z narzędziami na platformie GitHub.
W 2025 roku Speaklesh otrzymał wyróżnienie „Rzeczpospolitej Cyfrowej” za opracowanie Bielika[11].
Inicjator projektu:
Założyciele: