Playground AI
Eksperymentuj z algorytmami AI bezpośrednio w przeglądarce.
Tokenizer
Tokenizacja to pierwszy krok przetwarzania tekstu przez modele AI — dzieli tekst na mniejsze jednostki (tokeny), które model rozumie. Metoda BPE (Byte Pair Encoding), stosowana w GPT i BERT, łączy najczęstsze pary znaków w subtokeny, osiągając balans między elastycznością a efektywnością. Liczba tokenów bezpośrednio wpływa na koszt wywołań API.
Czego się nauczysz
- Czym różnią się tokenizacje: znakowa, słowna i BPE
- Jak BPE buduje słownik subtokenów z par znaków
- Dlaczego liczba tokenów wpływa na koszt i wydajność
- Jak polski tekst jest tokenizowany w porównaniu do angielskiego
Jak korzystać z wizualizacji
Wizualizacja tokenizacji tekstu — fundamentalnego kroku w przetwarzaniu języka naturalnego. Wpisz tekst po polsku i porównaj trzy metody: znakową (char-level), słowną (word-level) i BPE (subword). Kolorowe boxy pokazują granice tokenów, a wykres porównuje liczbę tokenów dla każdej metody.
Poznaj teorię
Wizualizacja to świetny start, ale pełne zrozumienie wymaga teorii. Przeczytaj artykuł w bazie wiedzy, żeby dowiedzieć się jak to naprawdę działa pod maską.
Przeczytaj artykuł →