Podstawy AI · tokenizacja

Token w AI — czym jest, jak działa i jak go liczyć

Każda rozmowa z ChatGPT, Claude czy Gemini zaczyna się od tej samej operacji: model rozbija twój tekst na drobne kawałki zwane tokenami. To one — nie słowa — decydują o cenie, długości pamięci i jakości odpowiedzi. Wyjaśniamy bez żargonu.

token tokenizacja BPE tiktoken kontekst koszty AI
// jak tokenizer BPE rozbija polskie zdanie na kawałki rozpoznawalne przez model
// w skrócie

Token to najmniejsza jednostka tekstu, którą widzi sztuczna inteligencja — kawałek słowa, znak interpunkcyjny albo nawet pojedyncza litera. Modele nie czytają liter ani słów, tylko sekwencje liczb przypisanych do tokenów. Liczba tokenów decyduje o cenie zapytania, długości kontekstu i jakości odpowiedzi. W angielskim 1 token ≈ 4 znaki ≈ 0,75 słowa; w polskim — średnio o 30–50% więcej tokenów na to samo zdanie.

01 / Czym jest token? Definicja

Kiedy wpisujesz w ChatGPT zdanie „Sztuczna inteligencja rozumie język", model nie widzi tych słów. Widzi sześć liczb: 28102, 45011, 15923, 8841, 3214, 13. Każda z nich to identyfikator tokenu — fragmentu tekstu, który tokenizer (osobny moduł obok modelu) wcześniej nauczył się rozpoznawać.

Najprościej można powiedzieć tak: token to najmniejsza jednostka tekstu, jaką potrafi rozróżnić model językowy. Może to być całe częste słowo (jak „kot"), fragment rzadszego słowa („inteligen", „cja"), pojedynczy znak, emoji albo nawet jedna spacja. Microsoft w swojej oficjalnej dokumentacji definiuje to tak: tokeny to słowa, ciągi znaków lub kombinacje słów i interpunkcji, na które duże modele językowe rozkładają tekst.

W literaturze technicznej spotkasz też definicję sięgającą głębiej. Według niej tokeny to wartości liczbowe wyprowadzane z naturalnego promptu zgodnie z algorytmem treningowym, architekturą i przeznaczeniem konkretnego modelu. Innymi słowy: każdy model ma swój własny słownik tokenów — kilkadziesiąt tysięcy fragmentów tekstu z przypisanymi liczbami. Im model nowszy i lepiej zaprojektowany, tym sprytniej dzieli tekst.

Dlaczego to ważne? Bo cały świat LLM-ów (large language models) to świat liczb. Komputer nie potrafi „rozumieć" słów — potrafi tylko mnożyć macierze. Tokenizacja to most: zamienia twój chaotyczny tekst w uporządkowany ciąg liczb, które sieć neuronowa może przetworzyć.

Tokeny to fundamentalna jednostka, „atom" wielkich modeli językowych. Tokenizacja to proces tłumaczenia ciągów znaków na sekwencje tokenów i odwrotnie.

— parafraza z christophergs.com/blog/understanding-llm-tokenization

02 / Jak działa tokenizacja? BPE w pigułce

Najpopularniejszy algorytm tokenizacji to BPE — Byte Pair Encoding (kodowanie par bajtów). Używają go GPT od OpenAI, Claude od Anthropic, Llama od Meta i większość modeli open source. Idea jest sprytna: zamiast tokenizować całe słowa (za dużo) albo pojedyncze litery (za mało), BPE szuka „złotego środka" — częstych fragmentów słów.

Proces uczenia tokenizera wygląda mniej więcej tak:

  1. Start od liter. Algorytm rozbija cały zbiór treningowy na pojedyncze znaki.
  2. Łączenie częstych par. Patrzy, jakie dwie sąsiednie jednostki najczęściej występują obok siebie — i scala je w jedną.
  3. Powtarzaj. Po tysiącach iteracji powstaje słownik kilkudziesięciu tysięcy fragmentów: częste słowa są pojedynczymi tokenami, rzadkie rozpadają się na kawałki.

Efekt? Wyrazy popularne („the", „kot", „function") to jeden token. Wyrazy rzadkie i długie („nieoczekiwanie", „kryptowaluta") rozpadają się na 2–4 fragmenty. Jak ujmuje to dokumentacja Anthropic, BPE zaczyna od pojedynczych znaków i iteracyjnie łączy najczęstsze pary w nowe tokeny, aż słownik osiągnie zadaną wielkość.

Modele od różnych dostawców mają różne tokenizery. OpenAI używa biblioteki open-source tiktoken, Anthropic ma autorski (oparty na BPE, ale niepublikowany), Google w Gemini stosuje SentencePiece. Ten sam prompt może mieć 140 tokenów w GPT-4, a ponad 180 w Claude lub Gemini — to dlatego, że każdy dostawca rozłącza tekst trochę inaczej.

03 / Token ≠ słowo (i to jest najważniejsze)

Najpopularniejsze nieporozumienie: „1 token = 1 słowo". Nie. Token jest na ogół krótszy niż słowo. Reguła kciuka dla tekstu angielskiego brzmi:

→ Reguła kciuka (angielski) 1 token ≈ 4 znaki ≈ 0,75 słowa. Czyli: 100 słów to około 130–140 tokenów. 1 strona A4 maszynopisu (~250 słów) to około 330–360 tokenów.

Zobacz, jak to wygląda w praktyce. Przykład zdania po angielsku, podzielonego przez tokenizer GPT-4:

Hello, world! Tokens are the building blocks of AI. // 9 słów → 12 tokenów. Spacje zwykle „przyklejają się" do następnego tokenu.

Zauważ trzy rzeczy: po pierwsze, spacja na początku " world" jest częścią tokenu (nie osobna). Po drugie, znaki interpunkcyjne to zwykle osobne tokeny. Po trzecie, kropki, przecinki, wykrzykniki — wszystko kosztuje tokeny. Twój prompt liczony jest znak po znaku, nie słowo po słowie.

A teraz to samo po polsku:

Witaj, świecie! Tokeny to klocki AI. // 8 słów → 13 tokenów. Polskie znaki diakrytyczne często rozbijają wyraz na więcej fragmentów.

04 / Dlaczego polski jest droższy?

To nie pomyłka. Polski tekst generuje średnio o 30–50% więcej tokenów niż jego angielski odpowiednik o tej samej treści. Powód jest prosty: tokenizery były trenowane głównie na danych anglojęzycznych, więc angielskie słowa stały się „pojedynczymi klockami", a polskie — szczególnie z polskimi znakami — rozpadają się na fragmenty.

Praktycznie znaczy to tyle: jeśli płacisz za API OpenAI, Anthropic czy Google, pisanie po angielsku jest tańsze. Nie zawsze warto z tego korzystać (jakość polskich odpowiedzi też się liczy), ale dobrze wiedzieć, że ta sama treść w polskim wariancie zużyje więcej okna kontekstowego.

→ Konkretny przykład Zdanie „Sztuczna inteligencja rozumie język." (5 słów, 37 znaków) → około 6–8 tokenów.
Tłumaczenie „Artificial intelligence understands language." (4 słowa, 43 znaki) → około 5 tokenów.
Polski wariant kosztuje ~30% więcej, choć ma mniej znaków.

05 / Jak liczyć tokeny? Matematyka i narzędzia

Najprostsza metoda — bez żadnych narzędzi — to oszacowanie na podstawie znaków. Dla angielskiego: podziel liczbę znaków przez 4. Dla polskiego: podziel przez 3. To da ci wynik z dokładnością ok. 10–15%.

Przykład: artykuł, który właśnie czytasz, ma około 11 000 znaków. Szybkie szacowanie: 11 000 / 3 ≈ 3 670 tokenów. Wystarczy do oceny, czy zmieści się w prompcie.

Jeśli potrzebujesz dokładnego wyniku — bo budżet API jest napięty albo chcesz zoptymalizować długi system prompt — sięgnij po oficjalne narzędzia. Wszystkie są darmowe:

Narzędzia online (bez instalacji)

NarzędzieDla modeliCo umie
platform.openai.com/tokenizerGPT (oficjalny)Wkleja tekst, pokazuje tokeny i ID-y. Najprostszy.
claudetokenizer.comClaude (Anthropic)Liczy tokeny dla wszystkich modeli Claude. Wspiera PDF i obrazki.
Google AI Studio + countTokens APIGeminiOficjalne, dokładne, ale wymaga klucza API.
token-calculator.netGPT, Claude, GeminiUniwersalny, pokazuje koszt w USD przy różnych modelach.

Biblioteki dla programistów

Jeśli liczysz tokeny w aplikacji, sięgnij po oficjalne SDK:

  • tiktoken (Python, OpenAI) — instalacja pip install tiktoken. Najpopularniejsza, używana też do estymacji Claude.
  • js-tiktoken (JavaScript/TypeScript) — ta sama logika dla Node.js i przeglądarki.
  • @anthropic-ai/sdk — metoda messages.countTokens(). Zwraca dokładną liczbę zgodną z rozliczeniem.
  • google-generativeai (Python) — metoda count_tokens() dla Gemini.

Krótki przykład w Pythonie (GPT-4o):

# pip install tiktoken
import tiktoken
enc = tiktoken.encoding_for_model("gpt-4o")
tokens = enc.encode("Sztuczna inteligencja rozumie język.")
print("Liczba tokenów:", len(tokens))
# → Liczba tokenów: 13

06 / Limit kontekstu — ile tokenów mieści model?

Każdy model ma okno kontekstowe: maksymalną liczbę tokenów, jaką może jednocześnie przetworzyć (input + output razem). Przekroczysz limit — model zacznie „zapominać" pierwszą część rozmowy albo zwróci błąd. W 2026 r. wygląda to tak:

ModelOkno kontekstuOdpowiednik
GPT-5.5 / GPT-5.5 Pro (OpenAI)256 000 tokenów~ 380 stron tekstu
GPT-5.4 (OpenAI)1 000 000 tokenów~ 1 500 stron / 750 tys. słów
Claude Opus 4.7 / 4.6 (Anthropic)1 000 000 tokenów~ książka „Krzyżacy" × 2
Gemini 3.1 Pro (Google)2 000 000 tokenów~ 3 000 stron / 1,5 mln słów
o3 / o4-mini (OpenAI, reasoning)200 000 tokenów~ 300 stron

Ważne: te liczby to teoretyczny limit. W praktyce jakość odpowiedzi spada, gdy okno wypełnia się powyżej 70–80%. Modele zaczynają „gubić środek" — pamiętają początek i koniec promptu, ale zapominają o szczegółach w środku (problem znany jako lost in the middle). Lepiej streszczać i porządkować długie konteksty, niż wrzucać wszystko na raz.

07 / Ile kosztują tokeny? Cenniki 2026

Dostawcy API rozliczają się za milion tokenów — osobno za input (twój prompt) i output (odpowiedź modelu). Output zazwyczaj kosztuje 2–5× więcej, bo model musi go sekwencyjnie wygenerować. Dlatego krótsze odpowiedzi = niższy rachunek.

ModelInput / 1M tokenówOutput / 1M tokenów
GPT-5.5 (OpenAI)$5,00$15,00
GPT-5.4 flagship$2,50$15,00
GPT-5.4 Nano$0,20$1,25
Claude Sonnet 4.6$3,00$15,00
Claude Haiku 4.5$1,00$5,00
Gemini 3.1 Pro$1,25$10,00

Co to oznacza w praktyce? Dla typowego zapytania support ticket (~3 150 tokenów input + 400 output) GPT-4o Mini umożliwia obsłużenie 10 000 ticketów za mniej niż 10 dolarów. Ten sam workflow na flagowym modelu może kosztować 100–200 dolarów. Wybór modelu to największy lewar oszczędności.

Dodatkowy mechanizm to prompt caching — gdy ten sam początek promptu (np. duży system prompt) powtarza się w wielu wywołaniach, dostawcy oferują do 90% rabatu na tę „buforowaną" część. Świetne dla aplikacji z RAG, gdzie kontekst dokumentów się nie zmienia, a pytania są różne.

08 / 10 tipsów na oszczędzanie tokenów

  1. Pisz zwięźle. Każde zbędne słowo to zbędny token. Zamień „Mam pytanie czy mógłbyś mi powiedzieć…" na „Powiedz mi…".
  2. Ogranicz długość odpowiedzi. Output kosztuje 2–5× więcej niż input. Mów modelowi: „odpowiedz w 3 zdaniach" albo używaj parametru max_tokens.
  3. Używaj cache. Jeśli twój system prompt liczy 5 000 tokenów i wysyłasz 1 000 zapytań dziennie — cache zaoszczędzi do 90% kosztów inputu.
  4. Wybieraj model do zadania. Proste rzeczy (klasyfikacja, ekstrakcja danych) zrobi Haiku albo Nano za grosze. Złożone rozumowanie wymaga flagowca.
  5. Czyść historię rozmów. Każda kolejna wiadomość w czacie zawiera wszystkie poprzednie. Po 20 turach prompt może mieć już 30 000 tokenów.
  6. Streszczaj zamiast wklejać. Zamiast wysyłać model na 100 stron PDF, zrób streszczenie w 2 000 tokenów. Jakość często rośnie, koszt spada 50×.
  7. Po angielsku jest taniej. Jeśli model i tak wewnętrznie „myśli" po angielsku, możesz pisać prompt po angielsku, a poprosić o odpowiedź po polsku.
  8. Uwaga na kod i URL-e. Fragmenty kodu, JSON-y, długie linki — generują więcej tokenów na znak niż tekst naturalny. Wycinaj zbędne komentarze.
  9. Emoji to nie znak — to token. Jeden emoji potrafi zająć 1–3 tokeny. Używaj rozsądnie.
  10. Mierz, zanim wdrożysz. Przed przejściem na produkcję policz tokeny na 100 reprezentatywnych zapytaniach. Zaskoczenia po fakturze są bolesne.

09 / Jakie jeszcze tokeny istnieją?

Mówiliśmy do tej pory o tokenach tekstowych. To najczęstszy przypadek, ale nie jedyny. Współczesne modele multimodalne tokenizują wszystko, co dostają na wejście:

  • Tokeny obrazu (image tokens) — zdjęcie 1024×1024 to zwykle 500–1 500 tokenów. Modele rozbijają obraz na siatkę „kafelków" i każdy traktują jak token.
  • Tokeny audio (audio tokens) — sekunda nagrania to średnio 25–50 tokenów. Dlatego transkrypcja godzinnego podcastu w API jest droższa niż wysłanie tekstu.
  • Tokeny wideo (video tokens) — Gemini liczy każdą sekundę wideo jako około 250–300 tokenów (klatki + audio).
  • Reasoning tokens (thinking tokens) — modele rozumujące (o3, o4-mini, Claude z Extended Thinking) generują „wewnętrzne" tokeny myślenia, których nie widzisz, ale za które płacisz. Mogą wielokrotnie zwiększyć koszt odpowiedzi.
→ Pamiętaj Za każdy bajt, który wysyłasz do modelu — i każdy, który dostajesz z powrotem — płacisz w tokenach. Także za obrazy, dźwięk, „myślenie" modelu i metadane (role, narzędzia, system prompt). Faktura na koniec miesiąca pokazuje sumę wszystkich tokenów: tych widocznych i ukrytych.

10 / Co dalej?

Wiedza o tokenach to fundament każdej poważnej pracy z AI — od pisania promptów, przez optymalizację kosztów API, po projektowanie agentów i systemów RAG. Jeśli budujesz aplikację na bazie LLM, zacznij od policzenia tokenów jednego typowego zapytania. Pomnóż przez liczbę użytkowników. Pomnóż przez 30 dni. Wynik to twój miesięczny rachunek — i często powód, by zoptymalizować prompt jeszcze przed wdrożeniem.

A jeśli używasz AI tylko jako użytkownik ChatGPT lub Claude — i tak warto rozumieć tokeny. Wyjaśniają, dlaczego model „zapomina" połowę długiej rozmowy (przekroczył kontekst), dlaczego ten sam prompt daje różne odpowiedzi (limit output tokens), i dlaczego krótsze, konkretne pytania zwykle dostają lepsze odpowiedzi.

Token to nie jakaś abstrakcja dla inżynierów. To waluta ery generatywnej AI — i jak każdą walutę warto rozumieć, zanim zaczniesz nią płacić.

// streszczenie

Token to fragment tekstu (a w modelach multimodalnych — także obrazu, audio, wideo), który jest podstawową jednostką pracy LLM-ów. Tokenizacja zamienia tekst na liczby — większość modeli używa algorytmu BPE. W angielskim 1 token to ok. 4 znaki, w polskim ok. 3 znaki, co czyni polski o 30–50% droższym w API. Aktualne modele oferują okna kontekstu od 200 tys. do 2 mln tokenów. Do liczenia tokenów służą tiktoken (OpenAI), messages.countTokens (Anthropic), count_tokens (Google) i darmowe narzędzia online — wszystkie zwracają wyniki zgodne z rozliczeniem API.

← wszystkie artykuły // 13ai.pl · 2026 subskrybuj →