„Waga modelu LLM" oznacza dwie rzeczy: technicznie — liczbę parametrów (np. 70B = 70 miliardów), praktycznie — klasę modelu, który wybierasz w usłudze. W tym artykule pokazujemy, jak parametry wpływają na jakość, cenę i prędkość, oraz krok po kroku jak ustawić właściwy model w ChatGPT, Claude i innych płatnych usługach. Z konkretnymi rekomendacjami: kiedy mały, kiedy duży.
01 / Czym właściwie jest „waga modelu LLM"?
Termin waga modelu (ang. model weight) pochodzi z matematyki sieci neuronowych. Każdy duży model językowy składa się z miliardów liczb — to są właśnie „wagi". Każda z nich określa, jak silnie jeden „sztuczny neuron" wpływa na drugi. Razem tworzą one mapę połączeń, w której zakodowana jest cała wiedza modelu o języku, świecie i rozumowaniu.
Gdy słyszysz, że Llama ma 70B, a GPT-5.5 — według nieoficjalnych szacunków — przekracza bilion parametrów, mowa właśnie o liczbie tych wag. „B" oznacza billion (miliard po angielsku). Modele dzieli się umownie na trzy klasy:
- Małe (1–10 mld parametrów) — działają lokalnie na laptopie, są szybkie i tanie, ale mają ograniczone rozumowanie.
- Średnie (10–100 mld) — domyślne modele większości usług, równowaga jakości i kosztu.
- Duże / frontier (powyżej 100 mld, często setki miliardów lub bilion+) — flagowce, najmocniejsze rozumowanie, ale wolniejsze i drogie.
W codziennym użyciu „waga modelu" jest też synonimem klasy — tego, który wariant wybierasz w aplikacji: Haiku, Sonnet czy Opus w Claude; Instant, Thinking czy Pro w ChatGPT. Obie definicje są poprawne i zazwyczaj idą w parze: cięższy technicznie model = wyższa klasa w usłudze.
02 / Jak parametry wpływają na to, co dostajesz?
Liczba parametrów nie przekłada się liniowo na inteligencję, ale wpływ jest realny i mierzalny. Większy model zazwyczaj:
- Lepiej radzi sobie ze złożonym rozumowaniem — wieloetapowe zadania, analiza prawna, dowody matematyczne.
- Ma bogatszą wiedzę faktograficzną i rzadziej „halucynuje".
- Lepiej rozumie niuanse językowe, ironię, styl.
- Stabilniej trzyma się instrukcji w długich, wieloturowych rozmowach.
Cenę płacisz natomiast w czterech walutach: pieniądzu (większy model = wyższa stawka za token), czasie (większy model myśli wolniej), limitach (na płatnych planach limit wiadomości szybciej się wyczerpuje) i energii (większy ślad węglowy). W maju 2026 różnice są wyraźne: Claude Haiku 4.5 generuje około 97 tokenów na sekundę i kosztuje 1 dolara za milion tokenów wejściowych, Claude Opus 4.6 — ten sam zakres pracy potrafi wykonać dokładniej, ale za 5 dolarów i znacznie wolniej.
03 / Konkretne modele i ich rozmiary
OpenAI, Anthropic i Google nie ujawniają oficjalnie liczby parametrów swoich flagowców. To, co podajemy poniżej, to mieszanka faktów (modele open-source) i wiarygodnych szacunków (modele zamknięte):
OpenAI · ChatGPT
- GPT-5.5 Instant — domyślny model w ChatGPT od 5 maja 2026. Klasa średnia, dostępny na wszystkich planach (także darmowym).
- GPT-5.5 Thinking — wariant z rozszerzonym rozumowaniem, klasa wyższa. Plus, Pro, Business, Enterprise.
- GPT-5.5 Pro — najcięższa konfiguracja, przeznaczona do najtrudniejszych zadań. Pro ($200/mc), Business i Enterprise.
- GPT-5.5 mini — odpowiednik „lite", używany jako fallback po wyczerpaniu limitu na planie darmowym.
Anthropic · Claude
- Claude Haiku 4.5 — najlżejszy, około 97 tokenów/sekundę, 200K kontekstu. Dostępny na każdym planie.
- Claude Sonnet 4.6 — domyślny, średni, 1M kontekstu. Darmowy plan i wyżej.
- Claude Opus 4.7 — flagowiec wydany 16 kwietnia 2026, najmocniejszy w rodzinie. Pro ($20/mc) i wyżej.
Modele otwarte i alternatywne
- Llama 3.x (Meta) — występuje w wariantach 8B, 70B i 405B. Pierwsze dwa odpaliłbyś na dobrym laptopie z 32 GB RAM, ostatni wymaga klastra GPU.
- DeepSeek V3 — 671 miliardów parametrów, ale w architekturze Mixture of Experts: w czasie generowania jednego tokena aktywne jest tylko około 37B z nich.
- Mistral Large / Medium / Small — francuska rodzina z bardzo wyraźnym podziałem na klasy wagowe.
- Qwen 3 / Gemini Flash i Pro — chińskie i googlowe odpowiedniki Haiku, Sonnet i Opus.
04 / Jak wybrać model w ChatGPT — krok po kroku
ChatGPT w 2026 roku ma znacznie prostszy selektor niż rok wcześniej. Cały „zoo" modeli — GPT-4o, o1, o3, o4-mini — został wycofany 13 lutego 2026. Zostały trzy linie: Instant, Thinking, Pro.
Gdzie kliknąć: w aplikacji webowej lub mobilnej, na samej górze okna czatu, znajdziesz nazwę aktualnie używanego modelu. Kliknięcie otwiera model picker — listę dostępnych wariantów dla twojego planu.
- Darmowy — masz tylko GPT-5.5 Instant, do 10 wiadomości na 5 godzin. Po wyczerpaniu limitu konwersacja przeskakuje na GPT-5.5 mini.
- Plus ($20/mc) / Go — Instant + ręczny wybór Thinking (do 3000 wiadomości tygodniowo). Kontekst 256K tokenów.
- Pro ($100/mc) / Pro+ ($200/mc) — pełen dostęp, w tym GPT-5.5 Pro z kontekstem 400K tokenów, opcją „Heavy thinking" i znacznie wyższymi limitami.
- Business / Enterprise / Edu — to samo co Pro, w wariancie firmowym z administracją.
Dodatkowy ważny element: ChatGPT ma tryb automatyczny. Gdy zostawisz „Instant", system sam zdecyduje, czy zwykła odpowiedź wystarczy, czy przekierować zapytanie do Thinking. Dla większości użytkowników to optymalny wybór — własnoręcznie wybiera się model tylko, gdy chce się wymusić głębsze rozumowanie albo wprost ograniczyć koszty.
05 / Jak wybrać model w Claude
Claude w 2026 utrzymał trzyklasową strukturę: Haiku, Sonnet, Opus. Każdy z nich oznacza nie tylko inną „wagę", ale też zupełnie inny styl pracy. Selektor znajdziesz w lewym górnym rogu czatu — kliknij nazwę modelu, otwiera się lista.
- Free — masz Haiku 4.5 i Sonnet 4.6 (z limitami dziennymi). Opus jest niedostępny.
- Pro ($20/mc) — wszystkie trzy modele plus znacząco wyższe limity. To minimum, jeśli chcesz pracować z Opusem.
- Max — 5x lub 20x wyższe limity niż Pro, przydatne, gdy regularnie korzystasz z Opusa lub uruchamiasz agentów Claude Code.
- Team / Enterprise — funkcje administracyjne, SSO, kontrola danych.
Claude ma też tryb Auto, który sam dobiera model do zadania. Jest wygodny, ale nieprzewidywalny — Claude potrafi sięgać po Opusa częściej, niż byś chciał, co szybko zjada limit. Doświadczeni użytkownicy ustawiają model ręcznie. Domyślnie wybieraj Sonneta. Po Opusa sięgaj, gdy Sonnet zacznie się mylić w konkretnym zadaniu — to dobry sygnał, że problem wymaga głębszego rozumowania.
W 2025 roku reguła brzmiała: „domyślnie Opus, oszczędnie Sonnet". W 2026 jest odwrotnie — Sonnet 4.6 wystarczy w 95% codziennej pracy, a Opus rezerwujemy na te zadania, gdzie różnica 1–2 punktów jakości naprawdę się liczy.
06 / Gemini, Perplexity i inne — jak to wygląda gdzie indziej
Pozostałe usługi również operują na trzech klasach wagowych, ale każdy nazywa je inaczej.
- Google Gemini — w aplikacji Gemini (płatna wersja Advanced za 22,99 zł/mc) wybierasz między Gemini Flash (lekki), Gemini Pro (średni) i Gemini Ultra lub Deep Think (najmocniejszy). Selektor jest pod polem prompta.
- Perplexity — w ustawieniach „Pro Search" wybierasz silnik: Sonar (własny, lekki), GPT-5.5, Claude Sonnet/Opus, Gemini, DeepSeek. Idealne, gdy chcesz porównać odpowiedzi różnych modeli na to samo pytanie.
- Mistral Le Chat — przełącznik Large/Medium/Small bezpośrednio w interfejsie czatu.
- DeepSeek — w darmowym czacie masz przełącznik między DeepSeek V3 (standard) a DeepSeek R1 (głębsze rozumowanie). Polskie odpowiedzi obu są bardzo dobre.
- Lokalne LLM (Ollama, LM Studio) — tu „waga modelu" oznacza dosłownie wielkość pliku do pobrania. Llama 3 8B to ok. 5 GB, 70B — 40 GB, 405B — kilkaset GB. Wybierasz, co zmieści ci się w RAM i karcie graficznej.
07 / Praktyczne porady — kiedy mały, kiedy duży
Reguła kciuka: zacznij od modelu lżejszego, zwiększaj wagę dopiero, gdy odpowiedź jest niewystarczająca. Konkretne scenariusze:
Sięgnij po lekki model (Haiku, GPT-5.5 Instant, Flash)
- Streszczenia, parafrazy, korekta językowa.
- Klasyfikacja, ekstrakcja danych, prosty Q&A.
- Wysokowolumenowe zadania, gdzie liczy się prędkość.
- Tłumaczenia rutynowych tekstów.
Wybierz średni model (Sonnet, GPT-5.5 Thinking, Gemini Pro)
- Pisanie i edycja dłuższych tekstów, analiza dokumentów.
- Kodowanie — większość bugów i features mieści się w tej klasie.
- Analiza danych, prosta wieloetapowość, brainstorming strategiczny.
- To powinien być twój domyślny tryb pracy w 2026 roku.
Włącz flagowiec (Opus, GPT-5.5 Pro, Gemini Ultra)
- Zadania badawcze, recenzje architektury kodu, dowody matematyczne.
- Wieloetapowe analizy biznesowe wymagające trzymania wielu wątków.
- Krytyczne dokumenty — kontrakty, opinie prawne, kluczowe raporty.
- Sytuacje, gdy średni model wyraźnie myli się lub się zgubia.
08 / Pułapki i mity wokół „wagi"
Mit 1: większy zawsze lepszy. W 2026 to przestaje być prawdą. Małe modele specjalistyczne (np. wyuczone dokładnie pod jeden zawód) potrafią pokonać flagowce w swojej niszy. Większy model nie zawsze oznacza lepsze odpowiedzi — często znaczy tylko droższe i wolniejsze przy podobnej jakości.
Mit 2: liczba parametrów = inteligencja. Tak samo ważne, a może ważniejsze, są: jakość danych treningowych, technika tuningu, długość treningu i architektura. Mixtral 8x7B z 47 mld aktywnych parametrów pokonuje wiele modeli 70B. DeepSeek V3 ma 671 mld parametrów, ale generuje tokeny używając tylko 37 z nich na raz — bo używa techniki Mixture of Experts.
Mit 3: model „mini" to ten sam model, tylko gorszy. Nieprawda. Wersje mini i Haiku są oddzielnie wytrenowanymi modelami, zaprojektowanymi od początku jako lekkie. Często są szybsze nie dlatego, że „mniej myślą", tylko dlatego, że mają inną architekturę.
Mit 4: kontekst i waga to to samo. Nie. To dwie różne wartości. Kontekst (okno kontekstowe) określa, ile tekstu model może jednocześnie analizować — np. 200K, 1M czy 400K tokenów. Waga mówi, ile rozumowania kryje się w pojedynczym przejściu modelu przez tekst. Możesz mieć ogromne okno kontekstowe w lekkim modelu — i odwrotnie. Optymalnie chcesz mieć oba w równowadze adekwatnej do zadania.
09 / Co zapamiętać i jak zacząć działać
Termin „waga modelu LLM" jest mostem między tym, co dzieje się w sieci neuronowej (miliardy parametrów), a tym, co widzisz w aplikacji (przełącznik Haiku / Sonnet / Opus, Instant / Thinking / Pro, Flash / Pro / Ultra). Zrozumienie tej zależności pozwala podejmować lepsze decyzje o tym, gdzie wydajesz pieniądze, czas i limity.
Praktyczna rekomendacja na najbliższe miesiące jest prosta:
- Zacznij od Sonneta / GPT-5.5 Thinking / Gemini Pro jako modelu domyślnego. To dziś najlepsze proporcje jakości do ceny.
- Sięgaj po flagowiec (Opus, GPT-5.5 Pro, Ultra) tylko wtedy, gdy mniejszy model wyraźnie się myli lub zadanie jest naprawdę krytyczne.
- Zostaw Haiku / mini / Flash do zadań szybkich, masowych, prostych — i wszystkiego, co robisz programistycznie przez API.
- Korzystaj z trybu Auto, jeśli nie wiesz, co wybrać — w 2026 algorytmy doboru modelu są już naprawdę dobre.
Im świadomiej dobierasz „wagę", tym mniej płacisz za zachwyt, którego nie potrzebujesz, i tym częściej dostajesz odpowiedź na poziomie, na którym naprawdę ci zależy.