★ wyróżnione · Podstawy AI · waga modelu

Waga modelu LLM — co to znaczy i jak wybrać model w ChatGPT, Claude i Gemini

„70B parametrów", „flagowy model", „mały i szybki" — termin waga modelu bywa rozumiany różnie. Wyjaśniamy, co znaczy technicznie, jak wpływa na jakość odpowiedzi i jak praktycznie wybrać właściwy model w każdej z głównych usług AI.

● Redakcja 13ai.pl ● 17 maj 2026 ● 11 min czytania ● Podstawy AI

parametry GPT-5.5 Opus 4.7 Sonnet 4.6 Haiku 4.5 wybór modelu

Trzy klasy wagowe modeli LLM — mały, średni, duży. Każda ma swoje miejsce w pracy z AI.

// streszczenie

„Waga modelu LLM" oznacza dwie rzeczy: technicznie — liczbę parametrów (np. 70B = 70 miliardów), praktycznie — klasę modelu, który wybierasz w usłudze. W tym artykule pokazujemy, jak parametry wpływają na jakość, cenę i prędkość, oraz krok po kroku jak ustawić właściwy model w ChatGPT, Claude i innych płatnych usługach. Z konkretnymi rekomendacjami: kiedy mały, kiedy duży.

01 / Czym właściwie jest „waga modelu LLM"?

Termin waga modelu (ang. model weight) pochodzi z matematyki sieci neuronowych. Każdy duży model językowy składa się z miliardów liczb — to są właśnie „wagi". Każda z nich określa, jak silnie jeden „sztuczny neuron" wpływa na drugi. Razem tworzą one mapę połączeń, w której zakodowana jest cała wiedza modelu o języku, świecie i rozumowaniu.

Gdy słyszysz, że Llama ma 70B, a GPT-5.5 — według nieoficjalnych szacunków — przekracza bilion parametrów, mowa właśnie o liczbie tych wag. „B" oznacza billion (miliard po angielsku). Modele dzieli się umownie na trzy klasy:

Małe (1–10 mld parametrów) — działają lokalnie na laptopie, są szybkie i tanie, ale mają ograniczone rozumowanie.
Średnie (10–100 mld) — domyślne modele większości usług, równowaga jakości i kosztu.
Duże / frontier (powyżej 100 mld, często setki miliardów lub bilion+) — flagowce, najmocniejsze rozumowanie, ale wolniejsze i drogie.

W codziennym użyciu „waga modelu" jest też synonimem klasy — tego, który wariant wybierasz w aplikacji: Haiku, Sonnet czy Opus w Claude; Instant, Thinking czy Pro w ChatGPT. Obie definicje są poprawne i zazwyczaj idą w parze: cięższy technicznie model = wyższa klasa w usłudze.

02 / Jak parametry wpływają na to, co dostajesz?

Liczba parametrów nie przekłada się liniowo na inteligencję, ale wpływ jest realny i mierzalny. Większy model zazwyczaj:

Lepiej radzi sobie ze złożonym rozumowaniem — wieloetapowe zadania, analiza prawna, dowody matematyczne.
Ma bogatszą wiedzę faktograficzną i rzadziej „halucynuje".
Lepiej rozumie niuanse językowe, ironię, styl.
Stabilniej trzyma się instrukcji w długich, wieloturowych rozmowach.

Cenę płacisz natomiast w czterech walutach: pieniądzu (większy model = wyższa stawka za token), czasie (większy model myśli wolniej), limitach (na płatnych planach limit wiadomości szybciej się wyczerpuje) i energii (większy ślad węglowy). W maju 2026 różnice są wyraźne: Claude Haiku 4.5 generuje około 97 tokenów na sekundę i kosztuje 1 dolara za milion tokenów wejściowych, Claude Opus 4.6 — ten sam zakres pracy potrafi wykonać dokładniej, ale za 5 dolarów i znacznie wolniej.

→ Najważniejsza obserwacja 2026 roku Różnica między klasą średnią a flagową dramatycznie się zmniejszyła. Claude Sonnet 4.6 osiąga 79,6% na benchmarku SWE-bench Verified, Opus 4.6 — 80,8%. To różnica 1,2 punktu procentowego przy pięciokrotnie niższej cenie. W skrócie: dla większości zadań „średni" model w 2026 wystarczy w 95% przypadków.

03 / Konkretne modele i ich rozmiary

OpenAI, Anthropic i Google nie ujawniają oficjalnie liczby parametrów swoich flagowców. To, co podajemy poniżej, to mieszanka faktów (modele open-source) i wiarygodnych szacunków (modele zamknięte):

OpenAI · ChatGPT

GPT-5.5 Instant — domyślny model w ChatGPT od 5 maja 2026. Klasa średnia, dostępny na wszystkich planach (także darmowym).
GPT-5.5 Thinking — wariant z rozszerzonym rozumowaniem, klasa wyższa. Plus, Pro, Business, Enterprise.
GPT-5.5 Pro — najcięższa konfiguracja, przeznaczona do najtrudniejszych zadań. Pro ($200/mc), Business i Enterprise.
GPT-5.5 mini — odpowiednik „lite", używany jako fallback po wyczerpaniu limitu na planie darmowym.

Anthropic · Claude

Claude Haiku 4.5 — najlżejszy, około 97 tokenów/sekundę, 200K kontekstu. Dostępny na każdym planie.
Claude Sonnet 4.6 — domyślny, średni, 1M kontekstu. Darmowy plan i wyżej.
Claude Opus 4.7 — flagowiec wydany 16 kwietnia 2026, najmocniejszy w rodzinie. Pro ($20/mc) i wyżej.

Modele otwarte i alternatywne

Llama 3.x (Meta) — występuje w wariantach 8B, 70B i 405B. Pierwsze dwa odpaliłbyś na dobrym laptopie z 32 GB RAM, ostatni wymaga klastra GPU.
DeepSeek V3 — 671 miliardów parametrów, ale w architekturze Mixture of Experts: w czasie generowania jednego tokena aktywne jest tylko około 37B z nich.
Mistral Large / Medium / Small — francuska rodzina z bardzo wyraźnym podziałem na klasy wagowe.
Qwen 3 / Gemini Flash i Pro — chińskie i googlowe odpowiedniki Haiku, Sonnet i Opus.

04 / Jak wybrać model w ChatGPT — krok po kroku

ChatGPT w 2026 roku ma znacznie prostszy selektor niż rok wcześniej. Cały „zoo" modeli — GPT-4o, o1, o3, o4-mini — został wycofany 13 lutego 2026. Zostały trzy linie: Instant, Thinking, Pro.

Gdzie kliknąć: w aplikacji webowej lub mobilnej, na samej górze okna czatu, znajdziesz nazwę aktualnie używanego modelu. Kliknięcie otwiera model picker — listę dostępnych wariantów dla twojego planu.

Darmowy — masz tylko GPT-5.5 Instant, do 10 wiadomości na 5 godzin. Po wyczerpaniu limitu konwersacja przeskakuje na GPT-5.5 mini.
Plus ($20/mc) / Go — Instant + ręczny wybór Thinking (do 3000 wiadomości tygodniowo). Kontekst 256K tokenów.
Pro ($100/mc) / Pro+ ($200/mc) — pełen dostęp, w tym GPT-5.5 Pro z kontekstem 400K tokenów, opcją „Heavy thinking" i znacznie wyższymi limitami.
Business / Enterprise / Edu — to samo co Pro, w wariancie firmowym z administracją.

Dodatkowy ważny element: ChatGPT ma tryb automatyczny. Gdy zostawisz „Instant", system sam zdecyduje, czy zwykła odpowiedź wystarczy, czy przekierować zapytanie do Thinking. Dla większości użytkowników to optymalny wybór — własnoręcznie wybiera się model tylko, gdy chce się wymusić głębsze rozumowanie albo wprost ograniczyć koszty.

05 / Jak wybrać model w Claude

Claude w 2026 utrzymał trzyklasową strukturę: Haiku, Sonnet, Opus. Każdy z nich oznacza nie tylko inną „wagę", ale też zupełnie inny styl pracy. Selektor znajdziesz w lewym górnym rogu czatu — kliknij nazwę modelu, otwiera się lista.

Free — masz Haiku 4.5 i Sonnet 4.6 (z limitami dziennymi). Opus jest niedostępny.
Pro ($20/mc) — wszystkie trzy modele plus znacząco wyższe limity. To minimum, jeśli chcesz pracować z Opusem.
Max — 5x lub 20x wyższe limity niż Pro, przydatne, gdy regularnie korzystasz z Opusa lub uruchamiasz agentów Claude Code.
Team / Enterprise — funkcje administracyjne, SSO, kontrola danych.

Claude ma też tryb Auto, który sam dobiera model do zadania. Jest wygodny, ale nieprzewidywalny — Claude potrafi sięgać po Opusa częściej, niż byś chciał, co szybko zjada limit. Doświadczeni użytkownicy ustawiają model ręcznie. Domyślnie wybieraj Sonneta. Po Opusa sięgaj, gdy Sonnet zacznie się mylić w konkretnym zadaniu — to dobry sygnał, że problem wymaga głębszego rozumowania.

W 2025 roku reguła brzmiała: „domyślnie Opus, oszczędnie Sonnet". W 2026 jest odwrotnie — Sonnet 4.6 wystarczy w 95% codziennej pracy, a Opus rezerwujemy na te zadania, gdzie różnica 1–2 punktów jakości naprawdę się liczy.

06 / Gemini, Perplexity i inne — jak to wygląda gdzie indziej

Pozostałe usługi również operują na trzech klasach wagowych, ale każdy nazywa je inaczej.

Google Gemini — w aplikacji Gemini (płatna wersja Advanced za 22,99 zł/mc) wybierasz między Gemini Flash (lekki), Gemini Pro (średni) i Gemini Ultra lub Deep Think (najmocniejszy). Selektor jest pod polem prompta.
Perplexity — w ustawieniach „Pro Search" wybierasz silnik: Sonar (własny, lekki), GPT-5.5, Claude Sonnet/Opus, Gemini, DeepSeek. Idealne, gdy chcesz porównać odpowiedzi różnych modeli na to samo pytanie.
Mistral Le Chat — przełącznik Large/Medium/Small bezpośrednio w interfejsie czatu.
DeepSeek — w darmowym czacie masz przełącznik między DeepSeek V3 (standard) a DeepSeek R1 (głębsze rozumowanie). Polskie odpowiedzi obu są bardzo dobre.
Lokalne LLM (Ollama, LM Studio) — tu „waga modelu" oznacza dosłownie wielkość pliku do pobrania. Llama 3 8B to ok. 5 GB, 70B — 40 GB, 405B — kilkaset GB. Wybierasz, co zmieści ci się w RAM i karcie graficznej.

07 / Praktyczne porady — kiedy mały, kiedy duży

Reguła kciuka: zacznij od modelu lżejszego, zwiększaj wagę dopiero, gdy odpowiedź jest niewystarczająca. Konkretne scenariusze:

Sięgnij po lekki model (Haiku, GPT-5.5 Instant, Flash)

Streszczenia, parafrazy, korekta językowa.
Klasyfikacja, ekstrakcja danych, prosty Q&A.
Wysokowolumenowe zadania, gdzie liczy się prędkość.
Tłumaczenia rutynowych tekstów.

Wybierz średni model (Sonnet, GPT-5.5 Thinking, Gemini Pro)

Pisanie i edycja dłuższych tekstów, analiza dokumentów.
Kodowanie — większość bugów i features mieści się w tej klasie.
Analiza danych, prosta wieloetapowość, brainstorming strategiczny.
To powinien być twój domyślny tryb pracy w 2026 roku.

Włącz flagowiec (Opus, GPT-5.5 Pro, Gemini Ultra)

Zadania badawcze, recenzje architektury kodu, dowody matematyczne.
Wieloetapowe analizy biznesowe wymagające trzymania wielu wątków.
Krytyczne dokumenty — kontrakty, opinie prawne, kluczowe raporty.
Sytuacje, gdy średni model wyraźnie myli się lub się zgubia.

→ Tip oszczędnościowy Na płatnym planie najszybciej spalisz limit, używając flagowca do zadań poniżej jego klasy. Generowanie pomysłów na nazwę dla bloga w Opusie to marnotrawstwo — w Sonnecie albo Haiku dostaniesz ten sam efekt za 1/5 limitu.

08 / Pułapki i mity wokół „wagi"

Mit 1: większy zawsze lepszy. W 2026 to przestaje być prawdą. Małe modele specjalistyczne (np. wyuczone dokładnie pod jeden zawód) potrafią pokonać flagowce w swojej niszy. Większy model nie zawsze oznacza lepsze odpowiedzi — często znaczy tylko droższe i wolniejsze przy podobnej jakości.

Mit 2: liczba parametrów = inteligencja. Tak samo ważne, a może ważniejsze, są: jakość danych treningowych, technika tuningu, długość treningu i architektura. Mixtral 8x7B z 47 mld aktywnych parametrów pokonuje wiele modeli 70B. DeepSeek V3 ma 671 mld parametrów, ale generuje tokeny używając tylko 37 z nich na raz — bo używa techniki Mixture of Experts.

Mit 3: model „mini" to ten sam model, tylko gorszy. Nieprawda. Wersje mini i Haiku są oddzielnie wytrenowanymi modelami, zaprojektowanymi od początku jako lekkie. Często są szybsze nie dlatego, że „mniej myślą", tylko dlatego, że mają inną architekturę.

Mit 4: kontekst i waga to to samo. Nie. To dwie różne wartości. Kontekst (okno kontekstowe) określa, ile tekstu model może jednocześnie analizować — np. 200K, 1M czy 400K tokenów. Waga mówi, ile rozumowania kryje się w pojedynczym przejściu modelu przez tekst. Możesz mieć ogromne okno kontekstowe w lekkim modelu — i odwrotnie. Optymalnie chcesz mieć oba w równowadze adekwatnej do zadania.

09 / Co zapamiętać i jak zacząć działać

Termin „waga modelu LLM" jest mostem między tym, co dzieje się w sieci neuronowej (miliardy parametrów), a tym, co widzisz w aplikacji (przełącznik Haiku / Sonnet / Opus, Instant / Thinking / Pro, Flash / Pro / Ultra). Zrozumienie tej zależności pozwala podejmować lepsze decyzje o tym, gdzie wydajesz pieniądze, czas i limity.

Praktyczna rekomendacja na najbliższe miesiące jest prosta:

Zacznij od Sonneta / GPT-5.5 Thinking / Gemini Pro jako modelu domyślnego. To dziś najlepsze proporcje jakości do ceny.
Sięgaj po flagowiec (Opus, GPT-5.5 Pro, Ultra) tylko wtedy, gdy mniejszy model wyraźnie się myli lub zadanie jest naprawdę krytyczne.
Zostaw Haiku / mini / Flash do zadań szybkich, masowych, prostych — i wszystkiego, co robisz programistycznie przez API.
Korzystaj z trybu Auto, jeśli nie wiesz, co wybrać — w 2026 algorytmy doboru modelu są już naprawdę dobre.

Im świadomiej dobierasz „wagę", tym mniej płacisz za zachwyt, którego nie potrzebujesz, i tym częściej dostajesz odpowiedź na poziomie, na którym naprawdę ci zależy.

→ Reguła kciuka 2026 Domyślnie używaj średniej klasy modelu (Sonnet, GPT-5.5 Thinking, Gemini Pro). Po flagowiec sięgaj wyłącznie wtedy, gdy konkretne zadanie wyraźnie wykracza poza możliwości średniego modelu. Po lekki — gdy liczy się prędkość i koszt, nie jakość rozumowania.

Źródła: OpenAI · Anthropic · Google DeepMind · Meta AI · DeepSeek · Hugging Face · Artificial Analysis · 13ai.pl

← wszystkie artykuły // 13ai.pl · 2026 subskrybuj →