Cloud AI jest wygodne, dopóki nie wrzucasz do niego kodu, dokumentów klientów, cenników, procedur albo notatek z zarządu. Wtedy nagle zaczynają się pytania o prywatność, koszty i przewidywalność działania. Dlatego urządzenia takie jak Tiiny AI Pocket Lab budzą dziś tyle uwagi: obiecują moc dużych modeli bez wysyłania danych do zewnętrznego API.
Najważniejsze pytanie nie brzmi jednak: "czy to odpali 120B?", tylko: co realnie da się na tym zrobić w firmie i jaki model ma dziś najwięcej sensu lokalnie? I właśnie tutaj bardzo mocno wchodzi temat Gemma 4.

Czym właściwie jest Tiiny AI Pocket Lab
Tiiny pozycjonuje swoje urządzenie jako osobisty komputer do pracy z lokalnymi modelami AI. Producent deklaruje między innymi 80 GB RAM, 1 TB SSD, pracę offline i możliwość uruchamiania modeli do 120B parametrów bez chmury.
To jest ważne rozróżnienie: na dziś są to przede wszystkim deklaracje producenta, a nie publiczny benchmark wykonany przez niezależne laboratorium. Nie oznacza to, że sprzęt jest niewiarygodny. Oznacza tylko tyle, że uczciwy artykuł powinien oddzielić:
- to, co wiemy z oficjalnej specyfikacji urządzenia,
- od tego, co zostało twardo potwierdzone dla konkretnego modelu i konkretnego runtime'u.
Z perspektywy właściciela firmy ważniejsze od marketingowego "do 120B" jest coś innego: czy taki sprzęt daje prywatne, przewidywalne i wystarczająco szybkie AI do codziennej pracy.
Co realnie możesz uruchomić lokalnie na urządzeniu klasy 120B
W praktyce warto myśleć o tym sprzęcie w trzech warstwach:
1. Małe modele do pracy ciągłej
Tu mieszczą się lekkie modele do szybkich odpowiedzi, klasyfikacji danych, prostych automatyzacji i asystentów działających stale w tle. To one zwykle najlepiej sprawdzają się w zadaniach typu:
- tagowanie i sortowanie maili,
- ekstrakcja informacji z dokumentów,
- szybkie podsumowania rozmów i spotkań,
- prosty helpdesk wewnętrzny.
2. Średnie modele do pracy "produkcyjnej"
To jest dziś najciekawsza strefa dla firm. Modele w okolicach 20B-30B, dobrze skwantyzowane i uruchamiane lokalnie, są już wystarczająco mocne do:
- pracy na dokumentach i procedurach,
- analizowania dłuższych kontekstów,
- wsparcia programistów,
- generowania treści roboczych,
- pracy agentowej z JSON-em, narzędziami i wywołaniami funkcji.
3. Duże modele klasy 70B-120B
Tutaj wchodzimy w obszar, który robi wrażenie w materiałach marketingowych, ale w praktyce nie zawsze daje najlepszy stosunek jakości do wygody. Owszem, możliwość uruchomienia bardzo dużego modelu lokalnie jest imponująca. Tyle że w małej firmie znacznie częściej wygrywa pytanie:
czy ten model działa stabilnie, wystarczająco szybko i bez absurdalnego narzutu pamięci przy realnym kontekście?
Dlatego dla większości firm nie kluczowe będzie samo "120B", tylko to, czy da się wygodnie pracować na modelu, który:
- mieści się z zapasem,
- ma dobre narzędzia lokalne,
- daje wysoką jakość odpowiedzi,
- nie wymaga ciągłego grzebania w konfiguracji.
Dlaczego Gemma 4 jest dziś najmocniejszym kandydatem do takiego urządzenia
Google wypuściło Gemma 4 jako rodzinę otwartych modeli z naciskiem na reasoning, coding, function calling i agentic workflows. To nie jest jedna "wielka bestia 120B", tylko zestaw modeli, które mają dawać jak najwięcej jakości na każdą jednostkę pamięci i mocy obliczeniowej.
Z punktu widzenia lokalnego setupu to bardzo ważne. Gemma 4 występuje w wariantach:
- E2B
- E4B
- 26B A4B
- 31B Dense
I właśnie dlatego Gemma 4 pasuje do narracji o Tiiny dużo lepiej niż kolejny "gigant parametrów". Nie dlatego, że jest największa, tylko dlatego, że wygląda na bardzo praktyczny model do realnej pracy lokalnej.
Google AI for Developers
Według oficjalnej dokumentacji Google, przy kwantyzacji Q4_0 bazowe wymagania pamięci dla wag wyglądają mniej więcej tak:
- E2B: 3.2 GB
- E4B: 5 GB
- 26B A4B: 15.6 GB
- 31B: 17.4 GB
To nie obejmuje jeszcze narzutu runtime'u ani cache'u kontekstu. Ale już z tych liczb widać, dlaczego sprzęt z 80 GB RAM wygląda na sensowne środowisko dla Gemma 4 w wariantach średnich i większych.
Najuczciwsze sformułowanie jest takie: Gemma 4 wygląda na bardzo dobry praktyczny fit dla Tiiny, szczególnie w wersjach skwantyzowanych. Nie mamy natomiast publicznego benchmarku, który pozwalałby napisać, że "Tiiny + Gemma 4 działa z taką i taką szybkością w tych i tych zadaniach". Tego po prostu dziś nie wiemy.

Do czego taki zestaw ma sens w małej i średniej firmie
Jeżeli patrzysz na lokalny model tylko jak na zamiennik czatu, to szybko dojdziesz do wniosku, że taniej jest kupić API. Prawdziwa wartość lokalnego setupu zaczyna się wtedy, gdy liczą się trzy rzeczy naraz:
- prywatność danych,
- brak opłaty za każde użycie,
- możliwość podpięcia modelu do własnych procesów.
Praca na dokumentach firmowych
To jeden z najmocniejszych scenariuszy. Lokalny model może analizować:
- oferty handlowe,
- umowy,
- procedury,
- instrukcje operacyjne,
- dokumentację produktu,
- eksporty CSV i raporty wewnętrzne.
Bez wysyłania tego wszystkiego do chmury.
Wewnętrzny asystent wiedzy
To drugi bardzo praktyczny use-case. Zamiast wrzucać pytania do publicznego modelu, możesz zbudować lokalnego asystenta, który odpowiada na bazie:
- bazy wiedzy,
- FAQ,
- polityk wewnętrznych,
- dokumentacji technicznej,
- materiałów onboardingowych.
Automatyzacja zadań powtarzalnych
Lokalne AI ma sens tam, gdzie nie chcesz płacić za każdy przebieg procesu:
- klasyfikacja leadów,
- przygotowanie roboczych odpowiedzi,
- ekstrakcja danych z faktur lub załączników,
- wstępna analiza ticketów,
- mapowanie nieuporządkowanych danych do JSON-a.
Właśnie w takich miejscach wygrywa przewidywalność kosztu: sprzęt kupujesz raz, a potem nie liczysz każdego promptu osobno.
Co dostajesz "za darmo", a za co i tak płacisz
To jest punkt, którego często brakuje w materiałach o lokalnym AI.
Co masz za darmo
Jeśli wybierasz Gemma 4, dostajesz:
- open weights
- licencję Apache 2.0, czyli bardzo przyjazną także komercyjnie
- brak opłat za API i tokeny
- możliwość uruchamiania modelu lokalnie przez narzędzia takie jak:
- Ollama
- llama.cpp
- LM Studio
- Hugging Face
- prywatność wynikającą z tego, że dane zostają po twojej stronie
Za co nadal płacisz
Nie ma tu magii. Nadal płacisz za:
- sprzęt,
- energię,
- czas wdrożenia,
- ewentualne integracje,
- utrzymanie workflow i jakości promptów.
Różnica jest jednak fundamentalna: nie płacisz za każde kolejne użycie. Dla procesów wykonywanych dziesiątki albo setki razy dziennie może to mieć bardzo duże znaczenie.
A co z kodowaniem? Czy Gemma 4 ma tu sens przez Tiiny?
Tak, i to jest prawdopodobnie jeden z najmocniejszych argumentów za takim urządzeniem.
Google oraz DeepMind pozycjonują większe warianty Gemma 4 pod:
- IDEs
- coding assistants
- agentic workflows
- zadania ze structured output
Do tego dochodzi benchmark LiveCodeBench v6, gdzie:
- Gemma 4 31B IT Thinking osiąga 80.0%
- Gemma 4 26B A4B IT Thinking osiąga 77.1%
To nie jest dowód, że Tiiny w twojej konkretnej konfiguracji da dokładnie taki sam efekt. Jest to natomiast mocny sygnał, że Gemma 4 nadaje się do lokalnych zadań programistycznych, a nie tylko do "rozmowy o wszystkim".

Jakie testy kodowe warto robić na takim modelu
Jeśli chcesz ocenić taki setup uczciwie, nie zaczynaj od benchmarków marketingowych. Zacznij od rzeczy, które naprawdę robisz w zespole:
1. Repo Q&A
Zapytaj model:
- co robi ten moduł,
- gdzie są zależności,
- jakie widzisz ryzyka,
- jakie testy tu brakuje.
To jest szybki sposób, żeby sprawdzić, czy model dobrze czyta kod i umie trzymać kontekst.
2. Boilerplate i CRUD
Poproś o:
- endpoint,
- walidację,
- typy,
- test pomocniczy,
- przykładowy JSON wejścia i wyjścia.
To pokazuje, czy model nadaje się do codziennej pracy inżynierskiej, a nie tylko do generowania ładnych dem.
3. Refaktor z ograniczeniem
Dobry prompt na lokalny model brzmi na przykład:
Przepisz ten fragment tak, aby nie zmieniać publicznego API, ale uprościć logikę i dodać brakujące zabezpieczenia.
Jeśli model dobrze radzi sobie z takim zadaniem, to znaczy, że realnie pomaga w pracy zespołu.
4. Structured output i automatyzacje
Gemma 4 ma sens także wtedy, gdy nie chcesz "pisać z nim kodu", tylko wykorzystywać go jako silnik do:
- generowania JSON-ów,
- normalizacji danych,
- klasyfikacji treści,
- budowania lekkich agentów lokalnych.
To ważne zwłaszcza w firmach, które chcą automatyzować procesy, ale nie chcą wystawiać swoich danych poza organizację.
Gdzie lokalne AI ma sens, a gdzie lepiej zostać przy API
Lokalny model wygrywa wtedy, gdy:
- pracujesz na wrażliwych danych,
- chcesz przewidywalnego kosztu,
- potrzebujesz działania offline,
- wykonujesz dużo powtarzalnych zadań,
- chcesz mieć pełną kontrolę nad stackiem.
API w chmurze nadal będzie lepsze wtedy, gdy:
- zależy ci głównie na czasie startu,
- nie chcesz kupować ani utrzymywać sprzętu,
- potrzebujesz najlepszego modelu "tu i teraz",
- zespół nie ma czasu na własny setup.
To nie jest wojna "lokalne kontra cloud". To jest decyzja o tym, gdzie w twojej firmie opłaca się przenieść inteligencję bliżej danych.
Co możesz wdrożyć już dziś
- Wybierz jeden proces, który dziś zużywa dużo tokenów albo dotyka danych wrażliwych.
- Sprawdź, czy ten proces da się zawęzić do prostego wejścia i przewidywalnego wyjścia.
- Uruchom lokalny model w Ollama albo LM Studio zamiast zaczynać od pełnej orkiestracji agentów.
- Przetestuj trzy scenariusze: dokumenty, JSON i kod.
- Dopiero po takim teście decyduj, czy sprzęt klasy Tiiny ma dla twojej firmy sens ekonomiczny.
Ile możesz na tym zyskać
Największy zysk z lokalnego AI nie zawsze wynika z "lepszej odpowiedzi". Często wynika z tego, że:
- nie wysyłasz wrażliwych danych do zewnętrznego API,
- nie liczysz każdej interakcji w tokenach,
- możesz zautomatyzować powtarzalne zadania bez strachu o koszt każdej iteracji,
- dajesz zespołowi stałego lokalnego copilota do dokumentów i kodu.
W małej firmie oznacza to zwykle trzy rzeczy:
- mniej czasu na ręczne przeglądanie danych i dokumentów,
- mniejszy koszt eksperymentów z automatyzacją,
- większą kontrolę nad wiedzą, kodem i procesami.
Jeśli robisz kilka prostych procesów dziennie, API może być nadal lepszym wyborem. Jeśli jednak budujesz lokalne workflow na danych firmy, wtedy urządzenie klasy Tiiny plus praktyczny model pokroju Gemma 4 zaczyna wyglądać jak bardzo rozsądna inwestycja.
Jeśli chcesz uporządkować, gdzie w twojej firmie AI powinno działać lokalnie, a gdzie lepiej zostać przy chmurze, zobacz też nasze teksty o AI w małej firmie, AI w sprzedaży dla MŚP i o tym, jak zbudowaliśmy własny pipeline agentów do tworzenia treści.