Case Study22 lutego 20268 min czytania

Generowanie obrazow lokalnie: Qwen Image 2512 vs Flux Dev 2 — moj setup i porownanie

Porownanie Qwen Image 2512 i Flux Dev 2 do lokalnej generacji obrazow AI. Setup SwarmUI, multi-model pipeline, LoRA fine-tuning i lekcje z dwoch tygodni testow.

#AI#generowanie obrazow#Qwen Image#Flux#SwarmUI#LoRA#open source#ComfyUI

Przez polrocze placilem OpenAI za kazdy wygenerowany obraz. Miniaturki na YouTube, ilustracje do artykulow, grafiki na social media -- wszystko przechodzilo przez chmure, a rachunki rosly. Postawilem na lokalne generowanie i po dwoch tygodniach intensywnych testow moge powiedziec jedno: nie wroce juz do platnych API. Oto jak wyglada moj setup, co wybralem i dlaczego.

Qwen vs Flux -- wizualizacja porownania modeli AI do generowania obrazow

Problem: dlaczego przestalem placic za OpenAI

Moj standardowy workflow wygladal tak: potrzebowalem grafike, wysylalem prompt do gpt-image-1, czekalem na wynik, placilem $0.04-0.08 za kazdy obraz. Przy kilkunastu grafikach tygodniowo kwoty sie sumowaly, ale to nie koszt byl glownym problemem.

Trzy rzeczy mnie frustrowaly najbardziej:

Brak kontroli nad stylem. OpenAI nie pozwala na fine-tuning modelu obrazowego. Nie mialem mozliwosci wytrenowania LoRA na swoich zdjeciach, wiec kazdy portret wygladal jak stock photo -- glupi usmiech, plastikowata cera, zero osobowosci.

Zero prywatnosci. Kazdy prompt i kazdy wynik przechodzi przez serwery OpenAI. Przy generowaniu portretow na baze wlasnych zdjec to jest problem, o ktorym malo kto mowi.

Brak parametrow zaawansowanych. Nie moglem kontrolowac samplera, schedulera, CFG scale, liczby krokow. Dostawalem to, co model dal -- bez mozliwosci iterowania po parametrach.

Potrzebowalem rozwiazania, ktore da mi pelna kontrole, pozwoli na LoRA i bedzie dzialac lokalnie (albo na moim VPS).

Rozwiazanie: SwarmUI + multi-model pipeline

Postawilem na SwarmUI jako centralny backend do generowania grafik. SwarmUI to nowoczesny interfejs do Stable Diffusion, ComfyUI i innych backendow, ktory udzwiga wiele modeli jednoczesnie i wystawia czyste API REST.

Calaosc dziala na GPU VPS (SimplePod) -- placi sie za godzine uzywania, wiec uruchamiam serwer tylko kiedy generuje. Kluczowa decyzja architektoniczna: nie jeden model do wszystkiego, ale pipeline trzech specjalizowanych modeli, kazdy do innego zadania.

Pipeline w liczbach -- metryki mojego setupu

Qwen Image 2512 -- krol tekstu w obrazach

Qwen Image 2512 to model 20B parametrow od Alibaby, dostepny na licencji Apache 2.0. To moj "workhorse" -- odpowiada za ilustracje techniczne, infografiki i kazdy obraz, w ktorym pojawia sie tekst.

Dlaczego akurat Qwen? Bo generuje tekst w obrazach z 95% dokladnoscia. Zaden inny open-source'owy model nie osiaga takich wynikow. Kiedy potrzebuje diagramu z etykietami albo miniaturki z tytulem -- Qwen daje wynik, ktory da sie uzywac bez recznych poprawek.

Moja konfiguracja Qwen:

QWEN_SAMPLER_PARAMS = {
    "sampler": "res_6s_ode",
    "scheduler": "beta57",
    "sigmashift": 1,
}

# W funkcji generate_image():
gen_params["model"] = "Qwen_Image_2512_BF16.safetensors"
gen_params.update(QWEN_SAMPLER_PARAMS)
gen_params["steps"] = 51
gen_params["cfgscale"] = 3.5

Natywna rozdzielczosc Qwen to 1328x1328 pikseli -- to 68% wiecej pikseli niz standardowe 1024x1024 w modelach FLUX. W praktyce oznacza to ostrzejsze detale, szczegolnie w tekscie i drobnych elementach graficznych.

Czas generacji: okolo 194 sekund na obraz przy 51 krokach i rozdzielczosci 1024x1024. To duzo, ale jakosc jest tego warta.

Z_Image Turbo -- portrety w 5 sekund

Do portretow uzywam Z_Image Turbo w polaczeniu z wlasna LoRA wytrenowana na 28 moich zdjeciach. Model generuje obraz w zaledwie 9 krokow -- co przeklada sie na mniej niz 5 sekund na GPU.

Kluczowa konfiguracja:

ZIMAGE_SAMPLER_PARAMS = {
    "sampler": "euler",
    "scheduler": "beta",
    "sigmashift": 7,
}

# Automatyczny wybor modelu:
if model in ("turbo", "zimage"):
    gen_params["model"] = "Z_Image_Turbo_BF16.safetensors"
    gen_params.update(ZIMAGE_SAMPLER_PARAMS)
    gen_params["steps"] = 9
    gen_params["cfgscale"] = 1  # KRYTYCZNE -- nie 7!

LoRA "marcin" (trigger word: ohwx man) wytrenowalem przy uzyciu Kohya Musubi Tuner na 28 zdjeciach. Caly trening zajal kilka godzin i potrzebowal zaledwie 6 GB VRAM.

Swiadomie wybralem styl komiksowy zamiast fotorealizmu. Komiksowa stylizacja lepiej ukrywa drobne artefakty AI, ktore przy portretach fotorealistycznych natychmiast wpadaja w "uncanny valley". Efekt jest rozpoznawalny, spojny i -- co wazne -- nie probuje udawac prawdziwego zdjecia.

Wan 2.2 -- wideo AI lokalnie

Trzecim elementem pipeline'u jest Wan 2.2 14B do generowania krotkich klipow wideo. Parametry: 544x960 pikseli, 97 klatek, 24fps -- co daje klipy o dlugosci 4.04 sekundy. Czas generacji to okolo 6 minut na klip.

Uzywam tego do krotkich animacji na social media i intro/outro do filmow na YouTube. Nie zastapi to profesjonalnego wideo, ale na "ozywione ilustracje" sprawdza sie doskonale.

Porownanie: Qwen vs Flux -- co wybrac?

Czas generacji obrazu -- porownanie modeli

Oto tabelka podsumowujaca moje testy obu modeli:

| Parametr | Qwen Image 2512 | FLUX Dev 2 | |---|---|---| | Rozmiar modelu | 20B | 32B | | Natywna rozdzielczosc | 1328x1328 | 1024x1024 | | Tekst w obrazach | 95% dokladnosc | ~70% dokladnosc | | Fotorealizm | Dobry | Doskonaly (ELO 1149) | | VRAM (BF16) | ~48 GB | ~90 GB | | VRAM (kwantyzacja) | 12-24 GB (FP8/GGUF) | 24-48 GB (FP8) | | Szybkosc (1024x1024) | ~194s / 51 krokow | ~120s / 28 krokow | | Prompt adherence | Bardzo dobry | Dobry | | Licencja | Apache 2.0 | Niekomercyjna | | Najlepszy do | Tekst, infografiki, drafty | Hero images, fotorealizm |

Dokladnosc tekstu w obrazach -- porownanie modeli

Licencja to decydujacy faktor. Qwen Image 2512 jest na Apache 2.0 -- mozesz uzyc wynikow komercyjnie bez ograniczen. FLUX Dev ma licencje niekomercyjna, co dyskwalifikuje go z wielu zastosowan biznesowych. Nie bez powodu 80% startupow w Bay Area sieglo po chinskie modele open-source.

Moj pipeline w praktyce: Qwen do wszystkiego co zwiazane z tekstem i infografikami, Z_Image Turbo do portretow z LoRA, i ewentualnie FLUX do jednorazowych hero images, gdzie fotorealizm jest kluczowy.

Moja konfiguracja krok po kroku

Caly pipeline jest zintegrowany z moim systemem automatyzacji contentu przez skrypt swarmui_generate.py. Oto jak wyglada typowe uzycie z linii komend:

# Ilustracja techniczna (Qwen, domyslny model)
python swarmui_generate.py \
    --prompt "technical diagram showing AI pipeline architecture, labeled nodes" \
    --url http://GPU_VPS_IP:7801 \
    --output _content-output/2026-02-22-moj-artykul/ \
    --name ilustracja_pipeline

# Portret z LoRA (Z_Image Turbo)
python swarmui_generate.py \
    --prompt "ohwx man in a modern office, comic book style, professional" \
    --model turbo \
    --lora marcin \
    --url http://GPU_VPS_IP:7801 \
    --output _content-output/2026-02-22-moj-artykul/ \
    --name portret_autor

Skrypt automatycznie dobiera parametry samplera na podstawie wybranego modelu -- nie trzeba pamietac o roznicach miedzy res_6s_ode a euler:

# Fragment swarmui_generate.py -- automatyczny dobor parametrow
if model in ("turbo", "zimage"):
    gen_params["model"] = "Z_Image_Turbo_BF16.safetensors"
    gen_params.update(ZIMAGE_SAMPLER_PARAMS)
    gen_params["steps"] = 9
    gen_params["cfgscale"] = 1
else:
    gen_params["model"] = "Qwen_Image_2512_BF16.safetensors"
    gen_params.update(QWEN_SAMPLER_PARAMS)

Mapa LoRA jest zdefiniowana centralnie -- wystarczy podac krotka nazwe zamiast pelnej sciezki do pliku:

LORA_MAP = {
    "lightning": "Qwen-Image-Lightning-8steps-V2.0",
    "marcin": "Quality_1_Training_000003000",
    "photo": "Qwen_LoRA_Amateur_Photo_v1",
    "skin": "Qwen_LoRA_Skin_Fix_v2",
}

Jedna wazna zasada: tekst na obrazach ZAWSZE dodaje programowo przez Pillow, nigdy przez model. Nawet Qwen z jego 95% dokladnoscia czasem pomyli litere -- a na miniaturce YouTube to nie do przyjecia. Pillow daje 100% kontroli nad fontem, rozmiarem, pozycja i kolorem tekstu.

Lekcje z dwoch tygodni testow

1. CFG Scale = 1 dla Z_Image, nie 7. Przez dwa tygodnie generowalem szum i nie moglem zrozumiec dlaczego Z_Image daje tak fatalne wyniki. Problem? Uzywalem domyslnego CFG=7, podczas gdy ten model wymaga CFG=1. Kazdy model ma swoj "sweet spot" i nie ma jednego zestawu parametrow, ktory dziala wszedzie. To jest najwazniejsza lekcja z calego projektu.

2. Tekst zawsze programowo -- nigdy przez model AI. Nawet najlepszy model (Qwen z 95% accuracy) od czasu do czasu pomyli litere, zle rozmiesci slowa lub wygeneruje tekst w zlym foncie. Pillow/ImageMagick daja stuprocentowa kontrole. Modele AI generuja "wizualna" wersje tekstu, ale nie rozumieja typografii.

3. Styl komiksowy bije fotorealizm w portretach AI. Fotorealistyczne portrety z LoRA wpadaja w "uncanny valley" -- twarz jest prawie dobra, ale cos jest nie tak i widz to czuje. Komiksowa stylizacja eliminuje ten problem calkowicie, bo nikt nie oczekuje perfekcji od rysunku. Bonus: komiksowy styl jest bardziej rozpoznawalny i buduje osobista marke.

4. Maksymalnie 2-3 rownolegle generacje. Qwen na 51 krokach jest wymagajacy. Przy wiecej niz 3 rownoleglych generacjach GPU zaczyna sie przegrzewac, czasy rosna nieliniowo, a czasem generacja po prostu pada. Bezpieczny limit to 2 zadania jednoczesnie.

5. Licencja wazniejsza niz benchmarki. FLUX wygrywa w czystym fotorealizmie (ELO 1149 vs Qwen gdzies okolo 1050), ale jego licencja niekomercyjna uniemozliwia uzycie w wielu projektach. Apache 2.0 od Qwen oznacza, ze moge uzywac wynikow gdziekolwiek, wlacznie z komercyjnymi klientami.

Podsumowanie

Lokalne generowanie obrazow AI w 2026 roku to nie eksperyment -- to dzialajacy pipeline produkcyjny. Moj setup (Qwen Image 2512 + Z_Image Turbo + Wan 2.2) pokrywa 95% moich potrzeb graficznych: od ilustracji technicznych, przez portrety, po krotkie klipy wideo.

Kluczowe metryki mojego pipeline'u:

Qwen: 194s/obraz, 95% dokladnosc tekstu, 1328x1328 natywna rozdzielczosc
Z_Image Turbo: <5s/obraz, portrety z LoRA wytrenowana na 28 zdjeciach
Koszt: ~$0.50/h VPS vs $0.04-0.08/obraz w OpenAI (breakeven przy ~8-12 obrazach/h)

Jesli generujesz wiecej niz kilkanascie grafik tygodniowo, lokalne modele sie oplaca. A jesli zalezy Ci na kontroli nad stylem, prywatnosci i licencji -- to jedyna sensowna droga.

Kod mojego skryptu integrujacego SwarmUI z automatyzacja contentu jest dostepny w repozytorium projektu. Jesli masz pytania o konfiguracje albo dobor parametrow -- napisz, chetnie pomoge.

Powiązane artykuły

Case Study22 lut 2026

Jak zbudowalem AI Content Hub: z 4-6h recznej pracy do 15 minut z n8n, RAG i Claude Code

Jak zbudowalem AI Content Hub: z 4-6h recznej pracy do 15 minut z n8n, RAG i Claude Code Tworzenie contentu na 7 platform naraz to koszmar logistyczny. Przez miesiace robilem to recznie --- researc...

Czytaj dalej

Tutorial14 mar 2026

Case Study22 lutego 20268 min czytania

Generowanie obrazow lokalnie: Qwen Image 2512 vs Flux Dev 2 — moj setup i porownanie

Porownanie Qwen Image 2512 i Flux Dev 2 do lokalnej generacji obrazow AI. Setup SwarmUI, multi-model pipeline, LoRA fine-tuning i lekcje z dwoch tygodni testow.

#AI#generowanie obrazow#Qwen Image#Flux#SwarmUI#LoRA#open source#ComfyUI

Qwen vs Flux -- wizualizacja porownania modeli AI do generowania obrazow

Problem: dlaczego przestalem placic za OpenAI

Trzy rzeczy mnie frustrowaly najbardziej:

Zero prywatnosci. Kazdy prompt i kazdy wynik przechodzi przez serwery OpenAI. Przy generowaniu portretow na baze wlasnych zdjec to jest problem, o ktorym malo kto mowi.

Brak parametrow zaawansowanych. Nie moglem kontrolowac samplera, schedulera, CFG scale, liczby krokow. Dostawalem to, co model dal -- bez mozliwosci iterowania po parametrach.

Potrzebowalem rozwiazania, ktore da mi pelna kontrole, pozwoli na LoRA i bedzie dzialac lokalnie (albo na moim VPS).

Rozwiazanie: SwarmUI + multi-model pipeline

Pipeline w liczbach -- metryki mojego setupu

Qwen Image 2512 -- krol tekstu w obrazach

Qwen Image 2512 to model 20B parametrow od Alibaby, dostepny na licencji Apache 2.0. To moj "workhorse" -- odpowiada za ilustracje techniczne, infografiki i kazdy obraz, w ktorym pojawia sie tekst.

Moja konfiguracja Qwen:

QWEN_SAMPLER_PARAMS = {
    "sampler": "res_6s_ode",
    "scheduler": "beta57",
    "sigmashift": 1,
}

# W funkcji generate_image():
gen_params["model"] = "Qwen_Image_2512_BF16.safetensors"
gen_params.update(QWEN_SAMPLER_PARAMS)
gen_params["steps"] = 51
gen_params["cfgscale"] = 3.5

Czas generacji: okolo 194 sekund na obraz przy 51 krokach i rozdzielczosci 1024x1024. To duzo, ale jakosc jest tego warta.

Z_Image Turbo -- portrety w 5 sekund

Do portretow uzywam Z_Image Turbo w polaczeniu z wlasna LoRA wytrenowana na 28 moich zdjeciach. Model generuje obraz w zaledwie 9 krokow -- co przeklada sie na mniej niz 5 sekund na GPU.

Kluczowa konfiguracja:

ZIMAGE_SAMPLER_PARAMS = {
    "sampler": "euler",
    "scheduler": "beta",
    "sigmashift": 7,
}

# Automatyczny wybor modelu:
if model in ("turbo", "zimage"):
    gen_params["model"] = "Z_Image_Turbo_BF16.safetensors"
    gen_params.update(ZIMAGE_SAMPLER_PARAMS)
    gen_params["steps"] = 9
    gen_params["cfgscale"] = 1  # KRYTYCZNE -- nie 7!

LoRA "marcin" (trigger word: ohwx man) wytrenowalem przy uzyciu Kohya Musubi Tuner na 28 zdjeciach. Caly trening zajal kilka godzin i potrzebowal zaledwie 6 GB VRAM.

Wan 2.2 -- wideo AI lokalnie

Uzywam tego do krotkich animacji na social media i intro/outro do filmow na YouTube. Nie zastapi to profesjonalnego wideo, ale na "ozywione ilustracje" sprawdza sie doskonale.

Porownanie: Qwen vs Flux -- co wybrac?

Czas generacji obrazu -- porownanie modeli

Oto tabelka podsumowujaca moje testy obu modeli:

Dokladnosc tekstu w obrazach -- porownanie modeli

Moja konfiguracja krok po kroku

Caly pipeline jest zintegrowany z moim systemem automatyzacji contentu przez skrypt swarmui_generate.py. Oto jak wyglada typowe uzycie z linii komend:

# Ilustracja techniczna (Qwen, domyslny model)
python swarmui_generate.py \
    --prompt "technical diagram showing AI pipeline architecture, labeled nodes" \
    --url http://GPU_VPS_IP:7801 \
    --output _content-output/2026-02-22-moj-artykul/ \
    --name ilustracja_pipeline

# Portret z LoRA (Z_Image Turbo)
python swarmui_generate.py \
    --prompt "ohwx man in a modern office, comic book style, professional" \
    --model turbo \
    --lora marcin \
    --url http://GPU_VPS_IP:7801 \
    --output _content-output/2026-02-22-moj-artykul/ \
    --name portret_autor

Skrypt automatycznie dobiera parametry samplera na podstawie wybranego modelu -- nie trzeba pamietac o roznicach miedzy res_6s_ode a euler:

# Fragment swarmui_generate.py -- automatyczny dobor parametrow
if model in ("turbo", "zimage"):
    gen_params["model"] = "Z_Image_Turbo_BF16.safetensors"
    gen_params.update(ZIMAGE_SAMPLER_PARAMS)
    gen_params["steps"] = 9
    gen_params["cfgscale"] = 1
else:
    gen_params["model"] = "Qwen_Image_2512_BF16.safetensors"
    gen_params.update(QWEN_SAMPLER_PARAMS)

Mapa LoRA jest zdefiniowana centralnie -- wystarczy podac krotka nazwe zamiast pelnej sciezki do pliku:

LORA_MAP = {
    "lightning": "Qwen-Image-Lightning-8steps-V2.0",
    "marcin": "Quality_1_Training_000003000",
    "photo": "Qwen_LoRA_Amateur_Photo_v1",
    "skin": "Qwen_LoRA_Skin_Fix_v2",
}

Lekcje z dwoch tygodni testow

Podsumowanie

Kluczowe metryki mojego pipeline'u:

Qwen: 194s/obraz, 95% dokladnosc tekstu, 1328x1328 natywna rozdzielczosc
Z_Image Turbo: <5s/obraz, portrety z LoRA wytrenowana na 28 zdjeciach
Koszt: ~$0.50/h VPS vs $0.04-0.08/obraz w OpenAI (breakeven przy ~8-12 obrazach/h)

Jesli generujesz wiecej niz kilkanascie grafik tygodniowo, lokalne modele sie oplaca. A jesli zalezy Ci na kontroli nad stylem, prywatnosci i licencji -- to jedyna sensowna droga.

Kod mojego skryptu integrujacego SwarmUI z automatyzacja contentu jest dostepny w repozytorium projektu. Jesli masz pytania o konfiguracje albo dobor parametrow -- napisz, chetnie pomoge.

Powiązane artykuły

Case Study22 lut 2026

Problem: dlaczego przestalem placic za OpenAI

Rozwiazanie: SwarmUI + multi-model pipeline

Qwen Image 2512 -- krol tekstu w obrazach

Z_Image Turbo -- portrety w 5 sekund

Wan 2.2 -- wideo AI lokalnie

Porownanie: Qwen vs Flux -- co wybrac?

Moja konfiguracja krok po kroku

Lekcje z dwoch tygodni testow

Podsumowanie

Powiązane artykuły

Jak zbudowalem AI Content Hub: z 4-6h recznej pracy do 15 minut z n8n, RAG i Claude Code

Generowanie obrazow AI w 2026 — Flux, Midjourney, DALL-E i Stable Diffusion

Jak zbudowalem AI Content Hub za pomoca Claude Code — Case Study

Jak zbudowalem AI Content Hub za pomoca Claude Code — Case Study

Problem: dlaczego przestalem placic za OpenAI

Rozwiazanie: SwarmUI + multi-model pipeline

Qwen Image 2512 -- krol tekstu w obrazach

Z_Image Turbo -- portrety w 5 sekund

Wan 2.2 -- wideo AI lokalnie

Porownanie: Qwen vs Flux -- co wybrac?

Moja konfiguracja krok po kroku

Lekcje z dwoch tygodni testow

Podsumowanie

Powiązane artykuły

Jak zbudowalem AI Content Hub: z 4-6h recznej pracy do 15 minut z n8n, RAG i Claude Code

Generowanie obrazow AI w 2026 — Flux, Midjourney, DALL-E i Stable Diffusion

Jak zbudowalem AI Content Hub za pomoca Claude Code — Case Study

Jak zbudowalem AI Content Hub za pomoca Claude Code — Case Study