Sprawdziłem nowy generator obrazów w ChatGPT. Poprawę widać gołym okiem

3 tygodni temu 19

Firma OpenAI zaprezentowała nową wersję swojego generatora obrazów - GPT Image 1.5. Ten trafił już do ChatGPT.

Duże modele językowe OpenAI dotychczas bardzo dobrze radziły sobie z tworzeniem zupełnie nowych obrazów na podstawie słownych opisów, ale w mojej ocenie ustępowały konkurencji, gdy chodzi o edycję już istniejących zdjęć. Przykładowo po poleceniu zmiany koloru ubrania osoby na fotografii, GPT Image 1 miał tendencję do wprowadzania niechcianych modyfikacji innych obiektów w kadrze, w tym twarzy i tła. 

Twórcy obiecują, że GPT Image 1.5 został zoptymalizowany pod kątem selektywnej edycji. Co najpewniej jest odpowiedzią na model Nano Banana Pro w Google Gemini, którego jedną z najmocniejszych stron jest właśnie edycja. Sprawdziłem i faktycznie - jest duuużo lepiej. 

Uruchom wideo

ChatGPT zdecydowanie lepiej radzi sobie teraz z edycją zdjęć

Nowy model GPT Image 1.5 oraz starszy GPT Image 1 porównałem ze sobą korzystając z narzędzie LMArena. 

Test 1 - selektywna edycja zdjęcia

Do obu modeli załadowałem własne zdjęcie i poprosiłem o jego edycję. 

Prompt: "Zmień telefon na pomarańczowego iPhone'a 17 Pro, skierowanego tyłem w stronę kamery. Zmień bluzę na niebieską z logo Jurassic Park. Nie zmieniaj proporcji i reszty kadru". 

GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)

Starszy model GPT Image 1 całkowicie zmienił moją twarz, podczas gdy GPT Image 1.5 faktycznie zmodyfikował tylko tylko te fragmenty, które miał. Jednocześnie oba modele - wbrew poleceniu - zmieniły nieco proporcje grafiki i nie dały rady odwzorować prawidłowo wyglądu iPhone’a 17 Pro, mimo że ten jest dostępny na rynku od 3 miesięcy. Niemniej poprawa z generacji na generację jest astronomiczna. 

Test 2 - poprawa jakości zdjęcia

Do obu modeli załadowałem klatkę z pierwszego filmu youtuberki iJustine z 2006 roku. 

Prompt: "Popraw jakość, nie zmieniaj proporcji i nie ingeruj w rozkład elementów w kadrze". 

GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)

Grafika z GPT Image 1 ma mocno sztuczną stylistykę i model nie trzymał się polecenia, bo zmienił chociażby układ palców pod miską. GPT Image 1.5 dorobił masę brakujących szczegółów, ale zachował naturalnie wyglądające niedoskonałości i ogólny klimat zdjęcia. Zwycięstwo przez nokaut. 

Test 3 - wklejenie zrzutu ekranu na zdjęcie

Do obu modeli załadowałem zrzut ekranu strony głównej benchmark.pl i poprosiłem o wygenerowanie prostego mockupu. 

Prompt: "Umieść ten zrzut ekranu na wyświetlaczu laptopa stojącego na biurku. Niech ekran laptopa wypełnia większość kadru. Proporcje zdjęcia 16:9". 

GPT Image 1.5 (po lewej) i GPT Image 1 (po prawej)

GPT Image 1 całkowicie zmasakrował zawartość screenshota, modyfikując wszystkie umieszczone na nim elementy graficzne i zmieniając napisy w nieczytelną papkę. GPT Image 1.5 poradził sobie natomiast z poleceniem dużo lepiej, choć też nie idealnie, bo zmienił słowo "wybrać" na "wjbrać". 

GPT Image 1.5 dla wszystkich w ChatGPT

OpenAI poinformowało, że nowy model jest stopniowo udostępniany wszystkim użytkownikom ChatGPT, w tym planu darmowego. Przy okazji firma zmieniła interfejs witryny ChatGPT.com/Images.

Twórcy deklarują, że GPT Image 1.5 działa także nawet cztery razy szybciej od poprzednika, choć akurat na tym polu nie odnotowałem póki co znaczącej poprawy. 

Przeczytaj źródło