Samouczek tworzenia obrazu AI i porównanie: Dall-e VS Stable Diffusion VS Canva (Text to Image)

Przy obecnej popularności medialnej tzw ChatGPT jest to również okazja do rozmowy DALL-E, kolejna sztuczna inteligencja również zaprojektowana przez Otwórz AI ! A bardziej ogólnie sztuczna inteligencja generująca obraz. Tam, gdzie ChatGPT jest w stanie generować tekst pisany z niepokojącą łatwością, DALL-E i jemu podobni zostali przeszkoleni w tworzeniu obrazów na podstawie prostej pisemnej prośby użytkownika.

Rzućmy okiem na to, jak działają, jakie są ich możliwości, ale także jakie są ograniczenia w tym artykule porównawczym dotyczącym sztucznej inteligencji do tworzenia obrazów.

Ale przy okazji, jak działa sztuczna inteligencja?

Bardzo dobre pytanie, do którego warto szybko wrócić, zwłaszcza że nie odnieśliśmy się do niego w naszym poprzednim artykule o ChatGPT. Kiedy słyszysz „Sztuczna inteligencja”, trudno nie mieć na myśli tego rodzaju humanoidalnych robotów, jakie widzieliśmy w filmach. Oto, co same AI generują, gdy są proszone o obraz odpowiadający wyszukiwaniu tych słów kluczowych, na przykład obraz wprowadzający do tego artykułu.

*Ten krajobraz nie istnieje, jest w 100% sztuczny, stworzony przez sztuczną inteligencję*

Jednak w rzeczywistości wiele istniejących AI nie ma fizycznej powłoki. Rzeczywiście, przez większość czasu to programy komputerowe oparte na określonych algorytmach zostały wyszkolone przez ludzi do wykonywania pewnych mniej lub bardziej złożonych zadań.

Generowanie obrazu to zadanie, które można przypisać do jednej (lub więcej) sztucznej inteligencji! Aby dowiedzieć się więcej o metodach tworzenia obrazów przez AI, nie wahaj się obejrzeć poniższego filmu:

Wygenerujmy nasze pierwsze obrazy za pomocą sztucznej inteligencji

Aby to zrobić, na pierwszy rzut oka nic nie może być prostsze, ponieważ wszystko, co musisz zrobić, to opisać tekstowo AI obraz, który chcesz uzyskać. W tym artykule postanowiliśmy porównać obrazy dostarczone przez trzy generatory AI:

DALL-E
Stabilna dyfuzja
Canva (z tekstu na obraz)

Oczywiście są też inne, których nie wahaj się przetestować. Tutaj jest jeden niewyczerpująca lista.

Jeśli jesteś trochę kreatywny, z pewnością znajdziesz mnóstwo pomysłów na obrazy do wygenerowania. Ale dla tych, dla których byłoby to trochę bardziej skomplikowane, można poprosić… ChatGPT o małą pomoc. Tak, użyliśmy sztucznej inteligencji, aby użyć innej sztucznej inteligencji…

*Odpowiedź ChatGPT na pytanie: Muszę napisać artykuł na dall.e, czy masz jakieś pomysły na obrazy, które można wygenerować za pomocą tego modelu AI?*

Oczywiście, jako model generowania obrazu, DALL-E może tworzyć szeroką gamę obrazów. Oto kilka pomysłów na obrazy, które można wygenerować za pomocą DALL-E:

Fantastyczne zwierzęta: poproś DALL-E o wygenerowanie obrazów wyimaginowanych zwierząt, takich jak smok ze skrzydłami motyla lub wąż z nogami.

Dziwne potrawy: poproś DALL-E o wygenerowanie obrazów niezwykłych potraw, takich jak czekoladowa pizza lub burger z kawałkami arbuza.

Niezwykłe ubrania: poproś DALL-E o wygenerowanie obrazów dziwnych ubrań, takich jak kapelusz w kształcie wieży Eiffla lub buty ze skrzydłami.

Wyimaginowane krajobrazy: poproś DALL-E o wygenerowanie obrazów fantastycznych krajobrazów, takich jak miasto unoszące się w chmurach lub las gigantycznych grzybów.

Obiekty hybrydowe: poproś DALL-E o wygenerowanie obrazów obiektów będących mieszanką dwóch różnych rzeczy, takich jak łóżko wyglądające jak hamak lub samochód z ptasimi skrzydłami.

Portrety gwiazd: poproś DALL-E o wygenerowanie obrazów portretów gwiazd, które nie istnieją, na przykład alternatywnej wersji Marilyn Monroe z tatuażami.

Futurystyczne samochody: poproś DALL-E o wygenerowanie obrazów futurystycznych samochodów, takich jak samochód, który może przekształcić się w samolot lub samochód, który może latać.

Architektura fantasy: Poproś DALL-E o wygenerowanie obrazów architektury fantasy, takiej jak drapacz chmur w kształcie smoka lub dom, który wygląda jak drzewo.

Te pomysły to tylko sugestie, które dają wyobrażenie o tym, co może zrobić DALL-E. Istnieją tysiące innych pomysłów na obrazy, które możesz wygenerować za pomocą tego szablonu AI.

Każda AI ma swój własny styl

Z tą listą zobaczmy razem, jak generować nasze obrazy i które z różnych wybranych programów radzi sobie najlepiej.

Czytaj także: Migracja do nowego forum phpBB 2.0.x do phpBB 3.1!

Na nasz pierwszy obraz zdecydowaliśmy się przedstawić smoka ze skrzydłami motyla. Aby dodać trochę kontekstu, prosimy również o przedstawienie tego w „baśniowym lesie fantasy”. W zależności od ocen skutków język wniosku może mieć wpływ na wynik. Więc szybko znaleźliśmy to dla DALL-E i Stable Diffusion Językiem, który dał najlepsze wyniki, był język angielski. I odwrotnie, aplikacja Canva do zamiany tekstu na obraz generalnie działa lepiej w języku francuskim.

1. Obrazy smoka o skrzydłach motyla wygenerowane przez DALL-E

2. Smoki generowane przez Stable Difusion

3. I wreszcie ten, który zdecydowaliśmy się zachować dla narzędzia Canva

Pierwszą rzeczą, którą możemy zobaczyć bardzo szybko: dla tej samej prośby, każda sztuczna inteligencja ma swój własny styl!

DALL-E ma „pomysłową” stronę, chociaż „bajkowy” las jest trochę ciemny jak na wróżkę, skrzydła motyla są dobrze reprezentowane i schludne. To jest w dobrym stylu Sztuka cyfrowa.
W Stable Diffusion styl jest bardziej „radosny”, trochę dziecinne. Bardzo dobrze wyobrażamy sobie te obrazy ilustrujące bajkę dla dzieci. Tutaj smoki są wyraźnie widoczne i przypominają Chiny, których są symbolem. Z drugiej strony sztuczna inteligencja całkowicie zasłoniła skrzydła motyla i wybrała łatwe rozwiązanie, sprawiając, że obok naszych smoków pojawiły się prawdziwe motyle.
Ostatecznie dla narzędzia Canva wybraliśmy jedyny obraz odpowiadający naszemu żądaniu z zaznaczenia. Jednak dwa elementy (smok i skrzydła są tutaj obecne). Chociaż wszystkie obrazy są tematyczne i można je wykonać, serwis Canva najlepiej wykonuje sugestię i dlatego zdobywa tutaj pierwszy punkt.

Jakie są możliwości stylu artystycznego żądanego obrazu?

Jeśli nie zostaną poproszone żadne szczegóły dotyczące stylu graficznego, SI wybierze je za ciebie, tak jak w przypadku smoków.

Niemniej jednak na przykład w Dall-e możliwe jest zdefiniowanie następujących stylów:

Obraz olejny : Dall-e może generować obrazy olejne na podstawie opisu kolorów i tekstur, które chcesz zobaczyć na obrazie.
Fotografia : Dall-e może generować zdjęcia na podstawie kolorów, tekstur i szczegółów, które chcesz zobaczyć na zdjęciu.
Sztuka cyfrowa : Dall-e może stworzyć cyfrową grafikę z wcześniej zaprojektowanego szablonu lub z opisu kolorów i szczegółów, które chcesz zobaczyć w kompozycji.
Sztuka abstrakcyjna : Dall-e może tworzyć abstrakcyjne prace w oparciu o ruchy, kolory i kształty, które chcesz zobaczyć w pracy.
projekt : Dall-e może generować projekty w oparciu o kolory i kształty, które chcesz zobaczyć w projekcie.
sztuka wektor : Dall-e może generować obrazy wektorowe z predefiniowanego szablonu lub z opisu kolorów i szczegółów, które chcesz zobaczyć na obrazie.

Przykłady Dragona zostały wykonane a priori w stylu Digital Art. Styl będzie miał duży wpływ na ostateczny wygenerowany obraz.

Jeszcze silniejsze, można poprosić o style jakiś znany artysta. Wygenerowaliśmy więc czat w stylu Picassa, Van Gogha i Dalego ! A wyniki są… całkiem oszałamiające!

Nasz narysowany przez sztuczną inteligencję kot w stylach 3 wielkich mistrzów malarstwa

Kot w stylu Picassa
Kot w stylu Van Gogha
Kot w stylu Dali

Lepiej, poprosiliśmy wtedy o „ Kot w stylu Picassa i Dali i Van Gogha i mamy to:

Poprosiliśmy również „Świnia w stylu Picassa” a wynik był równie, jeśli nie bardziej, imponujący…

Sztuczna inteligencja prawdopodobnie zrewolucjonizuje dziedzinę sztuki i Internetu w nadchodzących latach, co już ma miejsce w przypadku spekulacyjnych NFT.

Czytaj także: Res prawna: Dane prawne i energii odnawialnej w Europie

Rozumiemy brak zaufania do profesjonalistów sztuki w stosunku do tych artystycznych sztucznej inteligencji, ich obawy są takie same, jak w przypadku publikowania i twórczości literackiej w stosunku do chatbotów, takich jak ChatGPT! Mają rację, wszystkie te obawy są naszym zdaniem uzasadnione!

Jakie są różne metody żądania utworzenia obrazu za pomocą Dall-e?

Aby wskazać tworzenie obrazu za pomocą Dalle-e, można zastosować kilka metod, w tym metody graficzne dla szybszego wyniku odpowiadającego Twoim potrzebom:

Generowanie obrazów ze słów kluczowych : możesz wprowadzić słowo kluczowe, a Dall-e utworzy obraz na podstawie wprowadzonych słów kluczowych.
Generowanie obrazów ze zdań : możesz wpisać całe zdanie, a Dall-e utworzy obraz na podstawie wprowadzonego zdania.
Generowanie obrazów z opisów obrazów : Dall-e może generować obrazy na podstawie szczegółowego opisu kolorów, kształtów i obiektów, które chcesz zobaczyć na obrazie.
Generowanie obrazów ze scen : Dall-e może generować obrazy 3D z pełnego opisu sceny.
Generowanie obrazów z wzorców : Dall-e może generować obrazy z wprowadzonych wzorów.
Generowanie obrazów z szablonów : możesz dostarczyć Dall-e predefiniowany szablon, który utworzy obrazy na podstawie dostarczonego szablonu.
Generowanie obrazów z animowanych sekwencji : Dall-e może generować animowane sekwencje z opisu ruchów, kolorów i dźwięków, które chcesz zobaczyć w sekwencji.

Realistyczne, ale nieprawdopodobne obrazy

Następnie poprosiliśmy nasze generatory obrazów AI, aby nas narysowały sałatka z oczami : dwa elementy, które na pierwszy rzut oka nie pasują do siebie. Jednak na tym etapie nasze 3 generatory przeszły bez widocznych trudności.

1. Cztery obrazy sałatki z oczami, zaproponowane przez DALL-E

2. Dwa obrazy odpowiadające naszemu żądaniu wygenerowane przez Stable Diffusion

3. I dwa odpowiednie obrazy dla narzędzia Canva

Tutaj znowu każdy obraz ma swój własny styl, ale szczególnie uderzający jest realizm różnych obrazów: sztuczna inteligencja wykorzystała styl fotograficzny.

Rozpoznajemy żywność szczególnie dobrze, do tego stopnia, że możemy chcieć odtworzyć różne pomysły proponowane w kuchni. Jeśli Canva wyróżnia się oryginalnością, oferując obraz inspirowany „emotikonami”, to tutaj DALL-E wygrywa z czterema różnymi obrazami i wszystkimi w żądanym motywie.

Wśród wpadek Stable Diffusion, do jednego z obrazów wciąż warto wracać

Rzeczywiście, na tym obrazie wyeliminowanym, ponieważ nie zawiera oczu, z drugiej strony widzimy wysiłek realizmu AI w przedstawieniu planu pracy.

Nasze AI rzeczywiście są w stanie powiązać słowo „sałatka” z odpowiednim środowiskiem. Tak było już na powyższych obrazach z reprezentacja talerzy, widelców oraz inne elementy związane z dziedziną kulinarną.

Japonki, które nadal pozostają regularne

Pomimo swojej ogólnej wydajności, nasze AI nadal generują dobrą ilość mierne, błędne obrazy widzi zupełnie nie nadążające za popytem. Tak było w przypadku naszego Kapelusz w kształcie wieży Eiffla.

DALL-E wygrywa dzięki jedynemu obrazowi, który spełnia nasze oczekiwania: biały kapelusz, zwieńczony miniaturową wieżą, którą doskonale wyobrażalibyśmy sobie na szef Geneviève de Fontenay !

Oprócz tego małego chichotu oferowanego przez sztuczną inteligencję Open AI, inne obrazy były albo zbyt realistyczne, po prostu przedstawiając jeden z elementów, zasłaniając drugi:

Na pierwszym obrazie Stable Diffusion przedstawia Wieżę, podczas gdy na drugim DALL-E postanowił wysłać nam stos kapeluszy, zasłaniając również drugą część naszej prośby.

Albo źle zrozumieli prośbę, jak na tych dwóch obrazach, na których DALL-E przedstawia raczej pamiątkowe figurki Wieży Eiffla:

Czytaj także: Ma-Bonne-Action.com, marketing solidarności, humanitarne i charytatywne

Wreszcie, niektóre obrazy są czasami zupełnie niekonwencjonalne, jak miało to miejsce w przypadku tego obrazu, który miał przedstawiać „osobę z wyobraźni IA Stable Diffusion”, która następnie zdecydowała się spontanicznie dodać cytat w nieznanym języku… blisko z angielskiego…

Wrażliwość, która czasami zmienia się słowo po słowie

Przeprowadzając testy szybko zdajemy sobie sprawę, że czasami wystarczy, aby nasza AI skorygowała sytuację w przypadku niezadowalających wyników. Kiedy więc po raz pierwszy zapytamy naszą AI „unoszące się miasto na pochmurnym niebie” wybierając najlepsze zdjęcie dla każdego z nich, otrzymamy następujący wynik:

Odpowiednio od góry do dołu, wyniki Stable Diffusion, DALL-E i Canva

Bardzo ładne obrazy, ale tak naprawdę nie odzwierciedlają „nierzeczywistej” konotacji naszej prośby rozumianej przez ludzi, ale najwyraźniej nie przez nasze generatory. Wystarczy subtelna zmiana popytu, aby uzyskać zupełnie inne wyniki.

Tak więc ze zdaniem „fantastyczne miasto unoszące się na pochmurnym niebie” otrzymujemy tym razem:

1. Znacznie bardziej pomysłowe obrazy z DALL-E

2. Bardzo ładne fantastyczne miasta ze Stable Diffusion, które jednak całkowicie pomijają część „unoszącą się w pochmurnym niebie”

3. Niektóre sceny, które mogłyby zostać wzięte z gry wideo (na przykład Minecraft lub Lego Worlds) przez serwis Canva

Tutaj możemy przyznać punkt DALL-E i Canva, którym udało się, dzięki jednej lub drugiej z naszych próśb, sprawić, że nasze miasto unosi się w chmurach.

Ale w takim razie, jaka przyszłość dla generowania obrazów?

W obliczu rozwiązania, które ogólnie działa całkiem dobrze, można się zastanawiać, jakie mogą być przyszłe zastosowania generowania obrazów przez sztuczną inteligencję. Oczywiście kuszące jest zacytowanie tutaj tworzenia wpadek w Internecie, nie wahaj się przyjść wpis na naszym forum te, które mogłeś już spotkać w Internecie.

Ale możemy sobie wyobrazić też poważniejsze zastosowania. Tak więc wyniki uzyskane po poproszeniu narzędzia Canva o stworzenie obrazu „drzewa, które w rzeczywistości jest domem” mogą z łatwością dać pomysły architektowi odpowiedzialnemu za tworzenie siedlisk, które mogą wtapiać się w naturę!

Ale w takim razie, który z naszych 3 generatorów obrazów radzi sobie najlepiej?

Za drzewo, które byłoby jednocześnie domem, każdemu narzędziu z łatwością przyznajemy punkt!

Przykłady obrazów proponowanych odpowiednio przez DALL-E, Stable Diffusion i narzędzie Canva

Samochód z ptasimi skrzydłami rzucił wyzwanie wszystkim naszym SI, ale samochód, który potrafi latać, pozwolił Canva i Stable Diffusion wyróżnić się całkiem realistycznymi futurystycznymi renderami:

Odpowiednio stabilna dyfuzja na górze i Canva na dole.

W końcu DALL-E okazał się całkiem wydajny budynek w kształcie smoka (który pozostaje jednak w budowie), a serwis Canva był w stanie najlepiej spełnić prośbę o portret, który nieco zmodyfikowaliśmy, zastępując celebrytę „osobą z wyobraźni sztucznej inteligencji”.

Pomimo pewnych elementów sugerujących generowanie obrazu za dwoma portretami Canva, realizm wciąż jest uderzający.

W ostatecznym rozrachunku są to zatem Narzędzie DALL-E i Canva, które odpowiednio zdobywają po 5 punktów.

Na ogół są w stanie zapewnić wyniki zgodne z większością żądań użytkowników.

Canva wyróżnia się realizmem, podczas gdy DALL-E wydaje się bardziej odpowiedni, gdy tylko prośba wymaga wyobraźni lub dziedziny malarstwa.

Jednak pomimo zaledwie 2 punktów, Stable Diffusion nie zawodzi pod względem jakości obrazu, którą jest w stanie zapewnić! Wadą jest to, że rozumie prośby użytkowników, ponieważ często ma tendencję do pozostawania bardzo przyziemnym. Jednak pozostaje bardzo interesujące do odkrycia.

W każdym razie możemy spodziewać się, że w nadchodzących latach sztuczna inteligencja zrewolucjonizuje wiele sektorów działalności. I na pewno szybciej niż niektórzy myślą od tego czasu książki napisane częściowo lub w całości przez AI są już w sprzedaży na Amazon…Ten krótki reportaż wideo z BFMTV mówił o tym kilka dni temu: