Możliwości sztucznej inteligencji opracowanej przez firmę Nvidia

Stworzenie obrazu wartego tysiąca słów wymaga teraz zaledwie trzech lub czterech słów dzięki GauGAN 2 najnowszej wersji szalenie popularnego symulatora malowania firmy Nvidia.

Wprowadzanie zdania i oglądanie fotorealistycznych obrazów pojawiających się na ekranie, które je ilustrują, można uznać za wyczyn, który osiąga sztuczna inteligencja opracowana przez firmę Nvidia.

GauGAN 2 jest rozwiniętą wersją sztucznej inteligencji, chociaż GauGAN został już zaprezentowany w 2019 roku. W tamtym czasie sztuczna inteligencja była już w stanie przekształcać szkice w fotorealistyczne obrazy. Aby skorzystać z tego rozwiązania, firma Nvidia oferuje oprogramowanie o nazwie Canvas. Jedynym ograniczeniem jest to, że oprogramowanie wymaga do działania wydajnej karty graficznej.

Aby przekształcić słowa w obrazy, GauGAN 2 wykorzystuje specjalny generatywny model sztucznej inteligencji, który został przetestowany na 10 milionach zdjęć krajobrazów. Jednak nie wiadomo, jak improwizować, jeśli słowa kluczowe mają wiele znaczeń lub są zbyt subtelne, ale to dopiero początek.

Co więcej, możliwe jest połączenie funkcji Canvas i słów kluczowych, aby połączyć tekst i rysunki. Proces ten pozwala na dalsze dostosowanie renderingu (obrazowanie lub prezentacja utworzonego przez grafika cyfrowego modelu danej sceny) do potrzeb użytkownika poprzez wykorzystanie szkicu.

Na swoim blogu firma opublikowała krótki filmik pokazujący GauGAN 2 w działaniu. Na stronie internetowej użytkownik stopniowo wprowadza słowa kluczowe, takie jak fale oceanu uderzające o skały na plaży, a odpowiadające im obrazy są wyświetlane w miarę wpisywania słów przez użytkownika.

Należy nadmienić, że firma Nvidia oferuje również możliwość przetestowania sztucznej inteligencji z poziomu przeglądarki.

Model dogłębnych analiz stojący za GauGAN pozwala każdemu przekształcić swoją wyobraźnię w fotorealistyczne arcydzieła.

Wystarczy wpisać frazę, taką jak „zachód słońca na plaży”, a sztuczna inteligencja wygeneruje scenę w czasie rzeczywistym. Dodając dodatkowy przymiotnik, taki jak „zachód słońca na kamienistej plaży”, albo zamieniając „zachód słońca” na „popołudnie” lub „deszczowy dzień”, model oparty na generatywnych sieciach przeciwstawnych natychmiast zmodyfikuje obraz.

Po naciśnięciu przycisku, użytkownicy mogą wygenerować mapę segmentacji, czyli ogólny zarys, który pokazuje położenie obiektów w scenie. Następnie można przejść do rysowania, korygując scenę za pomocą wstępnych szkiców z wykorzystaniem etykiet, takich jak niebo, drzewo, skała i rzeka, co pozwala inteligentnemu pędzlowi przekształcić te bazgroły w zachwycające obrazy.