Intel Labs wprowadza nowy model wdrażania sztucznej inteligencji w 3D

We współpracy z Blockade Labs firma Intel Labs wprowadziła Latent Diffusion for 3D (LDM3D), nowy model wykorzystujący generatywną sztuczną inteligencję do tworzenia realistycznych treści wizualnych 3D.

LDM3D to pierwszy w branży model do tworzenia mapy głębi przy użyciu procesu dyfuzji do tworzenia obrazów 3D z żywymi, wciągającymi widokami 360 stopni.

LDM3D został zaprojektowany, aby zrewolucjonizować tworzenie treści, aplikacje Metaverse i doświadczenia cyfrowe, przekształcając branże, od rozrywki i gier po architekturę i projektowanie.

„Technologia sztucznej inteligencji Genesis ma na celu zwiększenie i ulepszenie ludzkiej kreatywności oraz oszczędność czasu” — mówi Vasudev Lal, naukowiec zajmujący się sztuczną inteligencją/uczeniem maszynowym w Intel Labs.

„Jednak większość obecnych modeli sztucznej inteligencji ogranicza się do generowania obrazów 2D, a bardzo niewiele może generować obrazy 3D z monitów tekstowych”.

„W przeciwieństwie do obecnych modeli stabilnej latentnej dyfuzji, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi z danego wektora tekstowego przy użyciu w przybliżeniu takiej samej liczby parametrów”.

„Zapewnia dokładniejszą względną głębię dla każdego piksela w obrazie niż standardowe metody przetwarzania końcowego do szacowania głębi i oszczędza programistom znaczną ilość czasu opracowywania scen” — mówi Lal.

Zaangażowanie firmy Intel w demokratyzację sztucznej inteligencji ma na celu umożliwienie szerszego dostępu do korzyści płynących ze sztucznej inteligencji poprzez otwarty ekosystem.

W przeciwieństwie do obecnych modeli dyfuzji, które generalnie generują tylko obrazy 2D RGB na podstawie monitów tekstowych, LDM3D umożliwia użytkownikom generowanie obrazu i mapy głębi na podstawie danego monitu tekstowego.

Wykorzystując w przybliżeniu taką samą liczbę parametrów jak utajona stabilna dyfuzyjność, LDM3D zapewnia dokładniejszą względną głębię dla każdego piksela obrazu niż standardowe metody przetwarzania końcowego szacowania głębi.

Obrazy i mapy głębi generowane przez LDM3D pozwalają użytkownikom przekształcić tekstowy opis spokojnej tropikalnej plaży, nowoczesnego drapacza chmur lub świata science fiction w szczegółową panoramę 360 stopni.

READ Jak zaktualizować AirTags do najnowszego oprogramowania?

Ta zdolność do uzyskiwania dogłębnych informacji może natychmiast zwiększyć ogólny realizm i zanurzenie, umożliwiając innowacyjne aplikacje dla branż, od rozrywki i gier po projektowanie wnętrz i wykazy nieruchomości, a także wirtualne muzea i wciągające doświadczenia rzeczywistości wirtualnej (VR).

LDM3D został przeszkolony na zbiorze danych wygenerowanym z 10 000-próbkowego podzbioru bazy danych LAION-400M, która zawiera ponad 400 milionów par adnotacji obrazu. Zespół opisał zestaw treningowy za pomocą modelu szacowania głębokości z gęstym transformatorem predykcyjnym (DPT) (wcześniej opracowanym w Intel Labs).

Model LDM3D został przeszkolony na superkomputerze firmy Intel wyposażonym w procesory Intel Xeon i akceleratory Intel Habana Gaudi AI. Powstały model i potok łączą wygenerowany obraz RGB i mapę głębi, tworząc 360-stopniowe widoki wciągających wrażeń.

Aby zademonstrować potencjał LDM3D, naukowcy z firm Intel i Blockade opracowali DepthFusion, aplikację, która wykorzystuje standardowe obrazy 2D RGB i mapy głębi do tworzenia wciągających i interaktywnych wrażeń wizualnych w zakresie 360 stopni.

DepthFusion wykorzystuje TouchDesigner, wizualny język programowania oparty na węzłach do tworzenia interaktywnych treści multimedialnych w czasie rzeczywistym, do przekształcania komunikatów tekstowych w interaktywne i wciągające wrażenia cyfrowe.

Wprowadzenie LDM3D i DepthFusion toruje drogę dalszym postępom w wizji komputerowej i sztucznej inteligencji z wieloma wyświetlaczami.

Firma Intel będzie nadal badać wykorzystanie generatywnej sztucznej inteligencji w celu zwiększenia ludzkich możliwości i zbudowania solidnego ekosystemu badań i rozwoju sztucznej inteligencji typu open source, który demokratyzuje dostęp do tej technologii.

LDM3D jest odblokowywany przez HuggingFace, umożliwiając naukowcom i praktykom sztucznej inteligencji dalsze ulepszanie tego systemu i dostrajanie go do niestandardowych aplikacji.

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Intel Labs wprowadza nowy model wdrażania sztucznej inteligencji w 3D

Producenci lodówek do telefonów muszą chłodzić całym lodem

Przenieś teraz swoje Amazon Echo: 5 obszarów, których należy unikać

5 niezbędnych gadżetów dla podróżujących: GoPro Hero 11, JBL Charge 5 i nie tylko

Polscy konserwatyści ostrzegają przed „brukselską elitą” przed wyborami

Gadżety: bardziej rygorystyczne zasady dla dostawców urządzeń z dostępem do Internetu w Wielkiej Brytanii

Adele wygląda oszałamiająco w eleganckiej czarno-białej sukience, gdy siedzi na boisku z mężem Richem Paulem na meczu Lakers vs. Nuggets w Los Angeles.

Zwiększ odporność dzięki persimmonom – Wiadomości z supermarketu

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories