Niedawnym przełomem w sztucznej inteligencji było znaczenie skali w napędzaniu postępu w różnych dziedzinach. Duże modele wykazały niezwykłe zdolności w zakresie rozumienia języka, generowania, uczenia się reprezentacji, zadań multimodalnych i generowania obrazów. Wraz ze wzrostem liczby możliwych do nauczenia parametrów, nowoczesne sieci neuronowe zużywają ogromne ilości danych. W rezultacie możliwości oferowane przez te modele uległy znacznej poprawie.
Jednym z takich przykładów jest GPT-2, który kilka lat temu przełamał bariery danych, zużywając prawie 30 miliardów tokenów językowych. GPT-2 wykazał obiecujące wyniki bez strzału w testy porównawcze NLP. Jednak nowsze modele, takie jak Chinchilla i LLaMA, przerosły GPT-2, zużywając biliony tokenów indeksowanych w sieci. Z łatwością pokonuje GPT-2 pod względem testów porównawczych i możliwości. W wizji komputerowej ImageNet początkowo składał się z miliona obrazów i był złotym standardem reprezentacji uczenia się. Ale dzięki zestawom danych skalowanym do miliardów obrazów przez indeksowanie sieci, zestawy danych takie jak LAION5B stworzyły potężne reprezentacje wizualne, jak widać w modelach takich jak CLIP. Przejście od ręcznego zbierania zestawów danych do zbierania ich z różnych źródeł w sieci było kluczowe dla tego rozszerzenia z milionów do miliardów punktów danych.
Podczas gdy dane językowe i obrazowe znacznie się powiększyły, inne obszary, takie jak widzenie komputerowe 3D, wciąż muszą nadrobić zaległości. Zadania takie jak tworzenie i rekonstrukcja obiektów 3D opierają się na małych, ręcznie tworzonych zbiorach danych. Na przykład ShapeNet polega na profesjonalnych projektantach 3D, którzy używają drogiego oprogramowania do tworzenia zasobów, co utrudnia proces crowdsourcingu i skalowania. Niedobór danych stał się wąskim gardłem dla metod opartych na uczeniu się w trójwymiarowej wizji komputerowej. Generowanie obiektów 3D wciąż pozostaje daleko w tyle za generowaniem obrazów 2D i często opiera się na modelach trenowanych na dużych zestawach danych 2D, a nie na trenowaniu od podstaw na danych 3D. Rosnące zapotrzebowanie i zainteresowanie technologiami rozszerzonej rzeczywistości (AR) i wirtualnej rzeczywistości (VR) wskazuje na pilną potrzebę rozszerzenia zasięgu danych 3D.
Aby rozwiązać te ograniczenia, naukowcy z Allen Institute for Artificial Intelligence, University of Washington, Seattle, Columbia University, Stability AI, CALTECH i LAION przedstawiają Objaverse-XL jako wielkoskalowy zbiór zasobów 3D przeszukiwanych w sieci. Szybki rozwój narzędzi do tworzenia projektów 3D, w połączeniu z rosnącą dostępnością danych 3D w Internecie za pośrednictwem platform takich jak Github, Sketchfab, Thingiverse, Polycam i niszowych witryn, takich jak Smithsonian Institution, przyczyniły się do powstania Objaverse-XL. Ten zestaw danych zapewnia znacznie większą różnorodność i jakość danych 3D niż poprzednie próby, takie jak Objaverse 1.0 i ShapeNet. Z ponad 10 milionami obiektów 3D, Objaverse-XL stanowi znaczny wzrost rozmiaru, przekraczając poprzednie zestawy danych o kilka rzędów wielkości.
Zasięg i wszechstronność, jaką zapewnia Objaverse-XL, znacznie rozszerzył wydajność nowoczesnych modeli 3D. Warto zauważyć, że model Zero123-XL, który został wstępnie przeszkolony z Objaverse-XL, wykazuje niezwykłe możliwości uogólnienia zerowego strzału w trudnych i złożonych modalnościach. Wyjątkowo dobrze radzi sobie z zadaniami, takimi jak nowe dostrajanie renderowania, nawet przy tak różnych danych wejściowych, jak rzeczywiste zasoby, animacje, grafika i grafiki. Podobnie PixelNeRF, który jest przeszkolony w kompilowaniu nowych widoków z małego zestawu obrazów, wykazuje znaczną poprawę, gdy jest szkolony z Objaverse-XL. Skalowanie danych przedtreningowych z tysiąca oryginałów do 10 milionów konsekwentnie pokazuje poprawę, podkreślając obietnicę i możliwości danych w skali internetowej.
Implikacje Objaverse-XL wykraczają poza sferę modelowania 3D. Jego potencjalne zastosowania obejmują wizję komputerową, grafikę, rzeczywistość rozszerzoną i generatywną sztuczną inteligencję. Rekonstrukcja obiektów 3D z obrazów zawsze stanowiła wyzwanie dla wizji komputerowej i grafiki. Istniejące metody badały różne reprezentacje, architektury sieci i techniki renderowania do przewidywania kształtów i tekstur 3D na podstawie obrazów. Jednak te podejścia opierały się głównie na małych zbiorach danych, takich jak ShapeNet. Dzięki znacznie większemu Objaverse-XL nowe poziomy wydajności i uogólnienia można osiągnąć w sposób zerowy.
Co więcej, pojawienie się generatywnej sztucznej inteligencji w 3D było ekscytującym wydarzeniem. Modele takie jak MCC, DreamFusion i Magic3D pokazały, że kształty 3D można generować na podstawie monitów językowych za pomocą modeli zamiany tekstu na obraz. Objaverse-XL otwiera również możliwości tworzenia tekstu na 3D, umożliwiając postęp w modelowaniu tekstu na 3D. Wykorzystując ogromny i zróżnicowany zestaw danych, badacze mogą odkrywać nowe zastosowania i przesuwać granice generatywnej sztucznej inteligencji w dziedzinie 3D.
Wydanie Objaverse-XL jest kamieniem milowym w dziedzinie zestawów danych 3D. Ich rozmiar, wszechstronność i możliwość szkolenia na dużą skalę obiecują postęp w badaniach i zastosowaniach w zrozumieniu 3D. Chociaż Objaverse-XL jest obecnie mniejszy niż zestaw danych tekstowych o rozmiarze miliarda, jego wprowadzenie toruje drogę do dalszych badań nad dalszym rozszerzaniem zestawów danych 3D i upraszczaniem przechwytywania i tworzenia treści 3D. Przyszłe prace mogą również koncentrować się na wyborze optymalnych punktów danych do szkolenia i rozszerzeniu Objaverse-XL w celu wykorzystania zadań dyskryminacyjnych, takich jak segmentacja i wykrywanie 3D.
Podsumowując, wprowadzenie Objaverse-XL jako ogromnego zestawu danych 3D toruje drogę nowym, ekscytującym możliwościom widzenia komputerowego, grafiki, rzeczywistości rozszerzonej i generatywnej sztucznej inteligencji. Odnosząc się do ograniczeń poprzednich zestawów danych, Objaverse-XL zapewnia podstawę do szkolenia na dużą skalę i otwiera możliwości przełomowych badań i zastosowań 3D.
zeskanuj papier. Cała zasługa tych badań należy się badaczom tego projektu. Nie zapomnij też dołączyć 26 000 + ML Sub RedditI kanał na discordzieI Biuletyn e-mailowygdzie dzielimy się najnowszymi wiadomościami z badań nad sztuczną inteligencją, fajnymi projektami AI i nie tylko.
🚀 Sprawdź 100’s AI Tools w AI Tools Club
Niharika jest stażystką konsultanta technicznego w Marktechpost. Jest studentką trzeciego roku studiów licencjackich i obecnie zdobywa tytuł Bachelor of Technology w Indyjskim Instytucie Technologii (IIT) w Kharagpur. Jest wysoce zmotywowaną osobą, żywo zainteresowaną uczeniem maszynowym, nauką o danych i sztuczną inteligencją, a także zapalonym czytelnikiem najnowszych osiągnięć w tych obszarach.
„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.
More Stories
Najnowsza aktualizacja WhatsApp na iPhone’a wprowadza gorącą zmianę motywu dla milionów użytkowników
Moneythor wita Martina Fricka jako nowego dyrektora generalnego, który ma napędzać strategiczny rozwój
Według IDC · EMSNow dostawy tabletów wykazują oznaki ożywienia w pierwszym kwartale 2024 r