Meta AI wydaje zestaw danych HM3D-Sem, największy w historii zestaw danych dla wnętrz 3D z adnotacjami semantycznymi

Ekspansja zyskała na znaczeniu w wyniku ostatnich przełomów technologicznych. Duże sieci neuronowe zostały przeszkolone w środowiskach 3D przy użyciu głębokiego uczenia ze wzmocnieniem na miliardach etapów doświadczenia, pomagając w rozwoju ucieleśnionych inteligentnych jednostek zdolnych do wykonywania zadań zorientowanych na cel. Aby zapewnić bezproblemowe działanie sieci na tak ogromną skalę, systemy RL muszą być skalowane, aby obejmowały wiele komputerów i dobrze wykorzystywały dostępne zasoby, takie jak procesory graficzne, przy jednoczesnym zachowaniu wydajnego modelu uczenia się. Jednym z najbardziej obiecujących sposobów osiągnięcia tego wskaźnika jest grupowanie go zgodnie z polityką. Te metody łączą doświadczenie z wielu różnych środowisk przy użyciu zasad i aktualizują je o skumulowane doświadczenie.

Ogólnie rzecz biorąc, uczenie się przez wzmacnianie związane z polityką RL jest ogólnie podzielone na dwie kategorie: synchroniczne (SyncOnRL) i asynchroniczne (AsyncOnRL). Najpierw zasady są stosowane do całej partii, tak aby kroki T były zbierane ze wszystkich środowisk N. Są to pierwsze dwa punkty synchronizacji w SyncOnRL. Zaktualizowana polityka opiera się na tym zestawie doświadczeń (T, N). Jednak synchronizacja zmniejsza przepustowość, ponieważ system musi długo czekać na ukończenie najwolniejszego środowiska. Skrajny efekt to termin często używany do opisania tego zjawiska. Eliminując te witryny synchronizacji, AsyncOnRL zmniejsza stres i zwiększa produktywność. W artykule opublikowanym niedawno przez Meta AI i badaczy z Georgia Institute of Technology zespół proponuje wprowadzenie Variable Experience (VER). Ta metoda łączy zalety SyncOnRL i AsyncOnRL, jednocześnie zacierając różnice między nimi. Podobnie jak AsyncOnRL, VER nie używa punktów synchronizacji; Zamiast tego oblicza kolejne kroki działania i środowiska oraz aktualizuje zasady tak szybko, jak to możliwe. VER aktualizuje politykę po zebraniu doświadczenia z bieżącą polityką, tak jak robi to SyncOnRL.

Dwa ważne spostrzeżenia posłużyły za podstawę VER. Po pierwsze, AsyncOnRL zmniejsza efekt stresu, zbierając różne doświadczenia z każdego środowiska (więcej niż szybkie symulowane środowiska i mniej niż wolne środowiska). Drugim wynikiem jest to, że długość odejmowania jest stała zarówno dla SyncOnRL, jak i AsyncOnRL. Chociaż konkretna długość odejmowania może ułatwić implementację, zdaniem badaczy nie jest to konieczne dla RL. Te dwa krytyczne wyniki skłoniły do opracowania eksperymentu zmiennego (VER) lub praktyki dodawania i odejmowania o różnej liczbie etapów. Zgodnie z częstotliwością symulacji, VER dostosowuje czas trwania odejmowania dla każdego środowiska. Rezultatem jest system RL, który przezwycięża ekstremalne wpływy i utrzymuje wydajność próbki, ucząc się na podstawie istniejących danych dotyczących polityki. VER skupia się na efektywnym wykorzystaniu pojedynczego GPU. Naukowcy połączyli VER ze zdecentralizowaną technologią rozproszoną przedstawioną w: [Wijmans et al., 2020] Aby umożliwić wydajne skalowanie wielu procesorów graficznych.

READ Jaguar jest „zbyt szybki i przerażający”, ale nie dla swojego właściciela Invercargilla

Po przeprowadzeniu kilku ocen eksperymentalnych naukowcy doszli do wniosku, że VER zapewnia znaczne i spójne przyspieszenie w szerokim zakresie zadań nawigacji mobilnej i manipulacji w realistycznych ustawieniach symulacji 3D. W szczególności VER jest 60-100% szybszy (przyspieszenie 1,6-2x) niż DD-PPO, obecny stan techniki dla rozproszonego SyncOnRL, z wydajnością próbki równoważną nawigacji PointGoal i ObjectGoal w Habitat 1.0. W porównaniu do DD-PPO, Habitat 2.0 VER jest 150% szybszy (przyspieszenie 2,5x) na jednym GPU i 170% szybszym (przyspieszenie 2,7x) na 8 GPU do zadań manipulacji mobilnych (lodówka/otwarta szafka, wybór/umieszczanie obiektów) . Dzięki ulepszonej wydajności próbkowania, VER jest o 70% szybszy (przyspieszenie 1,7x) na 8 procesorach graficznych z SampleFactory, najbardziej zaawansowanego obecnie dostępnego AsyncOnRL.

Zespół wykorzystał te akceleratory do trenowania zdolności sekwencyjnych w zadaniach przestawiania celów geometrycznych w Home Assistant Benchmark (HAB). Odkryj niesamowity wygląd nawigacji w funkcjach niewymagających nawigacji. Wybór talentów w szczególności polega na tym, że robot wybiera coś ze stołu. Robot nigdy nie musiał się poruszać podczas treningu, ponieważ zawsze rodził się przy stole. Jednak robot uczy się eksplorować, a następnie wybierać obiekt w nieznanym otoczeniu z 50% sukcesem, co według naukowców zaskakująco wykazuje uogólnienie braku dystrybucji, zakładając, że ruch podstawy jest osadzony w przestrzeni roboczej. VER może być bardzo przydatny podczas wyszukiwania rearanżacji. Zapewniając dostęp do działań nawigacyjnych, pomaga zdefiniować wygląd nawigacji w zasadach, które rzekomo nie wymagają nawigacji. W rezultacie w Tidy House poczyniono znaczne postępy (+30% sukcesu), ale pokazuje to również, że nie zawsze najlepiej jest eliminować „niepotrzebne działania”.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'VER: Scaling On-Policy RL Leads to the Emergence of Navigation in Embodied Rearrangement'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, github link and project.

Please Don't Forget To Join Our ML Subreddit

READ Nowe iPhone’y Apple’a zabłysną, ale magia tkwi w starszych modelach

Khushbu Gupta jest stażystą konsultanta w MarktechPost. Obecnie kontynuuje studia licencjackie na indyjskim instytucie technologii (IIT) w Goa. Pasjonuje się uczeniem maszynowym, przetwarzaniem języka naturalnego oraz tworzeniem stron internetowych. Lubisz uczyć się więcej o dziedzinie technicznej, biorąc udział w wielu wyzwaniach.

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

Meta AI wydaje zestaw danych HM3D-Sem, największy w historii zestaw danych dla wnętrz 3D z adnotacjami semantycznymi

Zobacz, jak aktualizacja nowej generacji Fallouta 4 wypada w porównaniu ze starszą wersją

Wskazówki, spinogramy i odpowiedzi z New York Times na piątek, 26 kwietnia

Amcor przedstawia pieluchy Huggies wykonane w 30% z recyklingu

Polska dmie w trąby Van Gogha, które kiedyś sprzedawano za piwo

Citigroup oczekuje obecnie obniżek stóp procentowych o 100 punktów bazowych w tym roku począwszy od lipca

Złudzenie optyczne ujawnia, czy jesteś „zamknięty i odizolowany”, czy też masz bardzo „towarzyską” osobowość… co widzisz jako pierwsze?

Ostrzeżenia i środki ostrożności dotyczące nowszych metod leczenia łuszczycy

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories