DeepMind's Perceiver AR: krok w kierunku wydajniejszej sztucznej inteligencji

DeepMind-2022-ar-architektura — Architektura DeepMind i Perceiver AR firmy Google Brain zmniejsza zadanie obliczania harmonicznej natury wejść i wyjść w przestrzeni utajonej, ale wraz z rozwojem, że przestrzeń utajona zawiera „maskowanie przyczynowe”, aby dodać autoregresyjną kolejność transformatora modelowego.

DeepMind / Mózg Google

Jednym z irytujących aspektów popularnego sektora uczenia głębokiego sztucznej inteligencji jest większy rozmiar oprogramowania. Eksperci w tej dziedzinie twierdzą, że zadania obliczeniowe muszą być coraz większe, ponieważ rozmiar ma znaczenie.

Takie coraz większe programy zużywają zasoby, a to jest ważny problem w etyce głębokiego uczenia się dla społeczeństwa i jest to dylemat, który przykuł naszą uwagę Popularne czasopisma naukowe, takie jak Nature.

Dlatego warto w każdej chwili poruszyć pojęcie efektywności, jak w Czy możemy uczynić ten program AI bardziej wydajnym?

Naukowcy z DeepMind i z działu mózgu w Google zaadaptowali ostatnio sieć neuronową Wprowadzony w zeszłym roku Perceiveraby był bardziej wydajny pod względem wymagań dotyczących zasilania komputera.

Nowy program, Perceiver AR, został nazwany ze względu na „autoregresyjny” aspekt rosnącej liczby programów głębokiego uczenia się. Autoregresja to technika polegająca na tym, że maszyna wykorzystuje swoje dane wyjściowe jako nowe dane wejściowe do programu, iteracyjny proces, który tworzy mapę uwagi pokazującą, jak wiele elementów jest ze sobą powiązanych.

Również: Google Supermodel: DeepMind Perceiver to krok na drodze do maszyny AI, która może przetwarzać wszystko i wszystko

Transformer, popularna sieć neuronowa wprowadzona przez Google w 2017 roku, ma ten autoregresywny aspekt. Od tego czasu robi to wiele modeli, w tym GPT-3 I pierwsza wersja Perceivera.

Perceiver AR podąża za drugą wersją Perceivera, zwaną Perceiver IO, wprowadzoną w marcu, a oryginalny Perceiver rok wcześniej w tym miesiącu.

Innowacją oryginalnego Perceivera było zabranie transformatora i zmodyfikowanie go, aby mógł zużywać wszelkiego rodzaju Wejściew tym głos tekstu i obrazów, w elastycznej formie, zamiast ograniczania się do określonego typu danych wejściowych, dla których zwykle tworzone są oddzielne typy sieci neuronowych.

Perceiver to jeden z rosnącej liczby programów, które wykorzystują automatyczne mechanizmy uwagi regresywnej, aby mieszać różne metody wprowadzania danych i różne obszary zadań. Inne przykłady obejmują ścieżki Google i DeepMind Gatoi Meta 2vec. dane.

Również: „Gato” DeepMind jest skromny, więc dlaczego go zbudowali?

Następnie, w marcu, ten sam zespół Andrew Geigla i współpracowników zbudował Perceivera, Przedstaw wersję „IO”który poprawił się Produkować Od postrzegania do przyjmowania czegoś więcej niż tylko klasyfikacji, osiągania szeregu wyników o wszelkiego rodzaju strukturze, od wyników w języku tekstowym przez pola przepływu wizualnego, przez sekwencje audiowizualne, po nieuporządkowane zestawy tokenów. Potrafi nawet stworzyć akcję w StarCraft II.

Teraz w gazecie Modelowanie autoregresyjne z długim kontekstem ogólnego przeznaczenia z wykorzystaniem Perceiver ARGeigl i jego zespół mierzą się z pytaniem, jak modele powinny się rozwijać, gdy stają się coraz bardziej ambitne w multimedialnych zadaniach wejścia i wyjścia.

Problem z jakością automatycznej regresji przełącznika i każdego innego oprogramowania, które buduje mapę zainteresowań od wejścia do wyjścia, polega na tym, że wymaga ogromnej skali dystrybucji na setki tysięcy elementów.

Jest to pięta achillesowa uwagi, a konkretnie potrzeba zwracania uwagi na wszystko i na wszystko w celu złożenia rozkładu prawdopodobieństwa, który tworzy mapę uwagi.

Również: „Dane 2vec” Meta to krok w kierunku jednej sieci neuronowej do kontrolowania wszystkiego

Jak powiedzieli Jaegle i jego zespół, staje się to coraz większym koszmarem w terminologii komputerowej, ponieważ liczba rzeczy do porównania na wejściu wzrasta:

Istnieje napięcie między tego rodzaju architekturą kontekstową o długiej formie a właściwościami obliczeniowymi transformatorów. Transformatory często stosują proces zwracania uwagi na swoje dane wejściowe: prowadzi to do wymagań obliczeniowych, które rosną jednocześnie kwadratowo z długością wejściową i liniowo z głębokością modelu. W miarę jak dane wejściowe wydłużają się, potrzeba więcej tokenów wejściowych do ich monitorowania, a gdy wzorce w danych wejściowych stają się bardziej dopracowane i złożone, do modelowania wzorców wynikowych potrzebna jest większa głębia. Ograniczenia obliczeniowe zmuszają użytkowników transformatora do obcinania danych wejściowych modelu (uniemożliwiając mu obserwowanie wielu rodzajów wzorców dalekiego zasięgu) lub ograniczania głębokości modelu (pozbawiając go mocy ekspresyjnej potrzebnej do modelowania złożonych wzorców).

W rzeczywistości oryginalne urządzenie odbierające poprawiło wydajność przełączników, zwracając uwagę na utajoną reprezentację sygnału wejściowego, zamiast skupiać się bezpośrednio. To przyniosło efekt.”[decoupling] Wymagania obliczeniowe do przetwarzania większego zakresu danych wejściowych niż te wymagane do bardzo głębokiej sieci. ”

wizualizuj-ar-graf-porównaj-transformator — Perceiver AR w porównaniu ze standardowym Transformer Deep Grid i Enhanced Transformer XL.

DeepMind / Mózg Google

Ukryta część, gdy reprezentacje danych wejściowych są kompresowane, staje się swego rodzaju bardziej wydajnym napędem uwagi, tak że „w głębokich sieciach subiektywny stos uwagi jest miejscem, w którym odbywa się większość obliczeń”, zamiast pracować na niezliczonych danych wejściowych. .

Wyzwaniem pozostaje jednak to, że postrzegający nie może generować sygnału wyjściowego w sposób, w jaki robi to przetwornik, ponieważ ta utajona reprezentacja nie ma poczucia porządku, a porządek jest niezbędny w spontanicznej regresji. Każdy produkt ma być produktem tego, co przyszło Zanim jeszcze nie.

Również: Google przedstawia „Pathways”, nową generację sztucznej inteligencji, którą można wytrenować do wielozadaniowości

„Jednakże, ponieważ każdy model ukryty zajmuje się wszystkimi danymi wejściowymi niezależnie od pozycji, obserwacji nie można bezpośrednio wykorzystać do samodzielnego generowania, co wymaga, aby każdy wynik modelu był zależny tylko od danych wejściowych, które go poprzedzają w kolejności”, piszą.

Dzięki Perceiver AR zespół idzie dalej i wprowadza je zaszeregowanie w Perceiverze, aby umożliwić mu tę funkcję autoregresji.

Kluczem jest tak zwane „maskowanie przyczynowe” każdego z wejść, gdzie „wzajemna uwaga”, ukryta reprezentacja, ma na celu zmuszenie programu do zwracania uwagi tylko na rzeczy, które poprzedzają dany kod. Takie podejście przywraca jakość przetwornika kierunkowego, ale znacznie mniejszym kosztem.

Rezultatem jest możliwość robienia tego, co robi przełącznik na wielu wejściach, ale ze znacznie lepszą wydajnością.

„Perceiver AR może nauczyć się w pełni rozpoznawać wzorce długiego kontekstu na odległość co najmniej 100 000 tokenów w zadaniu kopiowania syntetycznego”, piszą, wbrew ustalonemu limitowi 2048 tokenów przełącznika, gdzie więcej tokenów oznacza dłuższy kontekst, co powinno oznaczać większą złożoność w wynikach programu.

Również: Sztuczna inteligencja w sześćdziesiąt sekund

Perceiver AR robi to z „ulepszoną wydajnością w porównaniu z powszechnie stosowanymi architekturami Transformer i Transformer XL szeroko stosowanych dekoderów oraz możliwością zmiany obliczeń wykorzystywanych w czasie testu, aby dopasować je do docelowego budżetu”.

W szczególności, czas zegara ściennego obliczeń Perceiver AR, jak napisali, drastycznie spadł przy tym samym poziomie zainteresowania i możliwości posiadania większej ilości kontekstu – więcej kodu wejściowego – przy tym samym budżecie obliczeniowym:

Przełącznik jest ograniczony do długości kontekstu 2048 tokenów, nawet przy zaledwie 6 warstwach – większe modele i większe długości kontekstu wymagają dużej ilości pamięci. Korzystając z tej samej 6-warstwowej konfiguracji, możemy skalować pamięć Transformer-XL do łącznej długości kontekstu 8192. Perceiver AR skaluje się do długości kontekstu 65 tys. i może być skalowany do ponad 100 tys. kontekstu przy dalszej optymalizacji.

Wszystko to oznacza elastyczność obliczeniową: „Daje nam to większą kontrolę nad tym, ile mocy obliczeniowej wykorzystuje dany model w czasie testowania i pozwala nam na kompromis między szybkością a wydajnością”.

Geigl i koledzy piszą, że podejście to może być stosowane do każdego typu danych wejściowych, a nie tylko kodów słownych, na przykład pikseli obrazu:

Tę samą procedurę można zastosować do każdego wpisu, którego można zażądać, o ile stosowane jest maskowanie. Na przykład kanały RGB obrazu można ułożyć w porządku rastrowym, dekodując kanały kolorów R, G i B każdego piksela w sekwencji lub nawet w różnych permutacjach.

Również: Etyka sztucznej inteligencji: korzyści i zagrożenia związane ze sztuczną inteligencją

Autorzy widzą w Perceiver ogromny potencjał do poruszania się w różne miejsca i piszą, że „Perceiver AR jest dobrym kandydatem do ogólnego modelu autoregresji z długim kontekstem”.

Istnieje jednak dodatkowa fala we współczynniku wydajności komputera. Autorzy zauważają, że w ostatnich próbach podjęto próbę zmniejszenia budżetu obliczeniowego dla automatycznej regresji za pomocą „wariancji”, procesu określania, którym elementom wejściowym przypisuje się wagę.

wizualizuj-ar-ścienny-zegar-czas-porównaj — W tym samym czasie, co zegar ścienny, Perceiver AR może uruchamiać więcej tokenów z danych wejściowych na tej samej liczbie warstw lub uruchamiać tę samą liczbę tokenów wejściowych, wymagając mniej czasu obliczeniowego — elastyczność, która według autorów może być podejściem ogólnym do osiągnięcia największej wydajności w dużych sieciach.

DeepMind / Mózg Google

Ma to pewne wady, głównie zbyt surowe. „Wadą metod wykorzystujących wariancję jest to, że wariancję należy ustawić ręcznie lub wygenerować za pomocą heurystyki, która często jest specyficzna dla domeny i może być trudna do dostrojenia” – napisali. Obejmuje to wysiłki takie jak OpenAI i Nvidia 2019”rzadki adapter. „

„W przeciwieństwie do tego, nasza praca nie narzuca ręcznie wykonanego wzoru rozpraszania na warstwach uwagi, ale raczej pozwala sieci wiedzieć, które dane wejściowe z długiego kontekstu należy uwzględnić i rozpowszechnić w sieci” – napisali.

„Proces początkowej współobecności, który zmniejsza liczbę pozycji w sekwencji, można uznać za formę wyuczonej wariancji” – dodają.

Nabyta w ten sposób zmienność może sama w sobie stanowić potężne narzędzie w zestawie narzędzi modeli głębokiego uczenia się w nadchodzących latach.

Vasya Lebedev

„Nieuleczalny myśliciel. Miłośnik jedzenia. Subtelnie czarujący badacz alkoholu. Zwolennik popkultury”.

READ Microsoft musiał użyć zestawów deweloperskich Xbox, aby uruchomić cykl „Halo Infinite”

DeepMind’s Perceiver AR: krok w kierunku wydajniejszej sztucznej inteligencji

Badanie wykazało, że węgiel aktywowany z łupin ziaren palmowych zwiększa magazynowanie metanu

64 GB LPDDR5X za 330 dolarów

Leica Microsystems dodaje mikroskopię Viventis do swojego portfolio

Wyjaśnienie: Co wyrok więzienia Franka Bainimaramy może oznaczać dla polityki Fidżi?

Warner Bros Discovery ustala datę premiery Maxa we Francji, Polsce, Holandii i Belgii

BBVA ogłasza wrogą ofertę przejęcia Sabadell

Eurowizja 2024: Kim jest Bambi Thug? Zgłoszenie do konkursu piosenki irlandzkiej zaniemówiło wśród fanów

Dodaj komentarz Anuluj pisanie odpowiedzi

More Stories