Новые достижения «воплощенного интеллекта» Ли Фейфэя! Робот подключается к большой модели и напрямую понимает человеческую речь, а также может выполнять сложные инструкции без предварительной подготовки.

Источник: Кубит

Последние достижения команды Ли Фейфея воплощенный интеллект здесь:

Большая модель подключается к роботу для преобразования сложных инструкций в конкретные планы действий без дополнительных данных и обучения.

С этого момента люди могут свободно использовать естественный язык, чтобы давать инструкции роботам, например:

Открой верхний ящик и берегись ваз!

Большая языковая модель + визуальная языковая модель могут анализировать цель и препятствия, которые необходимо обойти, из трехмерного пространства, помогая роботу планировать действия.

Тогда ключевым моментом является то, что роботы в реальном мире могут выполнять эту задачу напрямую без «обучения».

Новый метод реализует синтез траектории задач ежедневной работы с нулевой выборкой, то есть задачи, которые робот никогда раньше не видел, можно выполнять за один раз, даже не давая ему демонстрации.

Управляемые объекты также открыты, не нужно заранее очерчивать радиус действия, можно открыть бутылку, нажать на переключатель и отсоединить зарядный кабель.

В настоящее время домашняя страница проекта и документы доступны в Интернете, и вскоре будет выпущен код, что вызвало широкий интерес в академическом сообществе.

Бывший исследователь Microsoft прокомментировал: «Это исследование находится на самом важном и сложном рубеже систем искусственного интеллекта.

Что касается сообщества исследователей роботов, некоторые коллеги сказали, что оно открыло новый мир для области планирования движения.

Есть также люди, которые не видели опасности ИИ, но из-за этого исследования ИИ в сочетании с роботами изменили свои взгляды.

**Как робот может напрямую понимать человеческую речь? **

Команда Ли Фейфея назвала систему VoxPoser, как показано на рисунке ниже, ее принцип очень прост.

Во-первых, учитывая информацию об окружающей среде (сбор изображений RGB-D с помощью камеры) и инструкции на естественном языке, которые мы хотим выполнить.

Затем LLM (большая языковая модель) пишет код на основе этого содержимого, и сгенерированный код взаимодействует с VLM (визуальная языковая модель), чтобы направить систему для создания соответствующей карты инструкций по эксплуатации, а именно трехмерной карты значений.

Так называемая 3D-карта ценности, которая является общим термином для карты возможностей и карты ограничений, отмечает как ** «где действовать», так и «как действовать».

Таким образом, планировщик действий перемещается, а сгенерированная 3D-карта используется в качестве целевой функции для синтеза конечной траектории операции, которую необходимо выполнить.

Из этого процесса мы видим, что по сравнению с традиционным методом требуется дополнительное предварительное обучение.Этот метод использует большую модель, чтобы направлять робота, как взаимодействовать с окружающей средой, поэтому он напрямую решает проблему нехватки данных для обучения робота. .

Кроме того, именно благодаря этой функции он также реализует возможность нулевой выборки.Пока описанный выше базовый процесс освоен, любая заданная задача может быть выполнена.

В конкретной реализации автор преобразовал идею VoxPoser в задачу оптимизации, то есть в следующую сложную формулу:

При этом учитывается, что инструкции, данные людьми, могут иметь широкий диапазон и требовать контекстуального понимания, поэтому инструкции разобраны на множество подзадач, например, первый пример в начале состоит из «взять за ручку ящика» и «потянуть за ручку». ящик".

Чего VoxPoser хочет достичь, так это оптимизировать каждую подзадачу, получить серию траекторий робота и, наконец, минимизировать общую рабочую нагрузку и рабочее время.

В процессе использования LLM и VLM для преобразования языковых инструкций в 3D-карты система считает, что язык может передавать богатое семантическое пространство, поэтому она использует «объект интереса(объект интереса)», чтобы направлять робота к opera , то есть через значение, отмеченное в 3DValue Map, чтобы отразить, какие объекты для него «привлекательны», а те объекты «отталкивают».

По-прежнему на примере из начала 🌰 ящик "притягивает", а ваза "отталкивает".

Конечно, как генерировать эти значения, зависит от способности понимания большой языковой модели.

В окончательном процессе синтеза траектории, поскольку выходные данные языковой модели остаются постоянными на протяжении всей задачи, мы можем быстро провести повторную оценку при столкновении с возмущениями, кэшируя ее выходные данные и повторно оценивая сгенерированный код с помощью визуальной обратной связи с обратной связью.

Таким образом, VoxPoser обладает сильной защитой от помех.

△ Поместите макулатуру в синий лоток.

Ниже приведены характеристики VoxPoser в реальных и смоделированных условиях (измеряемые по среднему показателю успешности):

Видно, что она значительно выше, чем базовая задача на основе примитивов, независимо от окружения (с отвлекающими факторами или без них, видны ли инструкции или нет).

Наконец, автор был приятно удивлен, обнаружив, что VoxPoser создал 4 «эмерджентных способности»:

(1) оценить физические характеристики, например, учитывая два блока неизвестной массы, позволить роботу использовать инструменты для проведения физических экспериментов, чтобы определить, какой блок тяжелее;

(2) Поведенческие рассуждения на основе здравого смысла, например, в задаче сервировки посуды, говорят роботу: «Я левша», и он может понять смысл через контекст;

(3) Мелкозернистая коррекция.Например, при выполнении задач, требующих высокой точности, таких как «накрыть чайник», мы можем дать роботу точные инструкции, такие как «вы отклонились на 1 см», чтобы исправить его работу;

(4) Многоэтапные операции, основанные на зрении, например, попросить робота точно открыть ящик пополам.Недостаток информации из-за отсутствия модели объекта может помешать роботу выполнить такую задачу, но VoxPoser может предложить многоступенчатая стратегия работы, основанная на визуальной обратной связи, то есть сначала полностью откройте ящик, фиксируя перемещение ручки, а затем верните ее в среднее положение, чтобы выполнить требования.

Фей-Фей Ли: 3 путеводные звезды компьютерного зрения

Около года назад Ли Фейфей написал статью в Journal of the American Academy of Arts and Sciences, указав на три направления развития компьютерного зрения:

  • Воплощенный ИИ
  • Визуальное мышление
  • Понимание сцены

Ли Фейфэй считает, что воплощенный интеллект относится не только к роботам-гуманоидам, но и к любой осязаемой разумной машине, способной перемещаться в пространстве, — это форма искусственного интеллекта.

Точно так же, как ImageNet стремится представить широкий спектр изображений реального мира, исследования воплощенного интеллекта должны решать сложные и разнообразные человеческие задачи, от складывания белья до исследования новых городов.

Следование инструкциям для выполнения этих задач требует зрения, но не только зрения, но и визуального мышления для понимания трехмерных отношений в сцене.

Наконец, машина должна понимать людей в сцене, включая человеческие намерения и социальные отношения. Например, видя, как человек открывает холодильник, можно сказать, что он голоден, или видя ребенка, сидящего на коленях у взрослого, можно сказать, что они родитель-ребенок.

Роботы в сочетании с большими моделями могут быть лишь одним из способов решения этих проблем.

Помимо Ли Фейфей, в этом исследовании участвовал выпускник Цинхуа Яобань У Цзяцзюнь, который окончил Массачусетский технологический институт со степенью доктора философии и сейчас является доцентом Стэнфордского университета.

Первый автор диссертации, Вэньлун Хуанг, сейчас учится в докторантуре Стэнфорда и участвовал в исследовании PaLM-E во время стажировки в Google.

Адрес бумаги: Домашняя страница проекта: Справочная ссылка: [1] [1]

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить