Умный ИИ в глупом теле — и наоборот: почему (пока) нет по-настоящему реалистичных роботов

Разработчики всё ещё не могут совместить реалистичную внешность и умение общаться в машинах. В чём фундаментальная проблема — разбирают эксперты Лаборатории геймификации Сбера Нильс Кловайт и Мария Ерофеева.

В Лаборатории Сбера мы внедряем игровые механики в самые разные сферы: в рекрутинг, образование, рутинные задачи сотрудников. Например, создаём реалистичные аватары и симуляции, которые помогают вовлечь пользователей в игровой процесс. Для этого в команде работают не только разработчики, но и дизайнеры, педагоги, психологи и исследователи.

Если с промышленным применением роботов (в виде технологичной замене станков) всё понятно, то зачем производители выпускают их для повседневной жизни? Сегодня для роботов среди людей есть два применения.

Голосовые помощники

Ассистенты вроде «Алисы», Siri или Google Duplex — самые успешные среди «умных» агентов. Их проще разрабатывать, чем полноценных человекоподобных роботв, и при этом они ощущаются реалистичнее (об этом позже). Помощники успешно встроились в нашу жизнь и настолько хорошо имитируют живое общение, что порой их сложно отличить от человека.

ECA

Embodied Conversational Agents — это разговорный агент (например, чат-бот интернет магазина, отвечающий на поврос «Где мой заказ?» — это тоже он) в любой визуальной форме, будь это аватар, робот, голограмма или коробка с глазами. Например, исследователи создают агентов, которые помогают учиться или поддерживать физическое и ментальное здоровье пользователей.

ECA на сайтах и в приложениях по структуре чаще всего выглядит так

Наша лаборатория занимается конкретно направлением ECA. Мы хотим создать «новое слово» в бестелесных роботах, научить их общаться так, чтобы они были действительно полезными, приятными и экономили всем время.

Зачем усложнять агентов

Сейчас все хотят создавать реалистичных роботов, с телесным воплощением, движениями глаз, эмоциями и т.д. Это не просто прихоть или веяние времени, такая потребность лежит в двух плоскостях — технической и теоретической.

  • Техническая. Раньше было невозможно сделать гиперреалистичных аватаров. Сейчас мы можем больше: и с точки зрения внешности, и с точки зрения поведения. В этом помогают 3D-моделирование, нейронные сети и различные версии семантического парсинга речи пользователя (роботов, например, можно научить понимать шутки или сарказм).
  • Теоретическая. Разработчики проверяют, насколько увеличение реализма приятно или наоборот, отталкивает пользователя, нравится ли людям общаться с такими роботами. И, вы знаете? — Да, люди любят реализм!

Только вот в постоянно усложняющихся сценариях есть одна фундаментальная проблема.

Дисбаланс внутреннего и внешнего реализма

Нельзя успеть всё и сразу, приходится выбирать. С одной стороны, разработчики усложняют системы искусственного интеллекта. Они пытаются повысить внутренний реализм, чтобы система напоминала работу человеческого мозга. С другой, людям важен внешний реализм — именно это главный фактор в том, как человек отнесётся к общению с роботом. «Ум» машины должен соответствовать её телесной внешности.

Например, тамагочи не нужен антропоморфный вид, так как игрушка примитивная. Но при этом она воспринимается естественной из-за соответствия внутреннего и внешнего. В этом и кроется баланс, который нужно учитывать при создании роботов.

Тот самый тамагочи ощущался очень живым. Хотя технически был примитивен донельзя

Если задаться целью сделать робота максимально умным, вам придётся окунуться в омут когнитивных архитектур. Они позволяют моделировать целые социальные миры, состоящие из реалистичных по поведению искусственных агентов. То есть это такой базис, который позволяет роботам принимать решения, понимать разговорный человеческий язык и работать автономно, без участия человека и скриптов.

Архитектуры начали использовать в конце 20-го века для управления сложными «умными» системами. К примеру, Soar использовался для обучения военных лётчиков и симуляции логики воздушных битв.

Эта технология базируется на научных исследованиях из сфер нейропсихологии и нейрофизиологии — но она настолько сложная, что её редко применяют при создании аватаров. Когнитивные архитектуры «едят» очень много процессорной мощности из-за сложности, для простых игр их использовать нецелесообразно.

Такие архитектуры внутренне максимально реалистичные, но совершенно непонятно, насколько это передается пользователю и сможет ли он вообще почувствовать разницу, понять, насколько «умнее» стал его собеседник-робот.

Проблема мультимодальности

Современные технологии позволяют создать визуально довольно реалистичных роботов. Например, в декабре 2021 года компания Engineered Arts представила робота с реалистичной мимикой, но он не умеет почти ничего, кроме как «по-человечески» просыпаться. Другие действия за него осуществляет «скрытый» оператор. Это скорее игрушка, чем реальный агент, с которым можно вступать в коммуникацию.

То есть технически можно создать антропоморфного робота, но не особо «умного». Или наоборот. Здесь возникают противоречия между коммуникативным и визуальным реализмом — от робота с внешностью человека ожидают, что он будет до мелочей действовать и соображать, как человек. А вот умная колонка на столе, в которой, кажется, нет ничего, помимо микросхемы, динамика и аккумулятора, своей живой речью стабильно приятно удивляет. Потому что от неё ничего экстраординарного на подсознательном уровне уже не ждут.

  1. Внешняя реалистичность + глупость робота

В этом случае пользователь сразу почувствует недоверие к аватару, который выглядит как человек, но действует на уровне пятилетнего ребёнка или вовсе не похож на человека своими способностями. Такие роботы всегда действуют людям на нервы или служат объектом для шуток.

Чем реалистичнее внешность, тем выше ожидания пользователей. К примеру, если у агента есть лицо, ожидается, что оно будет по-человечески реагировать: отслеживать направление взгляда, выражать эмоции с помощью мимики и прочее — и всё это не случайным образом, а уместно и вовремя. На сегодня это технически невыполнимо.

  1. Супер-сообразительность робота + технические трудности

Разработчики могут создать для говорящих машин сложную когнитивную архитектуру, за счёт которой робот будет вести себя очень логично и «разумно», практически по-человечески. Но всё это трудно воплотить в движениях, мимике и других визуальных деталях тела робота. Технологии пока не позволяют систему, которая бы позволяла качественно переводить с «роботического» языка на человеческий.

Например, вы изобрели робота и продумали формулу, которая учитывает десятки факторов и учит машину правильно определяться со своими «эмоциями». А вы уверены, что это будет ощущаться людьми на практике? По-настоящему умные роботы, как показывают исследования, зачастую кажутся людям такими же реалистичными, как и совсем простые, поэтому пока нет экономического смысла вкладываться в настоящий «разум» аватаров.

Насколько мы далеки от идеала

Главная идея сейчас — найти баланс внутреннего и внешнего реализма, и для этого необходимы исследования и научные разработки. На данном этапе развития технологий важно понять, насколько «гонка за реализмом» целесообразна.

Когда роботы превращаются из промышленных станков в гаджеты или собеседников людей, приходит время задуматься: что нужно, а что не нужно делать, чтобы робот ощущался реалистичным? что нужно учесть, чтобы роботы не терялись в беседе, начиная с реплик и продолжая этикетом? как научить машину так же естественно и свободно ориентироваться в пространстве, как это делает человек?

Ответы на эти вопросы имеют прямое значение для разработки. Иногда лучше сделать тамагочи, чем очередного антропоморфного робота, который умеет только моргать.