Город, который вас узнаёт: как российский стартап сделал мегаполисы умнее
Игрушка, которая оказалась не игрушкой
Артём Кухаренко окончил факультет вычислительной математики и кибернетики МГУ. Он умел делать одну вещь лучше большинства коллег: понимал, как учить нейросеть видеть лица. В 2015 году вместе с предпринимателем Александром Кабаковым они основали NtechLab, а вскоре запустили FindFace — сервис, который по одной фотографии находил человека в базе «ВКонтакте».
За три месяца сервис набрал больше миллиона активных пользователей. Для массовой аудитории это выглядело как магия: загружаешь снимок — и алгоритм находит человека в базе из сотен миллионов профилей. Исследователи из Google и Facebook наблюдали за результатами и делали пометки: алгоритм NtechLab в семи независимых тестах оказался лучшим в мире, в трёх из них установил рекорды за всю историю испытаний.
Тогда никто особенно не думал о том, что произойдёт дальше. Сервис казался забавной социальной игрушкой — познакомиться с незнакомкой в метро, вспомнить, кто стоял рядом на фотографии с корпоратива. Однако за этим развлечением стоял совершенно реальный технологический прорыв, который вышел далеко за рамки развлечения.
Как нейросеть видит лицо
Важно понять одну вещь: нейросеть не «видит» лицо так, как видит его человек. Она не запоминает цвет глаз и форму носа — она переводит изображение в числовой вектор, своеобразный математический отпечаток из сотен параметров. Два снимка одного человека дадут похожие векторы; снимки разных людей — разные. Вся задача обучения — сделать расстояние между «своими» как можно меньше, а между «чужими» как можно больше.
Кухаренко описывал это без украшений: команда поставила много экспериментов с архитектурой, добившись скорости и точности, при которых алгоритм находит конкретного человека за полсекунды по базе из миллиарда лиц. Это результат реальных замеров на конкурсных тестах с открытыми датасетами. Для сравнения: предыдущее поколение систем тратило секунды и работало с базами в несколько миллионов записей.
Обучение такой сети требует огромных массивов размеченных фотографий. Для ранних версий использовались публичные изображения из социальных сетей: миллионы лиц с подписями, которые система воспринимала как обучающие примеры. Именно поэтому первый продукт и был направлен на «ВКонтакте» — там уже лежало то, что нужно для обучения. Данные и алгоритм оказались в одном месте.
От вирусного сервиса к городской системе
В июле 2018 года FindFace для обычных пользователей прекратил работу. Официальная формулировка — завершение проекта. Реальная причина — переход на корпоративный рынок оказался выгоднее и значительнее, чем потребительский сервис с неочевидной монетизацией. Под брендом FindFace Enterprise та же нейросеть продолжила жить в государственных и корпоративных системах.
К тому моменту власти Москвы уже протестировали технологию на Чемпионате мира по футболу 2018 года. Камеры у входов на стадионы сравнивали лица болельщиков с базой разыскиваемых. Первый публичный итог — несколько задержаний непосредственно на входах в спортивные объекты. Ещё до чемпионата пробный запуск системы привёл к аресту людей, скрывавшихся от правосудия долгие годы.
С 1 января 2020 года Москва перевела систему в постоянный режим. Городские камеры — к тому времени их было уже больше ста тысяч — начали в реальном времени сравнивать лица горожан с базами полиции. Помимо NtechLab, к городской системе подключились VisionLabs и Tevian. Технология перестала быть экспериментом — она стала инфраструктурой.
Параллельная история: банки и голос
Пока NtechLab строила систему городского контроля, другие команды работали над задачей, которая на первый взгляд выглядела прозаичнее: как дать человеку возможность открыть счёт в банке, не приходя в отделение. Задача оказалась сложнее, чем казалось, — и не технически, а организационно.
В 2018 году «Ростелеком» по поручению Минцифры и Центрального банка запустил Единую биометрическую систему. Схема работала так: один раз прийти в банк, сдать фотографию и запись голоса. После этого — открывать счета, брать кредиты и переводить деньги удалённо, в любом подключённом банке. За доступ к данным гражданина банки платили 200 рублей за запрос — сумма небольшая, однако именно она превратила биометрию в коммерческую инфраструктуру с понятной экономикой.
В «Почта Банке» пошли дальше: пятьдесят тысяч рабочих мест оснастили камерами. В банке существовало три отдельных базы — фотографии сотрудников, клиентов и известных мошенников. Каждое изображение зашифровано. Перед началом рабочего дня сотрудник вводил пароль и фотографировал себя: система сверяла два слоя идентификации одновременно. Это звучит как параноидальная процедура, однако для банка с разветвлённой региональной сетью и высоким уровнем мошенничества по документам — вполне рациональное решение.
Пороги, камеры и человеческий фактор
За красивыми демонстрационными роликами, где алгоритм мгновенно узнаёт человека в толпе, скрывается довольно неромантичная инженерная кухня. Любая система распознавания работает с порогом уверенности: если сходство выше 80% — это, вероятно, один человек; ниже 60% — нет. Между ними лежит зона неопределённости, где алгоритм говорит «похоже, но не уверен». Оператор решает, где провести черту.
Слишком высокий порог — система пропустит нужного человека, потому что он чуть иначе сидит на старом фото из базы. Слишком низкий — задержат невиновного, потому что алгоритм решил, что два похожих человека это один. Главная проблема в реальных системах не нейросеть, а качество исходных данных: камера с плохим объективом, плохое освещение, устаревшее фото — всё это снижает точность сильнее, чем любые недостатки архитектуры модели.
VisionLabs решала смежную задачу: как отличить живого человека от фотографии, 3D-маски или видеозаписи. Компания победила в международном конкурсе по защите от спуфинга, алгоритм Liveness с высокой точностью распознавал подмену.
В метро, магазинах и аэропортах
В ритейле системы распознавания лиц начали использоваться для борьбы с шоплифтингом: человек, пойманный на краже однажды, попадает в чёрный список. При следующем визите в любой магазин сети охрана получает оповещение ещё у входа. К 2019 году система «Стоп шоплифтер» на базе алгоритмов NtechLab работала в более чем 300 магазинах 14 сетей по всей России.
В московском метро биометрия появилась в рамках проекта «Лицо вместо билета». Турникет узнаёт пассажира и списывает деньги со счёта без физического контакта с картой или телефоном. Первые пилоты запускались на отдельных станциях. Главным препятствием оказалась не технология, а психологический барьер: люди привыкли к конкретному физическому действию — приложить карту. Абстрактный проход «просто так» у части пассажиров вызывал тревогу.
В аэропортах биометрия позволила ускорить посадку. «Центр речевых технологий» ещё в середине 2010-х внедрял голосовую идентификацию в аэропорту Южно-Сахалинска. С тех пор системы стали значительно сложнее: современный контроль в крупных аэропортах объединяет сравнение лица с паспортом, проверку по базам безопасности и анализ поведения в зоне ожидания — всё это параллельно и за секунды, пока пассажир подходит к стойке.
Что дальше
Основатели NtechLab Кухаренко и Кабаков покинули компанию и уехали из России после 2022 года. Технология, которую они создали, продолжает работать под управлением новой команды. Это стандартная история для технологических компаний: продукт переживает своих создателей. Алгоритмы NtechLab к тому времени использовали около тысячи организаций из более чем шестидесяти стран, включая Intel, SpaceX, Dell.
Следующий фронтир — не точность распознавания лиц, она уже достаточно высока, а контекст. Системы учатся видеть не только «кто это», но и «что происходит»: опасная ли ситуация, не упал ли человек, нет ли признаков агрессии в толпе. Это видеоаналитика поведения: она требует другого набора данных и другой архитектуры моделей. Несколько российских команд работают в этом направлении сегодня, и результаты уже встраиваются в городские системы управления.
Город, который вас узнаёт, давно перестал быть метафорой. Вопрос теперь в другом: насколько хорошо город понимает то, что видит — и как он использует это понимание.