Новый алгоритм Google для отслеживания движений

Поначалу в смарт-очках, для ввода информации пользователем, использовались трекпады, портативные или носимые контроллеры. Тем не менее, интерфейсы управления жестами HoloLens 2 и Magic Leap One определяют будущее системы ввода смарт-очков.

Новая модель машинного обучения, разработанная исследовательской группой Google, позволяет реализовывать сложные системы управления жестами, обычно используемые в высококлассных AR системах, в недорогих очках без дополнительных затрат на специальные датчики глубины и движения.

Новая модель машинного обучения, разработанная исследовательской группой GoogleНовая модель машинного обучения, разработанная исследовательской группой Google

На этой неделе команда разработчиков ПО Google AI представила свой новейший метод для отслеживания движения рук и пальцев, который использует открытый кроссплатформенный фреймворк MediaPipe с открытым кодом, для обработки видео с мобильных устройств (не в облаке) и мгновенного создания карты руки и пальца из 21 точки посредством моделей машинного обучения.

«Мы надеемся, что распространение этого алгоритма по распознаванию рук широкому сообществу исследователей и разработчиков приведет к появлению случаев творческого использования, стимулируя новые приложения и новые направления исследований», — написала команда в блоге, подробно описывая свой подход.

Метод отслеживания рук и пальцев Google фактически разделяет задачу на три модели машинного обучения. Вместо того, чтобы использовать модель машинного обучения для распознавания самой руки, которая поддается широкому спектру размеров и поз, исследователи Google вместо этого использовали алгоритм обнаружения ладоней. Используя этот подход, команда достигла средней точности почти 96%.

Новая модель машинного обучения, разработанная исследовательской группой GoogleНовая модель машинного обучения, разработанная исследовательской группой Google

При обнаружении ладони, другая модель машинного обучения идентифицирует 21 координатную точку кисти и костяшки кисти руки или кисти руки в поле зрения камеры. Третий алгоритм предполагает просмотр жеста, записывая позу для каждого пальца и сопоставляя ее с заранее определенными жестами, с подсчетом жестов и различными поддерживаемыми знаками кисти.

Другими словами, такой подход к машинному обучению может применяться на устройствах Android или iOS без специальных датчиков движения или глубины. Кроме того, команда делает модель общедоступной и с открытым исходным кодом, чтобы ее могли использовать другие разработчики и исследователи. Группа также планирует со временем повысить точность и производительность алгоритма.

В ближайшем будущем, этот алгоритм сможет помочь разработчикам в построении AR опыта, аналогичного опыту на Snapchat и Facebook, который поддерживает распознавание и отслеживание рук в эффектах для камеры.

Google также может использовать эти технологии в совместной работе с солярным радарным датчиком Soli на Pixel 4 для создания уникальных возможностей AR, сходных с Animojis на iPhone X серии, использующих ARKit Apple и камеру TrueDepth.

Однако, более серьезное значение, которое несет в себе эта разработка, это то, что машинный подход к обучению может дать умным очкам. Даже отказавшись от датчиков движения и глубины, производители оборудования смогут приблизиться к методам ввода данных пользователя HoloLens 2 и Magic Leap One.

Все больше и больше технологических компаний полагаются на искусственный интеллект для решения задач, связанных с функциональностью и форм-фактором AR.

Даже компания Microsoft сочетает подход ARKit и ARcore, использующий искусственный интеллект для обнаружения поверхностей, чтобы обеспечить лучшие возможности HoloLens 2 для понимания сцен.

Программный подход также может стать ключом к появлению смарт-очков, которые достаточно тонкие, чтобы носить их каждый день, а не только дома или в офисе.

Vladimir Voronov

Комментарии


Для участия в обсуждении нужно зарегистрироваться или войти со своей учетной записью.


Войти с помощью: