Поначалу в смарт-очках, для ввода информации пользователем, использовались трекпады, портативные или носимые контроллеры. Тем не менее, интерфейсы управления жестами HoloLens 2 и Magic Leap One определяют будущее системы ввода смарт-очков.
Новая модель машинного обучения, разработанная исследовательской группой Google, позволяет реализовывать сложные системы управления жестами, обычно используемые в высококлассных AR системах, в недорогих очках без дополнительных затрат на специальные датчики глубины и движения.
На этой неделе команда разработчиков ПО Google AI представила свой новейший метод для отслеживания движения рук и пальцев, который использует открытый кроссплатформенный фреймворк MediaPipe с открытым кодом, для обработки видео с мобильных устройств (не в облаке) и мгновенного создания карты руки и пальца из 21 точки посредством моделей машинного обучения.
«Мы надеемся, что распространение этого алгоритма по распознаванию рук широкому сообществу исследователей и разработчиков приведет к появлению случаев творческого использования, стимулируя новые приложения и новые направления исследований», — написала команда в блоге, подробно описывая свой подход.
Метод отслеживания рук и пальцев Google фактически разделяет задачу на три модели машинного обучения. Вместо того, чтобы использовать модель машинного обучения для распознавания самой руки, которая поддается широкому спектру размеров и поз, исследователи Google вместо этого использовали алгоритм обнаружения ладоней. Используя этот подход, команда достигла средней точности почти 96%.
При обнаружении ладони, другая модель машинного обучения идентифицирует 21 координатную точку кисти и костяшки кисти руки или кисти руки в поле зрения камеры. Третий алгоритм предполагает просмотр жеста, записывая позу для каждого пальца и сопоставляя ее с заранее определенными жестами, с подсчетом жестов и различными поддерживаемыми знаками кисти.
Другими словами, такой подход к машинному обучению может применяться на устройствах Android или iOS без специальных датчиков движения или глубины. Кроме того, команда делает модель общедоступной и с открытым исходным кодом, чтобы ее могли использовать другие разработчики и исследователи. Группа также планирует со временем повысить точность и производительность алгоритма.
В ближайшем будущем, этот алгоритм сможет помочь разработчикам в построении AR опыта, аналогичного опыту на Snapchat и Facebook, который поддерживает распознавание и отслеживание рук в эффектах для камеры.
Google также может использовать эти технологии в совместной работе с солярным радарным датчиком Soli на Pixel 4 для создания уникальных возможностей AR, сходных с Animojis на iPhone X серии, использующих ARKit Apple и камеру TrueDepth.
Однако, более серьезное значение, которое несет в себе эта разработка, это то, что машинный подход к обучению может дать умным очкам. Даже отказавшись от датчиков движения и глубины, производители оборудования смогут приблизиться к методам ввода данных пользователя HoloLens 2 и Magic Leap One.
Все больше и больше технологических компаний полагаются на искусственный интеллект для решения задач, связанных с функциональностью и форм-фактором AR.
Даже компания Microsoft сочетает подход ARKit и ARcore, использующий искусственный интеллект для обнаружения поверхностей, чтобы обеспечить лучшие возможности HoloLens 2 для понимания сцен.
Программный подход также может стать ключом к появлению смарт-очков, которые достаточно тонкие, чтобы носить их каждый день, а не только дома или в офисе.