机器之心报道
作者:XW
PICO自研的多模态追踪算法方案Centaur,将「光学追踪算法」与「CV模态裸手追踪算法」融合,并率先实现了融合算法的产品化,解决了小型化手柄在遮挡情况下识别难的问题。同时,手柄+裸手的融合式方案也为XR交互提供了新的思路。
Phone15/Pro系列发售在即,但一个有趣的现象是,在iPhone成为一种象征的同时——想想过去半年来你听过多少次「iPhone时刻」——iPhone作为手机本身却大有泯然众生之势。苹果公司认为下一代的革命性产品是AppleVisionPro,其无手柄的设计引发了大量讨论。
AppleVisionPro挑战了我们对XR用户体验的传统认知,提供了一种全新的、更为直观的交互方式。然而,尽管去手柄化在某些场景下有其独特的优势,但手柄在XR交互方式中的重要性仍然不容忽视。
手柄作为一种成熟且被广泛接受的交互工具,在需要精确输入或复杂操作的情况下,例如一些游戏或绘画、手术模拟等专业训练中,通常可以提供更好的体验。此外,手柄能为用户提供触觉反馈,这是目前无手柄方案难以实现的,而触觉对于创建沉浸式体验又至关重要。
不过,传统的手柄往往体积较大,重量较重,长时间使用可能会引起用户的疲劳。因此,许多XR厂商一直致力于研发更轻、更小巧的手柄设备,以提升用户体验。
但是,轻量化手柄的研发面临多个难点,其中一项主要的挑战便是高精度追踪的问题:首先,小型化设备限制了传感器的大小和数量;其次,由于手柄小,用户可能会更频繁地做出快速和复杂的手势,这也对追踪系统的稳定性和准确性提出了更高的要求。此外,高精度的追踪通常需要进行更多的计算,因此功耗管理也是小型化手柄研发中的一个重要挑战。
融合光学追踪与裸手识别算法
实现遮挡情况下稳定追踪
基于AI方面的积累,PICO创新性地提出了一种多模态的手柄追踪解决方案,成功在小型化手柄上实现了稳定的高精度追踪。
「我们在人手握姿的实时估计方法、多模态下的数据融合方法,以及基于IMU(InertialMeasurementUnit,惯性测量单元)的高精度预测方法等方面,取得了一些突破创新,」PICO研发团队表示:「提出了一种多模态的手持控制器追踪方法,能够提供更广的追踪范围,减小追踪盲区,为用户带来更好的体验。」
PICO此次自研的Centaur多模态追踪算法,将光学追踪算法与CV模态下的手柄追踪算法融合,其中光学追踪算法通过识别手柄中LED灯发射出的红外光(IR),实现对手柄的定位追踪;CV模态手柄追踪算法,能够在手柄上的LED灯被遮挡时,也即在极少IR或没有IR的情况下,通过追踪裸手的特征,准确还原出手柄控制器的6DoF信息,从而保持对手柄的稳定追踪。
Centaur多模态融合算法,将视觉信息与惯性信息融合,得到手柄位姿及速度的最优估计。具体说,多模态追踪算法使用从头显摄像头、内置IMU模块、3-DOF模块、深度学习手势检测及追踪模块、光学定位模块采集到的多种模态数据,分析手部特征、手柄运动信息、LED位置,以及全局上下文信息,进行精准的位姿预测和估计。最后,通过多帧融合滤波器对所有获取的信息进行融合计算,产生高精度、高帧率的手柄位置、旋转及速度信息,供上层应用使用。
光学追踪算法在XR产品中有着广泛的应用,主要用于实现精准、低延迟的位置和运动追踪。这些算法通常利用摄像头(或其他光学传感器)捕获的图像数据,通过识别和追踪特定的视觉特征,如颜色、纹理、形状等,来计算物体(如用户的头部、手部或控制器)的位置和运动。
PICO采用的是基于红外光(IR)的主动式光学定位追踪方案,这种技术可以通过头显摄像头,观测到手柄上发射的IR,并通过光斑检测和多视图几何原理来计算手柄的位置和姿态。与传统的电磁定位和超声波定位相比,具有高精度、低成本、低功耗等优点。
针对小型化手柄的一系列工程和技术挑战,PICO组建了一个跨部门的攻关小组,包括交互感知内部的数据交互团队、裸手追踪算法团队和手柄追踪算法团队。
经过多次论证后,团队设计了一套基于神经网络的多模态手柄追踪框架,其核心技术即上文提到的Centaur多模态追踪算法,该框架融合了IMU、光学传感器和手部图像这几种不同模态的信息,在手柄被遮挡的情况下,裸手追踪能够提供更加精准的观测,同时手柄给手部追踪提供更准确的预测,两者深度融合,相互辅助。
Centaur多模态追踪算法,融合了IMU、光学传感器和手部图像等不同模态的信息,在手柄被遮挡的情况下,裸手追踪可以补充提供精准的观测。
裸手追踪(hand-tracking),也叫手部追踪或手势追踪,通过直接捕获和分析用户的手部姿态、位置和运动,使用户可以在XR环境中直接用手势进行交互,无需穿戴特殊设备(如手套或指环),也免去了学习复杂的控制器操作过程,大幅降低了使用门槛,因而在XR领域备受