现今大多数消费电子设备(智能手机、平板电脑、PC、电视等等)已经有了或者不久将会集成一个或多个相机功能,汽车和其它众多产品正在快速增加相机功能。这些相机功能正在改变人与设备之间交互的方式。利用一个或多个图像传感器,这些相机可以生成描述设备周围三维空间的数据,而且,创新厂商已经开发出了将这些数据转变为更有意义用途的产品。 有许多技术依赖传感器的功能,手势识别是其中一种关键应用,随着其技术的演进和成熟,手势识别正在快速获得市场的认可。尽管市场上存在着多种手势识别的应用方案,但其中很大的比例是基于嵌入式视觉算法的,使用相机来检测和诠释手指、手和身体的活动。手势一直是人们代代相传的固有的交流语言的一部分。为电子设备增添各种类型手势支持可以帮助人类使用自己的自然“语言”来操作这些设备,与触摸屏幕,操作鼠标、遥控装置、拧转旋钮或按下开关相比,这种方式更加直观和便捷。
手势控制技术可以简化我们与设备之间的交互,为减少人类对于(在某些情况下替代)鼠标、按键、遥控或按钮的需求做出突出的贡献。与语音命令和面部识别等其它先进的用户界面技术相结合,手势识别将能够创造出更丰富的用户体验,推动设备理解人类“语言”,从而推动下一个电子创新浪潮。 图1:当你在厨房做事,你的手指沾着烹饪调料时,触摸平板电脑或智能手机的屏幕是不方便的(至多,而且更好像不可能)。
不只是消费电子产品
大多数人想到手势识别时,通常会想到某人摆动手、手臂或身体,以控制一个游戏或在大型显示屏上的其它应用程序。这种发展趋势的案例包括用于微软Xbox 360的Kinect外设,以及一系列用于增强传统电视遥控装置和电脑键盘、鼠标、触摸屏和触控板的手势解决方案。例如,在最近的Consumer Electronics展会上,多家电视制造商展示了加入相机功能的(camera-inclusive)产品,它们不仅加入了手势控制,而且还具有多种面部识别功能。类似地,英特尔宣称在其超级本设计里,加入了多种成像功能。
然而,手势识别作为一个用户界面方案,还适用于消费电子产品之外的广泛应用领域。例如,在汽车市场中,手势识别可作为为驾驶者提供便捷的附加功能,它可以用于控制后备箱盖和滑动侧门。相机安装在车辆后面可以用于倒车,安装在侧镜中,可以用于盲点报警,而且它还能够实现其它更多的功能。当驾驶员走近车辆时,一个接近传感器可以检测到口袋或钱包中的点火锁匙,然后开启相机。随后,驾驶员通过挥手或动脚就可以打开后备箱盖或侧门。
另一个潜在的车用案例在驾驶室内,当人们在驾驶过程中无法(至少不应当)触摸特定的按钮或旋钮,但仍然希望接通打进来的电话或者切换控制台或娱乐系统上的菜单,这时,一个简单的手势更加安全,快捷,或者说是完成这项任务的更便利的方法。许多汽车制造商现在正在试验(在某些案例下已经公开演示)手势识别技术,把它作为用户控制的方式和增强安全性能外来动力。
手势识别在医疗应用领域有更多的机会,由于健康和安全原因,护士或医生可能无法触摸显示屏或触控板,但是仍然需要控制一个系统。另外,医疗专业人士可能远离显示屏的操作范围,但是仍然需要操作显示屏上内容。这时,合适的手势,比如挥手或把手指用作虚拟鼠标进行操作,则是一个更加安全和快速的设备控制方式。 图2:微软公司的“Kinect Effect”视频展示了多项应用,正在开发用于Windows Kinect (并且在概念上也适用于其它2D和3D传感器技术)。
手势界面也可以用于病人康复,例如,Gesturetek公司的IREX设备可以引导病患针对身体特定部分做交互式练习,并且,还有采用手势识别的较现代保健相关应用存在于医疗领域。例如,具有生理缺陷的用户可能无法使用传统的键盘或鼠标,却能够利用面部表情识别作为控制的方式。大学校园正在积极地做关于使用手势识别将手语转换为文本和语音的研究。
更为普遍的是,手势用于显示控制的不同市场一直存在 ,例如, 您可能还记得,在电影《不可能的任务》中Tom Cruise 操作大型透明显示屏的著名镜头。 或者考虑在交互式数字信号中,可以对观众的手势做出响应的互动广告(不必提及确定特定的浏览者网页、性别、种族和其它因素),以便优化显示的图像,同时更好地与浏览者接洽。即使在工业市场中,也可以通过手势来方便地控制置于天花板上的的HVAC传感器。随着传感器技术、手势算法和视觉处理器水平继续提升,现今独特的交互活动形式,未来可能变得平凡普通,涵盖一系列应用和市场。
实施方案随应用而不同
术语“手势识别”的意思已经变得更为宽泛,它现已用于描述不断增加的解决方案类型范围,例如,人们可以设计和优化这些特定的解决方案,用于做近距离或远距离的交互活动,用于细微分辨率手势或大动作全身运动,以及用于连续手势跟踪或短暂持续时间手势。
手势识别技术需要种类繁多的无触摸交互功能,而且,每种功能还用于不同的用户界面场景。
近距离手势检测通常用于手持式设备,比如智能手机和平板电脑,用于这些设备的交互活动在接近其相机的地方发生。相反地,长距离手势控制通常用于电视、机顶盒、数字签名等相似设备,用户和设备之间的距离可能达到数英尺,因而需要从远距离进行交互活动。
在这两种用户场景中,用户界面的便利性都是手势控制的必要条件,其所使用的算法,特别是手势实施和检测的方法,有着很大的不同。在近距离使用中,相机“看见”手势的方式,完全不同于相机在长距离互动中相机“看见”同样的手和手势的方式。
另外,不同的手势“语言”之间也存在着区别。例如,当使用手势来导航“智能”电视的详细菜单时,用户将会发现使用高分辨率的小手势来选择菜单选项很直观。然而,在使用设备玩基于全身检测的游戏时,就需要大动作手势来提供恰当的体验。
而且,快速完成的手势和连续的手部跟踪之间有着不同,例如,可以使用从右到左或者从左到右的不同手部运动来翻动电子书的页面,或者改变音乐播放的曲目。这些场景与连续的手部跟踪形成对照,后者则与控制菜单和其它详细的用户界面组件相关,比如Windows 8 UI或智能电视的屏幕。
其它应用方案的挑战
任何手势控制产品由数个不同的关键硬件和软件组件,所有这些组件必需紧密集成,以提供具有吸引力的用户体验。首先是相机,它用来捕获代表用户动作的原始数据。通常来说,这些原始数据需要进行处理,以减少信号中的噪声,或者(在3D相机中)估算深度地图。
随后使用专用的算法来编译经过处理的数据,将用户的运动转换为计算机能够理解的“可执行”指令。最终,使用自然而舒适的方式,将这些可执行的指令与用户反馈集成起来。 这些算法和应用,越来越多地在拥有有限处理、有限存储和有限的其它资源的嵌入式系统中实施,从而增加了解决方案的总体复杂性。
通过紧密集成这些组件来提供具有吸引力的手势识别体验并不是一项简单的任务,而且,手势识别应用的需求进一步增大了其复杂性。尤其是手势控制系统必需具有高度的交互性,能够以觉察不到的时间迟滞来处理大量的数据。这些数据通常在输入视频流中出现,当然这也取决于应用,这些应用具有范围为QVGA至1080p HD的分辨率和24至60 fps的帧频。
将手势控制产品带入市场需要技术供应商生态系统中不同成员的共同努力,这个生态系统包括传感器和相机制造商、处理器企业、算法提供商和应用开发人员。为了提供更好的用户体验,对不同的组件进行优化来实现顺利的协同工作是至关重要的。视觉功能是手势算法的核心,通常来讲,它实施起来比较复杂,可能需要很多的额外工作来优化用于特定图像处理器的特定功能。然而,很多功能集是常用的,并且在不同的应用和产品中重复使用。所以,开发功能强大、用于交叉平台的程序库,来提供常用视觉功能的底层实现,就很有必要。
在手势控制这样的新兴市场中,涵盖生态系统的标准化仍然很少。多种相机技术用于生成3D数据,每种技术会产生其自有的特性效果。每种3D相机还使用其自有的专有界面。并且,手势字典并未标准化,一个动作可能在一个系统中意味着一件事情,而在不同的系统中则意味着完全不同的事情(或者没有意义)。标准化是不可避免的,对于这个行业的成长和成熟是必需的。
行业联盟机会
在术语“嵌入式视觉” (embedded vision)中,手势控制是一项关键应用,指的是在嵌入式系统、移动设备、PC和云计算中使用计算机视觉技术。用另一种方式来说,“嵌入式视觉”是指从视觉输入中提取信息的嵌入式系统。与过去十年来变得非常普及的无线通信技术相似,嵌入式视觉技术有条件在未来十年中获得广泛使用。
相比之前产品,嵌入式视觉技术拥有实现门类繁多的具有更高的智能性和响应性的电子产品的潜力,从而为用户带来更大的价值。这项技术可为现有的产品增添有用的功能。并且,它能够为硬件、软件和半导体制造商提供重要的新兴市场。嵌入式视觉联盟(Embedded Vision Alliance)是技术开发人员和供应商的全球性组织机构,正在帮助工程师将这一潜力转变为现实。
|