AI与AR，可“同进”不可“同退”？

2019-11-08 14:08

提到AR，你会想到什么？可以标注物体信息的智能眼镜，抑或抖音在昨日推出的landmark AR技术？在通常的认知中，AR被普遍认为为应用层新技术或者说是“智能可穿戴设备”，相比人工智能（AI）相对的“算法”标签，显得不够有深度，那AR和AI之间到底是什么关系？AR属不属于当下我们认知中的人工智能？

先来简单梳理下AR的核心技术。AR（Augmented Reality），是在现实世界中叠加虚拟信息，也即给现实做“增强”，这种增强可以是来自视觉、听觉乃至触觉，主要的目的均是在感官上让现实的世界和虚拟的世界融合在一起。其中，对现实世界的认知主要体现在视觉上，这需要通过摄像机来帮助获取信息，以图像和视频的形式反馈。通过视频分析，实现对三维世界环境的感知理解，也即是说，AR与视频也有着千丝万缕的联系。

AI与AR，可“同进”不可“同退”？

目前AR主要的交互方式包括语音识别和手势识别。语音识别在目前已经取得了较大进展，国内如百度、科大讯飞、云知声等都是其中的佼佼者。所以更需要突破的是手势识别的成熟商业化，比如国内的AI+视频初创企业极链科技便曾在世界人工智能大会上展出过一款线下互动体验小游戏，如果AR的手势识别得以突破，便可以将这种操作方式运用于更多元的方面。

在AR的流程中，有着这样几个关键点：

首先是3D环境理解。要理解看到的东西，主要依靠物体/场景的识别和定位技术。识别主要是用来触发AR响应，而定位则是知道在什么地方叠加AR内容。定位根据精度的不同也可以分为粗定位和细定位，粗定位就是给出一个大致的方位，比如区域和趋势。而细定位可能需要精确到点，比如3D坐标系下的XYZ坐标、物体的角度。根据应用环境的不同，两种维度的定位在AR中都有应用需求。在AR领域，常见的检测和识别任务有人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。

在感知现实3D世界并和虚拟内容融合后，需要以一定方式将这种虚实融合信息呈现出来，这里面需要的就是AR中的第二个关键技术：显示技术，目前大多数的AR系统采用透视式头盔显示器，这其中又分为视频透视和光学透视，其他的代表有光场技术、全息投影等。

AI与AR，可“同进”不可“同退”？

AR中的第三个关键技术在于人机交互，用以让人和叠加后的虚拟信息互动，AR追求在触摸按键之外自然的人机交互方式，比如语音、手势、姿态、人脸等，用的比较多的语音跟手势。

人工智能和AR的技术关联：

在人工智能领域有几个概念常被提及，如深度学习、机器学习，在学术领域包括人工智能在内几大领域均有自己的研究界限，而在普遍意义上，我们常说的是泛意的人工智能，涵括所有“让机器像人一样”的技术的应用方向。

深度学习是实现机器学习的一种技术方式，而机器学习是为了让机器变得智能，去达到人工智能。可以说人工智能是最终目标，而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中，还有另一个重要概念为计算机视觉，主要来研究如何让机器像人去“看”，是目前人工智能概念中的一个重要分支，这也是因为人类获取信息最主要的方式之一就是视觉，目前计算机视觉已经在商业市场发挥价值，比如人脸识别；自动驾驶中读取交通信号和注意行人以导航；工业机器人用来检测问题控制过程；三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。

AR究竟是不是人工智能：

对AR从业者来说，理想的状态是用更智能的AR终端去取代智能手机，所以对于用户来说接触使用AR首先受影响的是内容，其次是终端，AR产业链如果粗暴划分包括技术提供商、智能终端研发公司，以及AR内容提供商。在这其中，AR设备提供商不可避免关注硬件技术，如底层的芯片、电池、光学镜片等，以及硬件本身的性能优化，而内容提供商更倾向于在现有技术基础上优化内容及表现。所以我们可以说AR技术提供商，或者说在底层算法研发上有一定成绩的AR公司是人工智能公司。

AI与AR，可“同进”不可“同退”？