微软新项目：让AR眼镜HoloLens成为视障人士的眼睛

2020-06-07 18:24

导读：

根据2019年世界卫生组织（WHO）估计，全世界有盲人约4000万—4500万；其中中国盲人数量最多，达到500万。虽然他们只占全球77亿人中的0．58％，但他们与其他处于贫穷饥饿中的人一样极其需要帮助。

近日，由微软研究院首席研究员 Ed Cutrell 和微软剑桥研究院高级研究员 Cecily Morrison 共同发起的Project Tokyo中，研究员们计划让AI结合HoloLens MR眼镜，成为视障人士的眼睛。

12岁的失明男孩 Theo 坐在厨房的一张桌子旁。他戴着微软 HoloLens 左右转动头部，摄像机、深度传感器和扬声器环绕着他的沙棕色头发。
当他面朝微软剑桥研究院高级研究软件开发工程师 Martin Grayson 时，Theo 听到一声提示音，“Martin”从他耳朵上方响起来。

“Martin，”西奥笑了，“它用五秒让我认出了你。” Martin 站在一个齐膝高的黑箱旁，其中的计算硬件正支持着 Theo 使用的机器学习模型的运行。
Theo 再次转动头部，又一个名字响起来，“Tim”。

“Tim，你在那里！” Theo 高兴地“看”向 Tim Regan，他是微软剑桥研究院的高级研究软件开发工程师，同时也是 Theo 的编程老师，每两个月，Theo 都会去 Regan 家中学习编程课程。Regan 此前在研究项目 Code Jumper 中认识了这个失明的男孩，Code Jumper 是专门为视障儿童开发的物理编程语言，用一种可触摸的方式，让对计算机科学感兴趣、但视力上有困难的孩子们体验编程的乐趣。

他们正在进行的项目 Project Tokyo 希望为人类定制智能个人代理，用 AI 技术来延伸人们能力的界限。对长期身处黑暗与未知的 Theo 来说，能够实时地“认出”周围的人们，是一种非常新奇的体验。“不仅仅是说话的人，那些没有说话的人，我从来不知道他们是谁、在哪儿。AI 技术让我能用这种特别的方式感知到他们的存在。”

Project Tokyo 有着更长远的研究愿景——构建能够扩展所有用户能力的智能个人代理，不仅仅是能够完成特定任务的端到端的系统，而是构建一个能自适应每一个人的不同需求的 AI 服务系统。

微软剑桥研究院高级研究软件开发工程师 Martin Grayson（左）和微软研究院高级研究员 Cecily Morrison（右）正在进行测试

源自巴西残奥会的灵感

Project Tokyo 诞生于2016年，由微软研究院首席研究员 Ed Cutrell 和微软剑桥研究院高级研究员 Cecily Morrison 共同发起，他们此前都有与盲人和弱视群体一起设计技术的经历，因此决定从视障群体入手，看看智能个人代理能如何帮助他们增强和扩展能力。“视障群体往往是新技术的早期采用者，是非常好的合作对象，” Cecily Morrison 说，“我们一起想象未来关于人工智能的新体验。”

在前期调研中，他们跟随一群参加巴西残奥会的运动员和观众，从英国出发前往里约热内卢，观察他们在机场、运动场馆、观光游览等种种活动中，如何与他人进行互动。Cutrell 注意到，“我们人类对如何与人互动有非常细致和详尽的社会理解——了解周围是谁，他们在做什么，与我的关系是什么，但对于盲人来说，这些我们认为理所当然的线索都消失了。”
研究团队与盲人和弱视社区一起举办了一系列研讨会，来探讨有哪些潜在的技术能够为他们改变这一点。参与者中，有一位50多岁的盲人音频工程师 Peter Bosher 提到一个常见的场景，“当两三个以上的人共处一室，人们会开始用眼神交流和肢体语言来表示‘我在和这个人或者那个人说话’，这一点对盲人来说真的非常困难。”

因此他提出，有没有一种技术能够为盲人提供他们周围的人的信息？这一想法立刻引发了大家的共鸣。

微软研究院首席研究员 Ed Cutrell 与项目中经过改装的 HoloLens 设备

HoloLens 的进化

明确了 Project Tokyo 想要创造什么样的 AI 体验，研究团队以微软混合现实眼镜 HoloLens 为基础构建 AI 技术。

HoloLens 能将全息图投影到用户可操纵的真实世界中，为构建与环境实时交互的 AI 代理提供了非常好的基础。HoloLens 的灰度相机阵列可提供接近180度的环境视角，它的高分辨率彩色相机能够高精度地进行面部识别，而位于用户耳朵上方的扬声器能够提供空间感极其真实的音频，让声音从特定的方位响起。

研究团队中的机器学习专家开发了一系列计算机视觉算法来识别环境中不同人的位置信息。其中一个模型用于检测环境中人的姿势，计算他们相对于用户的位置和距离，另一个则能够分析高分辨率相机拍摄的照片流，来识别和匹配照片中的人物是谁。随后这些信息将通过音频提示告诉用户。

比如，如果设备在用户左侧一米远处检测到朋友 A，用户左耳将听到咔嗒声，听起来像是来自左侧一米远处。用户想知道这个人是谁，一个嗡嗡的音效会将用户的视线引向 A 所在的方位。当 HoloLens 的中央摄像头对准了 A 的脸部，用户会听到一个尖锐的咔哒声提示用户已经面朝 A 了。如果系统识别出了 A，就会为用户念出 A 的名字。

作为音频工程师，Peter Bosher 在项目早期参与了音频体验的部分，“我特别喜欢这个工具为失明的我们带来的这种‘凝视’的感觉，它能让我们有一些肢体语言上的沟通。”

盲人音频工程师 Peter Bosher（中）在微软剑桥研究院查看系统的最新版本

与视障社区一起制作原型

随着研究团队对技术的开发，研究人员开始进一步与视障社区合作，邀请盲人或视力不佳的成年人来亲身体验和测试这项技术，提供真实的反馈信息。

有几位用户认为不停地转动头部让人感到很尴尬，希望能在头部固定的情况下轻松地获取系统收集的信息。这些反馈又使研究团队开发了更多功能，比如在用户头部固定时，系统能用具有空间感的声音，对辨认出的所有人作一个概述。

如果我们感受到他人的视线，我们会从眼神交流开始自然地和对方展开交谈。研究团队据此研发了另一个实验性的功能，当环境中的某个人看向用户时，系统会在那个方向发出提示音，但这个提示音后不会出现对方的名字。

“不给出名字会让你将注意力转向那个试图引起你注意的人，将头转向他们，而当你直视对方时，系统会告诉你他的名字。” Grayson 向一位体验者解释这个细微的设计。

“我完全同意这一点，视力健全的人就是这样反应的。他们从眼角捕捉到某个人，然后转过头去叫他们的名字。”这位体验者说。

经过改进的 HoloLens，摄像头上方还装有一个 LED 灯带，白色表示正在追踪接近用户的人，绿色代表已为用户识别这个人。这个功能可让与用户交流的朋友知道他们已经被“看见”了，使交流更加自然，也能让他们自由地选择进入和移出设备的视野。

帮助视障儿童学习社会互动

随着研究的深入，研究团队发现，这项技术还拥有帮助盲人或弱视儿童发展社会互动能力的潜力。

此前的研究表明，约有三分之二的失明或弱视儿童表现出了与自闭症儿童相似的社交行为，比如在谈话中似乎没有在与谈话对象交流，常常将头靠在桌子上露出一只耳朵。于是，研究团队开始探索这一技术是否可以帮助他们学习发起和维持与他人的社会互动。

Theo 参与到这项体验中，来帮助研究团队更好地让系统适配儿童的行为特征。比如孩子们总是喜欢坐在一起，但常常坐不了几分钟就起身跑来跑去。Theo 回忆起最初测试的场景，“系统有时会同时报出两个名字，这让我很难听清，所以我说这一点需要改动。”

研究人员还仔细观察了 Theo 自由使用系统的方式。比如在一次家庭用餐时，Theo 开始巧妙地反复左右转动头部，让系统说出正在与他说话的人的名字。

“Theo 在用这个技术保持对谈话者的空间注意力，” Morrison 当时感到很惊讶，“我们之前并没有想到，这对他来说无疑是一种行之有效的保持注意力的方式。如果他能保持注意力，他就可以与谈话者将话题进行下去。”

在实际测试中，更多的用途证实了这项技术对帮助视障儿童学习社会互动的潜能。

和其他失明儿童一样，Theo 在社交场合中也会将头搁在桌子上露出一只耳朵。研究人员和 Theo 玩了一系列游戏，来发掘他用身体和头部交流时可能产生的力量。

在游戏中，研究人员和 Theo 要解决一个小组问题。Theo 知道问题的答案，研究员们只知道问题的主题，而且只有在 Theo 看着他们时，他们才能交谈。如果 Theo 移开视线，他们必须立刻停止讨论。“那一刻，Theo 突然意识到自己能够掌控一段谈话。他开始理解‘看到’他人的力量，它不仅赋予了他交流的技能，更使他习得了一套全新的社会能力。”

现在 Theo 很少把头放在桌子上说话了。无论是否带着特制的 HoloLens，Theo 都会将自己的身体和脸面向想要谈话的人。这是否会为 Theo 带来长期的变化还是一个未知数，研究团队也尚不能确定其他失明或弱视力儿童是否也会做出类似的反应。因此研究团队正在进入下一阶段，研究这项技术对更多儿童、年龄范围更广泛的人群的影响。

失明少年 Theo 正在厨房里参与用户测试

Project Tokyo 的未来

为了构建适用于更多人的智能个人代理系统，更广泛的研究工作正在进行中，包括让用户更自由地根据偏好调整系统的机器学习技术。例如，微软剑桥研究院机器学习研究员 Sebastian Tschiatschek 正在研究用户如何告知系统他们希望听到的信息的种类和数量。

由于用户的视力水平不同，对信息的需求也不一样。个性化的需求让 Tschiatschek 必须采取非常规的机器学习方法，“我们想以某种数学形式将问题形式化，但对这个问题来说并不容易。许多开发工作都是通过尝试，真正与人互动，了解他们的好恶，从而增强算法来实现。”此外，用户在系统提供已知信息时会感到失望，还有很多这样的问题尚待研究团队解决。

最终，Project Tokyo 将构建可扩展所有用户能力的智能个人代理。研究团队将与视障社区中的更多儿童继续探索，包括 Morrison 先天失明的7岁儿子 Ronan。

“我们在 Theo 身上看到的情况让人倍受鼓舞，他正在以前所未有的方式掌控自己的世界，” Morrison 充满期待，“我认为我们将在 Ronan 和更多的人身上看到这一点。”