一篇旧文。成型于简书,发表于2019年UXPA行业论文集(2020出版)
这是自己初步形成关于AUI这个概念完整思考的第一篇文章,在这篇文章里,我还没有将AUI的 I 扩展为Interaction的想法(参考《别只看虚实结合,聊聊AR及其设计》)。
这篇文章,主要探讨由于AR技术的发展,在信息呈现上带来的一种全新的用户界面模式AUI界面的设计,再结合飞机智能辅助装配的实际案例来说明以AUI为触点,辅助技术赋能产业智能化升级的设计方法。
基于这篇文章,我在UXPA去年的线上分享上做了30分钟的课程讲解。今年也应三节课邀与合作,重新打磨上架了一节45分钟的基础课程。
这篇文章里的很多部分我都有在公众号里引申和发展,也有修正一些部分。参考公众号内 智能化与AR设计 系列文章。当然,也有一些我还没有引申、发展、完善的部分,希望可以在后面的时间里继续探讨:)
· · · ——————————
1.AUI:Augmented-reality user Interface
1.1 什么是Augmented-reality?
Augmented Reality,即常说的AR,是将计算机生成的虚拟信息叠加到用户所在的真实世界的一种新兴技术。具体定义有2种,在这里我引用Azuma的定义:“一种以虚实结合、实时交互、三维注册为特点,利用附加的图片、文字信息对真实世界进行增强的技术。“
1.2 什么是AUI?
由于AR技术所带来的全新的用户界面,我称之为AUI。它应该是指有视觉或确实深度信息的虚实结合的用户所见界面。
为了更清楚的说明AUI的概念,这里先介绍两个技术概念:视频式和光学式。这是现在AR设计方案主要的2种,第一种方案是让用户通过摄像头捕捉的画面来观察虚实叠加后的场景,现在我们手机上的AR应用基本上都属于这一种,技术上属于视频流式;第二种是让用户直接观察到叠加了虚拟图像后的真实场景,微软HoloLens上许多应用就是属于第二种方案,技术属于光学式。
在第一种方案下,用户实际观看到的场景是由摄像头拍摄的实时视频流,由于是视频,所以它实际上依然是一个没有深度信息的平面,只是我们人眼的深度感知知觉让它看起来像是有前后的深度关系。基于此技术方案的界面设计,在定义里我称之有视觉深度信息的用户所见界面。
在第二种方案下,用户能够直接观看真实世界,虚像基于光学原理在设备视场角所处范围内显示,具有确实的深度信息。“确实”是指人眼判断出来的深度感知,在真实的三维世界里的确存在。基于此技术方案的界面设计,在定义里我称之为有确实深度信息的用户所见界面。
此篇文章内所述的AUI,即Augmented reality user interface,是需要同时处理至少一种深度信息且和真实世界结合的用户界面。
它必须同时满足两个要点:
1.3. AUI的构成元素
AUI是AR技术下的界面,它有真实世界影像和虚拟世界影像两种元素共同构成。本文重点讲述以光学式技术为主,AR眼镜为终端的AUI设计。
相比起纯视频流技术下的AUI,由于视觉上缺少屏幕或视频的边框分离,光学式技术方案下的AUI与传统UI的区别会更明显。因为在光学式技术方案下,真实世界的影像是在人眼视场角的范围下显示,虚拟世界的影像显示范围则是由设备视场角来决定的。而现有可行技术下,设备视场角要小于人眼视场角,所以最终AUI的构成可以用如下图示表明
要注意的是,由于视场角是一个角度范围,所以红框和灰框的面积在不同深度下的面积是不一样的,最终的呈现效果和比例也会不一样。在以AR眼镜为终端,使用光学式技术的产品中,人眼视场角范围和设备视场角不一样所造成的体验性区别尤其大。下图就以AR眼镜作为终端,用垂直视角为例说明角度对用户所见界面的影响,蓝色为虚像可显示的区域,黄色为用户所看到的整体界面垂直高度,AUI指黄色区域所在界面。实际研究表明,人眼垂直距离的视角极限可以达到150度(水平距离大概为230度),理论来说用户所见界面应该比我现在所画的黄色区域更加长,但其实人眼识别信息的敏感度远远达不到极限值,大约在垂直方向40度,水平方向72度的区域。上图仅为说明普遍意义下,用户所见界面会大于虚像的可见区域。不同终端所使用的输入方式会不一样,除了传统的按键、触屏、遥控器等输入外,在光学技术支持下的AR眼镜里,还可以使用光标定焦读秒,或将其与手势配合来完成输入。眼镜终端下,AUI里的光标实际上是在模拟用户眼睛所看到的焦点,Hololens里将其定义为“Gaze-targeting“,明确定义了AR设计里的所有交互都需要建立在用户能够获取其目标物的能力上,指出系统需要尽量去理解用户的关注焦点。在剑桥的词库里,gaze的意思也是“a long look, usually of a particular kind”。所以,与看不同,光标的深层含义是它是用户目前的关注并有进一步意愿的焦点。光标定焦读秒,指当光标焦点激活时,以时间为维度来判断是否执行命令。对于头戴式设备来说,手势操作是现在主流的交互方式之一。手势操作作为物理世界里本来存在的自然交互方式,比如对物体的抓取,移动等,在设计良好的AR头戴式设备的体验中有不可置疑的优势。但要在AR的世界里实现这样的交互,首先必须要满足作手势的手是在机器的视场角范围内的,否则它无法被机器所识别,也无法做出反馈。在设计的时候,要了解对于你所设计的设备而言,手势的效度,精度和准度。效度就是指手势在什么条件下是有效的,起作用的。例如我上述所说的视场角范围。精度是指设备可以识别到什么程度的手势,例如在Hololens2上,据说已经可以精确到手指程度的操作。准度是指设备对此手势的判读是否准确无误,错误或与其他手势混淆的概率是多少。为了更好的理解和和设计AUI,我将其按照参照系分为两个体系,每个体系下再按照细分参照物的区别分为2个小类,得到A,B,C,D四种窗口类别。A类窗口:静止或运动均相对于真实空间坐标的信息窗口。 指当屏幕视野(指设备视场角范围下的屏幕显示区域。后同)离开A类窗口时,A类窗口会在屏幕内消失,但屏幕视野回到其原有位置时,会重新看到A类窗口。B类窗口:静止或运动均相对于空间的某个真实物体的信息窗口。 B类窗口相对某一真实物体静止或运动,随此物体移动而移动,不随屏幕视野方向的变化而变化。C类窗口:一定范围内跟随屏幕视野方向移动的信息窗口。 当屏幕视野在一定范围内移动时,C类窗口相对于真实世界静止或运动。当屏幕视野移动超出规定范围后,C类窗口跟随屏幕视野移动方向移动。D类窗口跟随屏幕视野移动,和真实世界无关。无法使用头动方式控制光标(Gaze)移动,需要其他输入设备来辅助。我们与人沟通,不需要了解这个人里面的大脑如何运转,心脏如何跳动,认知系统怎么工作等,我们是通过这个人的面部表情,肢体动作,以及语言和他交流的。机器也是一样,我们与机器的沟通交流,不需要了解它背后的硬件怎么构造,代码如何生成,只需要通过界面和语音等外在的触点与他沟通和交流。那么,正如现在的UI(User interface,用户界面)是机器与人接触的直接的触点一样,AUI也只是一个人与机器接触的触点。是由于技术的发展,带来的一种新的信息呈现方式,是信息呈现方式产生的新UI模式。以下面这个扫描界面为例,整个界面的元素非常简单,包含:顶部标题、摄像头拍摄画面及扫描框,辅助信息和操作按钮。若抛开背后的运作逻辑,它除了以真实环境作为背景,其他实在不值一提,但如果你在使用它,这一个界面的意义就远远不止于此了,它就像一个经验老道的师傅,手把手的教着你这个初出茅庐的新手怎么装配一架大飞机。AUI这种以AR技术为依托而生成的新UI模式,在其显示方式上必然是优于传统UI,更适合智能化时代的趋势,是将机器与用户联结起来的更好的触点,也是更优的方案。- 它能够和现实世界无缝结合,更具有信息传递的直观性。例如,它可以将现实世界某个桌子的相关信息,直接显示在这把桌子旁边,而不需要任何中介信息来联结这把椅子和其相关信息。
- 它依托于光学设备的视场角范围,只要技术发展,它可以接近甚至超越人眼视角,不受屏幕硬件尺寸的约束。
AUI本身并不是智能化,它必须和网络、大数据、物联网、人工智能等其他技术共同连动,才能在智能化时代得到充分运用,将技术发展转变为生产力的升级。以具体项目为例,在飞机制造产业中,有一个典型的端接插线场景:一架飞机内部有数以万计的导线,每一根导线都需要与一个连接器上的具体插孔一一对应,而这样的连接器,飞机上也有成百上千个。于是,一个简单而重复的插孔操作,因为背后庞大的关联数据和超高的准确度要求而变成了一个需要三位专业工作人员共同完成的工作。在这个项目里,我们最终利用AR头戴显示技术,用虚拟化信息,将导线需要插入的孔直接指示出来,从而完成了三个人工到一个人工的简化。
为了能在最终与用户接触的界面层达到智能化辅助装配效用,整套系统其实包含了数据录入、数据分析、装配指导三块主要的交互逻辑。- 数据录入:信息的接受过程,分为前期录入信息和现场实时录入的信息。
- 前期录入:在飞机制造里,每一根导线、每一个连接器,每一个插孔等,都有一架飞机内的唯一编号,它们的相互关系是已知的,需要端接插线的业务场景之前就提前录入,作为系统的知识库存在。
- 现场录入:使机器能认知到需要进行操作的客体。在这个项目内主要使用的是OCR识别技术,识别编号。
- 数据分析:信息的提取过程。将现场录入的编号与已有知识库作对比,给出其需要工作的对应插孔号。
- 装配指导:信息的传递过程。通过AUI显示经过分析后的结果,并用直观的可视化形式表达出来。
通过数据录入、数据分析、装配指导三块内容交互,整套智能化系统可以帮助完成之前另外2个人力资源需要完成的数据查找、关联和确认工作。为了将智能化赋予AUI界面这个触点,其实要解决(或设计)的不仅仅是AUI界面这一个问题,而是要解决一个“如何形成”,和两个“如何实现”的问题。在这个案例里,“如何形成”的问题是由管理平台来解决,而“如何实现”是由AR眼镜端的应用来解决。如上图所示,这一套系统最终的价值点是智能装配,这个价值点,在用户层面是由AUI界面来完成的,但AUI界面上体现的智能化,却是依托在信息的接受、提取和传递过程之上的。那如何解答”如何形成“和”如何实现“的三个问题呢?这就又回归到用户体验设计的根本了:设计需要了解你的用户。在这个案例里,就需要掌握飞机制造中端接插线的相关知识,至少要知道你的目标用户经常接触到的AO、线束、连接器等等到底是什么,以及他们的层级结构。为了达到解放双手的目的,此案例中所主推的操作方式是光标定焦读秒,当光标焦点激活选项时,保持激活状态1.5s,机器确认选择此装配大纲。图14:Gaze定焦读秒在不影响上述输入方式下,1.5s内,用户也可以直接使用手势或硬按键来提前结束倒计时确认选择的交互方式,除此之外,我们还做了主要流程下的语音操作。然而,因为手势操作需要在限制条件下才能够生效,为了减少工人的学习成本,保证应用能运用在实际生产中,整个辅助装配的AR眼镜端应用是可以完全抛弃手势操作,使用定焦读秒或机器判断来保证装配交互流程的。至于语音交互的方式,在真正嘈杂的飞机制造车间内,似乎也不像我们想象那么美好。这一点和大多数人理想下的AR设计似乎不大一样,想想复仇者联盟中钢铁侠用手随意的移动虚拟信息的场景,想想他在炮火轰鸣的战场中与机器人的语音交互是多么酷炫。如我前述所说,如果AUI是AR技术所带来的全新的用户界面,那么也许更需要我们完成的是在现有技术下,通过设计使技术可以尽快运用起来。在筛选AO、线束等前置工业流程中,我在应用内主要使用的是C类窗口,可以使用Gaze定焦读秒来解放双手,且在一定范围内能跟随屏幕视野方向移动的信息窗口。既保证虚拟信息不会因为工人小范围的头部移动而造成眼前产生不停晃动的画面,也不会因为工人在装配中移动位置(从飞机头部到尾部,从内部到外部等),而找不到虚拟信息。
在最重要的插线步骤中,B类和D类两种窗口模式是同时呈现在一个界面内的,B类为以端接连接器为参照系,静止或运动均相对于这个真实物体的信息。图例里的蓝色圈、白色圈和其相对应的十字线即为B类信息。D类为右侧的辅助信息和顶部标题,可以和B类的信息互相验证,保证最重要的插线环节没有问题。
这里使用D类作为辅助信息而不使用C类,也借助了它是完全跟随屏幕视野移动而移动的特点。当工人全神贯注保持一定的紧张状态时,头部会相对保持静止,那头上戴的AR眼镜投射出来的D类信息会保持稳定。若这些辅助信息产生了不能忽视的抖动影响查阅,也是辅助工人验证自身状态的一个反馈。很多情况下,需要同时或交替使用多种信息显示模式,多种模式的无缝呈现(同时存在的多类型信息)和多种模式间的顺畅连接(上下步骤间的信息连续性)便是用户体验必须考虑的问题。多类型信息的同时存在涉及到由于参照点/系的不一样,可能会产生的相对位移。例如B类信息和D类信息同时存在于视野中的时候,微微移动头部,会看到D类信息移动(参照点为使用者),而B类信息保持不动(参照点为真实物体,物体不动,则B类信息不动),在设计的时候,要考虑两种信息模式可能会产生的交叉或冲突,例如某些情况下,下图的标题信息会与下方的圆圈与十字线重叠。为了能使机器知道当前需要插入哪个孔洞,就不得不在前置操作和最后的插线步骤中反复切换,那么还需要考量用户在使用过程中,不会因为两种信息展现特性的区别,使操作体验有中断感,无法产生连续性。在下述的二维图示上可能很难体会到这两种信息显示模式的区别,但由于技术特性的不同,在实际使用过程中,如果不做必要处理,在体验上是有明显区别的。在智能化时代的初期,各种技术都还受制于很多限制之下,了解它们的边界并对它们进行设计尤其重要。在上述案例中,OCR对数字0和O的区分难度、AR眼镜的视场角范围限制等,都会影响到整套智能化辅助系统的使用效果,并对设计方案的形成产生直接作用。希望能够通过我对AUI模式下的用户体验设计思考,帮助技术更快更好的赋能产业智能化升级,让AUI成为一个真正的智能化触点,让技术发展转变为生产力的提升。