深剖VR,AR和MR三者之间关系

2016年10月10日 17:05 0 点赞 0 评论 更新于 2025-11-21 20:35

VR、AR和MR这三个词目前在互联网上热度极高,但它们究竟代表什么意义?彼此之间的异同点是什么?关系又是怎样的?互联网上众说纷纭,再加上一些公司不断抛出新概念,让大家相当困惑。今天,笔者就来梳理一下它们之间的脉络。

三个概念的定义和要素

VR(Virtual Reality,虚拟现实)

VR是一种通过计算机模拟真实感的图像、声音和其他感觉,从而复制出一个真实或者假想的场景,使用户仿佛身处其中,并能够与该场景进行交互的技术。其要素如下:

  • 沉浸感:让用户身处虚拟场景内的感觉。通过遮挡真实场景的光线,提供尽可能大的视角,呈现具有真实感的画面,包括三维、立体甚至光场的视觉效果,以及环绕声场和其他感官刺激来实现。
  • 交互性:用户可以和虚拟场景中的内容进行实时交互,系统对用户行为做出具有真实感的响应,涵盖视觉、力觉、听觉等多种感官的回馈。这依靠传感器、软件运算、执行机构等系统来实现。
  • 假想性:可以根据设计者的想象设计出各种各样的虚拟场景,内容源于现实却高于现实,甚至在一定程度上违反物理定律,呈现超现实的虚拟场景。这通过人为想象、软件设计、特效等途径达成。

AR(Augmented Reality,增强现实)

AR是一种直接或间接地观察真实场景,其内容通过计算机生成的组成部分(如图像、声音、视频或其他类型的信息)被增强的技术。其要素如下:

  • 现场感:通过直接(镜片透视)或间接(摄像头拍摄并实时播放)的方式观察真实世界,处于什么现场就显示什么现场。
  • 增强性:对现场显示的内容增加额外信息,包括图像、声音、视频或其他信息。
  • 相关性:计算机必须对现场进行认知,增加的内容和现场具有相关性,包括位置相关、内容相关、时间相关等。

MR(Mixed Reality,混合现实)

MR是一种将真实场景和虚拟场景自然地融合在一起,使它们之间能够进行具有真实感的实时交互,让人们难以区分哪部分是真实的,哪部分是虚拟的技术。其要素如下:

  • 现场感:真实场景来自现场,通过镜片透视或摄像头方式获取,与AR一致。
  • 混合性:真实场景和虚拟场景自然融合,并发生具有真实感的交互,如遮挡、碰撞等。
  • 逼真性:虚拟场景的显示效果接近真实场景,难以辨别。

图1 VR、AR和MR的形象化描述

VR、AR和MR之间的异同点及关系分析

VR和AR的异同点及关系

VR着重强调沉浸感,追求完整的虚拟现实体验。由于虚拟场景可人为设计,且不需要现场感,真实场景的画面反而会破坏VR的沉浸感,因此VR设备需要隔绝外界光线,在产品设计上尽可能让虚拟场景占满整个视野,避免真实场景画面进入眼睛。在VR产品中,自然光线进入眼睛被称为漏光,属于不良指标。

良好的VR体验能让用户忘却现实,仿佛进入梦境一般,我们可以将VR体验比喻成“白日梦”(Google的VR平台名字正好也叫DayDream,即白日梦)。“做梦”与用户身处的现实环境关联不大,这也是VR的最高境界。交互性是VR非常重要的方面,用户可以与整个虚拟场景进行交互,仿佛身处一个完整的世界之中。缺乏交互性的VR会退化为球幕电影。

AR首先强调现场感,其展现的内容必须与现场紧密相关,没有现场也就谈不上增强。所以AR要尽可能将真实现场的画面占满用户的整个视野,让用户自然地观察真实现场。削弱自然光线的设计往往会导致不良体验(室外光线过强的情况除外)。

AR需要通过光线透射设计或者用广角摄像头拍摄现场并实时显示。仅仅显示现场是不够的,否则就会退化为普通眼镜或普通视频监控。AR必须对场景进行实时理解,包括对场景的三维结构和内容的认知,例如知道地面、墙壁的位置,空间的尺寸,通道和可能发生碰撞的位置等,能够正确识别场景中的内容,如汽车、人、建筑等。在对场景理解后,就可以对其进行增强,增强的方面很多,比如更换墙壁的颜色、在地面上显示导航箭头、在物品旁边显示名字等。没有对场景理解的AR是伪AR,例如在视频上随意贴文字、标签,这些信息的具体内容和显示位置不会随现实场景发生相关性变化,都是人工事先设定好的。

通过上述分析,VR和AR的相同点在于都需要使用计算机图形图像(CG,Computer Graphics)技术绘制虚拟图像。其中,VR对图像的逼真度要求更高,且VR中的图像全部由计算机绘制,因此对计算机的图像绘制性能要求高,往往需要配置高性能的GPU;而AR中大部分图像是通过镜片透射或摄像头拍摄的,计算机绘制的图像占比较少,且以信息性为主,对图像逼真度要求较低,所以对计算机图形绘制性能要求不高。但AR需要对场景进行理解,这需要使用非常复杂的算法,并且要实时运行,因此对CPU的运算性能要求较高。

VR和AR是平行关系,虽然二者有相同的部分,但也存在截然不同的部分,而这些不同之处正是区分VR和AR的关键,因此它们无法互相包含,VR不是AR的子集,AR也不是VR的子集。

MR和AR的异同点及关系

MR同样强调现场感,其显示的内容与现场密切相关。首先,现场的画面占满用户的视野,然后通过对现场的三维结构和内容的理解,将计算机生成的逼真虚拟图像融合进去。MR要求实现三维融合,不能仅仅将虚拟图像覆盖在真实图像上,虚拟图像中的物体具有三维坐标和景深(物体有远近感),虚拟物体和真实场景中的物体能够相互遮挡,具有真实的空间感和光照感。如果用户难以分辨看到的物品是真实场景中的还是计算机虚拟出来的,就通过了图像智能领域的图灵测试,这是MR的魅力所在,也是技术难度最高的地方。

MR和AR都强调现场感,都对现场具有增强作用,因此从基础上来说二者是一致的。它们都要求尽可能将现场的画面融合进来,并且都需要对现场进行实时理解,然后将计算机生成的虚拟图像进行相关性融合。所以,对现场增强是MR和AR的相同点。

MR强调虚拟图像的真实性,需要与真实场景进行像素级交叉和遮挡,要求虚拟场景具有真实的光照,并与真实场景自然混合;而AR更加强调虚拟图像的信息性,需要在正确的位置出现,为用户增加信息量,但对其与真实场景的遮挡和光照不做重点强调。这是MR和AR的不同点。

MR和AR都是对现实的增强,它们的最大共同点在于此。AR对虚拟图像的真实感没有严格要求,但越真实越好;而MR对虚拟图像的真实感有严格要求。因此,AR的定义比MR更加宽泛,MR比AR更加严格,MR和AR是被包含关系,MR是AR的子集(高真实感的AR)。

图2 VR、AR和MR的关系

其他相关概念及关系

互联网上还存在另外几个容易与本文提到的MR混淆的概念。

介导现实(Mediated Reality)

介导现实是一种人们不仅仅通过肉眼,而是通过设备感知的现实,对现实的内容进行了一些改变,包括增加或减少信息,是一个更加宽泛的概念。基本上,介导现实囊括了所有非完全通过肉眼观察世界的情况,包括通过屏幕看到的虚拟世界,所看到的画面或其他感觉与肉眼看真实世界有所不同。(从这个定义来看,人们戴上近视眼镜观察真实场景也属于介导现实的范畴)因此,介导现实包含了前面提到的VR、AR和MR。

计算机图形图像技术(CG,Computer Graphics)

要绘制虚拟图像,就需要采用计算机图形图像技术。计算机屏幕是栅格的,一个栅格就是一个像素,该像素一般由RGB三个子像素组成,通过三原色混色原理形成彩色。一个像素同一时刻只能显示一种颜色,屏幕上有千千万万个像素,像素的数量称为屏幕的分辨率,一定长度上的像素数量称为像素密度(如PPI代表1英寸长度上的像素数量)。分辨率越高,图像的细节越多(信息量越大);像素密度越高,图像越细腻(越不容易看出图像是由一个个像素组成的)。计算机图形图像技术是一门研究如何在栅格屏幕上显示图像的技术,包括二维图像、三维图像,也包括文字(文字也要转化为栅格图像才能在屏幕上显示)。VR、AR和MR里显示的虚拟图像就是栅格图像,离不开计算机图形图像技术的支持,因此VR、AR和MR是CG的具体应用,应包含在CG内。

图4 光栅图像,PPI值越大,图像越细腻

CG属于计算机技术(Computer Technology),因此CG包含在计算机技术内。而介导现实可以使用计算机技术,也可以不使用计算机技术(如纯光学技术),所以介导现实并不完全包含在计算机技术内。

综上所述,VR、AR、Mixed Reality、Mediated Reality、CG和Computer Technology的关系如图所示:

图5 VR、AR、Mixed Reality、Mediated Reality、CG、Computer Technology关系图

关于英特尔的MR

英特尔近期发布的Project Alloy称为Merged Reality,缩写也是MR。Alloy设备从外观看更接近VR,是一个封闭结构的头盔,屏幕中的内容都是计算机绘制的。但英特尔不称其为VR,理由如下:该头盔具有感知真实现场的功能,虽然真实现场的画面没有直接在头盔中显示,但是它会对计算机绘制的画面实时产生影响。例如,它可以感知用户位置的变化,如果用户戴着Alloy头盔向前走一步,设备可以准确地感知到这个距离变化并立刻反映在虚拟画面中(如让虚拟画面向后退一步)。有人可能会说,HTC VIVE和Oculus Rift也能做到这一点。英特尔解释说,它们需要借助外部设备才能实现(HTC VIVE要借助外部激光定位设备,Oculus Rift借助外部红外摄像头),而Alloy完全不依赖外部设备,Alloy上面有“眼睛”通过“观察”真实场景推算自身的位置和角度,使用的方法是SLAM算法,而这正是AR设备的功能。另外,Alloy还可以实时识别用户的手势,并与虚拟世界进行交互,而且能够实现用户之间的交互。当有真实的用户接近Alloy时,Alloy能够感知出来,并立刻反映在虚拟画面中(如虚拟画面里出现一个人),从而实现了虚拟世界和真实世界的融合(至少戴着Alloy头盔不会撞到真实世界的墙壁了)。所以英特尔称之为Merged Reality,该MR与混合现实的定义有所不同。从技术实现上分析,英特尔的Merged Reality同时使用了VR技术和AR技术,所以英特尔称Merged Reality = VR + AR。

图6 Alloy头盔

不过从功能上来说,Alloy是VR的增强版,主要还是提供VR体验,只是使用了一些AR的技术,让VR体验更出色,所以用VR+来定义更加贴切。

关于微软的MR

自从Hololens问世以来,大家一直称其为AR设备,但微软CEO在今年6月份的微软开发者峰会上表示,Hololens不是AR设备,而是MR(Mixed Reality)设备。猜想其原因是大家称Google Glass为AR眼镜,而Hololens显然比Google Glass强大得多,若称其为AR设备,就会拉低到Google Glass的水平,微软不太愿意。

实际上,按照AR的定义,如果完全实现AR功能是非常酷的。AR并非简单地将虚拟画面叠加到真实场景中,而是必须对真实场景进行认知,包括三维结构和内容,这样计算机绘制的虚拟画面才能很好地对现实进行“增强”。例如,要在道路上显示一个导航箭头,如果没有正确识别道路的位置,这个箭头就无法与道路自然贴合。

纵观Google Glass的两代产品,其实现的功能其实不能算是AR。Google Glass是一个穿戴式移动设备,包含摄像头、显示屏、处理器和电池。用户使用Google Glass主要是查看屏幕上显示的天气、时间、资讯等内容,与眼镜外面的真实场景关联不大。另外,Google Glass的一个重要功能是声控拍照和浏览照片,这只能说是一台戴在眼睛上的微型相机,并非AR设备。

图7 Google Glass

但Google Glass是以AR眼镜的名义切入市场的,虽然它没有很好地实现AR功能,但市场上都称其为AR设备,导致大家把AR的概念降级到Google Glass的水平。其实Hololens更像是AR设备,而且Hololens推出后,市场上大部分专业人员也是这样认为的。后来可能是出于市场定位的原因,加上Magic Leap的火爆(Magic Leap称自己的设备为MR设备),使微软不甘于成为已经被Google Glass降级的AR设备,所以才有了微软改口一说。

图8 Google Glass和Hololens

所以根据以上分析,Hololens还是偏向AR的,但比AR多了交互功能,用AR+来定义更加贴切。

考虑到VR+和AR+后,整个关系如图所示:

图9 总体关系图

虽然VR、AR(MR)在定义上有严格区分,但在产品上是可以融合的。具体产品可以同时包含VR和AR的功能,可以在这两个功能之间切换,或者在不同的软件下实现VR或AR的功能。例如,普通的智能手机,安装AR软件后可以实现AR功能,放入Cardboard运行VR软件时又能实现VR功能。

VR、AR(MR)各有各的应用场合和存在空间,再强大的AR设备也无法替代VR功能。因此,同时兼容VR和AR功能的设备很可能会成为下一个开发热点,也许那种设备会被称为XR设备。

作者信息

孟子菇凉

孟子菇凉

共发布了 3994 篇文章