VR 如何复活沉寂已久的 3D 音效

人类大脑十分神奇，仅依靠两只耳朵和耳部周围的软骨，就能凭借声音线索在 3D 空间中精准定位物体。你不妨停下手中的事，仔细聆听周围的声音，即便音源不在视线范围内，你也能大致判断出其位置，这便是声音的定位效果。这一能力极为强大，尽管多数人习以为常，但它在生活的方方面面都发挥着重要作用，比如帮助我们安全过马路、避开恶犬，当然也包括为游戏营造沉浸感。

现实与 VR 世界的感官利用

在现实生活中，我们拥有五感（若处于 M. Night Shyamalan 导演的电影世界，或许还能拥有第六感），分别是触觉、味觉、嗅觉、视觉和听觉。然而，在 VR 游戏世界里，我们主要能自由运用的只有视觉和听觉。

从某些方面来看，这反而具有优势（例如在僵尸游戏中启用味觉，恐怕没人愿意尝试）。既然在 VR 中只有这两种感觉可供利用，那么要打造真正的沉浸式游戏，就需要将视觉和听觉发挥到极致，即需要高质量的 3D 图像和 3D 音效。

尽管近年来图形领域持续发展进步，但 PC 端音效的发展历程却显得颇为混乱，既有层出不穷的新发明，也有停滞不前甚至倒退的阶段。不过，随着 VR 产品的问世与发展，真正的 3D 音效似乎迎来了复兴。此次，它汲取了过去发展中的经验教训，有望将沉浸式音效体验推向新的高度。

3D 音效急需复苏

3D 音效如今面临着困境。正确实现的 3D 音效极具魅力，但近几十年来，其整体质量却不尽如人意。要理解 VR 为何能复兴 3D 音效，就必须先了解 3D 音效为何需要复苏。

3D 音效利用空间坐标轴（x、y、z 轴）来确定每个声音与听者的坐标位置。然而，大多数现代游戏仅将声音在水平方向上进行扩展，在纵向上几乎缺乏高度和距离感。这意味着我们所界定的声音对于听者而言，就像一个静止的呼啦圈，只能提供微弱的伪 3D 效果。

音频发展历程

从某些角度来看，音效在过去几十年中取得了显著的进步，尤其是在保真度和信噪比方面。自 19 世纪末期托马斯·爱迪生通过留声机首次回放声音以来，音频领域已经取得了长足的发展。然而，尽管在保真度和预录方面持续进步，但 3D 领域的实时音效建模却差强人意。

那么，在游戏中创造优秀的 3D 音效究竟有多难？为何许多游戏中缺乏 3D 音效？实际上，重现高保真音效并不困难，但要重现 3D 空间中的动态行为却颇具挑战。

空间障碍

首先，我们需要预录一个音效样本，它可以是僵尸的呻吟、开枪的声音，或者是朋友在雪地里的脚步声。无论音效为何，都存在一个音源和一个听者。

音源和听者都需要在 3D 空间中占据一个位置，这一过程被称为空间定位。本质上，这意味着音源和听者都具有完整、动态的 x、y、z 轴坐标，涵盖从左到右、从上到下、从前到后的各个方向。随着它们位置的变化，预录的声音样本也必须相应改变。从左到右、从前到后的关系用方位角（azimuth）来描述，从上到下的关系则称为海拔（elevation），此外还有距离因素。尽管空间定位对于声音的沉浸效果至关重要，但它只是其中的一部分。声音在到达听者位置之前，需要在空间中沿着复杂弯曲的路径传播。

如同光一样，声音实际上很少沿直线从点 A 传播到点 B。根据周边环境的不同，声音在传播过程中可能会经历成千上万种路径变化。声音可以像光一样被反射，反射又可细分为早反射（early reflections）和迟反射（late reflection）；声音也可以被吸收（或减弱），甚至可以被完全隔绝，如声音封闭（sound occlusion）。在一个空间内，声音还可能产生回声（盘绕的混响/ convoluted reverberations），这些都取决于声音的传播路径。将这些环境因素综合起来，就是所谓的声音氛围（audio ambiance）。

由于这些环境因素对音波传播的影响，大大增加了计算机处理的难度。打个不太恰当的比方，这就如同在游戏中加入一个额外的物理引擎，如声波追踪系统。这也是硬件加速音效常用且合理的理由。因此，时至今日，大多数游戏仍未充分开发空间定位和声音氛围。

Aureal 技术

现在，不妨戴上一副耳机，体验一下这项诞生于 20 世纪 90 年代末的即时 3D 音效科技。这项名为 A3D 2.0 的技术，能够实时实现上述提到的大多数声音效果，其拥有者是 Aureal（傲锐）。

该技术在很大程度上依赖于头部相关传递函数（head - related transfer functions，或 HRTFs）以及用于计算 3D 音源如何进入人脑的数学算法，这种算法还需考虑耳朵和上半身的身形。这本质上有助于我们复制声音线索，从而准确地定位音源或将音源限制在特定区域。需要再次强调的是，这项技术在上世纪 90 年代末期就已实现。

如果你听了上述链接中的音效后，感觉自己的耳朵受到了欺骗，这是正常的感受。既然这项技术多年前就已存在，为何如今许多游戏的音效仍不如它呢？原因归结起来就是“竞争”。

竞争的负面影响

理论上，竞争是有益的，能够促使产品质量不断提高，就像跑步比赛中，当有人即将追上你时，你会加速前进。然而，不幸的是，竞争也可能产生“劣币驱逐良币”的负面效应。

Aureal 是最早开拓 3D 音效领域的公司之一。即便保守评价，其音效技术也十分出色，尤其是考虑到在上世纪 90 年代末就能达到那样的水平。然而，随后其最大的竞争者 Creative（创新）起诉 Aureal 侵犯专利权。尽管普遍认为 Aureal 的音频技术比 Creative 更为优秀，但这场官司耗费了 Aureal 大量的财力，使其无法继续运营。总之，这两家公司未能进行良性竞争，音频技术成为了这场恶性竞争的牺牲品。这场恶性竞争不仅阻碍了 3D 音效的发展，还增加了消费者的开支，更糟糕的是，产品价格提高了，质量却反而下降。

在被称为 3D 音效黄金年代的时期，Creative 也在继续创新，但其创新大多基于微软的核心技术 DirectSound 和 DirectSound3D。

DirectX 相关技术

我们先来了解一个常用的术语——DirectX（微软创建的多媒体编程接口），它通常在描述某些炫酷的图形特征时被提及。尽管 DirectX 常与 3D 图形联系在一起，但实际上它由大量多媒体应用程序编程接口（Application Programming Interfaces，API）组成，简单来说，就像是多级软件，将强大的软件与相对较弱的软件连接起来运行。

DirectX 的图形 API 是 Direct3D，大多数人在提及 DirectX 时，实际上指的是 Direct3D。而 DirectSound 则相当于对应的音效 API，它还有扩展部分 DirectSound3D。

DirectSound（以及 DirectSound3D）有两个核心功能。其一，它能够创建一个标准化、统一化的环境，促进 3D 音效的发展，使软件开发者能够轻松利用。其二，它能让硬件为 3D 音效加速，这是一项复杂的计算任务。直到 2006 年，DirectSound 和 DirectSound3D 一直是许多音频应用的核心。然而，随着 Windows Vista 系统的发布，情况发生了变化。

技术陨落与余波

Windows Vista 系统发布后，微软停用了 DirectSound3D，这使得 Creative 多年来音频发展的基础化为乌有。无论是标准音效 API 还是硬件加速都瞬间失去了活力。为了理解这一举措造成的混乱程度，不妨想象一下微软突然停止使用 Direct3D 的情景。尽管图形行业自我恢复的可能性较高，但这无疑会对图形界产生巨大影响。从某些角度看，移除 DirectSound 和 DirectSound3D 有一定的好处，但对于当时的音频状况而言，这是一个沉重的打击。这就好比 Creative 给 Aureal 的轮胎放了气，而当 Creative 准备上路时，微软直接卸掉了它的轮胎。

在 DirectSound3D 被停用初期，很多人认为硬件加速是多余的。从某种程度上说，这种观点有一定道理，但多年来游戏中软件执行部分一直较为薄弱，原因在于其无法进行足够的运算，从而无法创建真正的 3D 音效。从乐观的角度看，近一个世纪以来，3D 音效虽在退步，但在替代软件的帮助下，至少还在艰难地找回自己的节奏。

尽管从 Vista 开始的替代产品大多基于软件制造，但也有少数硬件加速解决方案，如 AMD 的 TrueAudio 技术（一种免费且简单的实时无损音频编解码器），它利用 GPU 进行运算，从而创造精准的 3D 音效。考虑到声音是一种物理现象，以及 GPU 在物理渲染中日益重要的作用（如 Nvidia 的 PhysX），说 GPU 能够计算出精准的沉浸式 3D 音效似乎并不牵强。然而，如今的 3D 音效领域仍然支离破碎。

如今再回首，解决方案是软件还是硬件已不再重要，关键是要实现真正的空间定位，营造环境氛围。近十年来，这些过程往往被敷衍对待。随着 VR 的到来，对真正 3D 音效的需求终于得到了重视。

VR 对 3D 音效的需求

VR 的核心在于沉浸感。Oculus Rift 特别强调了临场感的概念，即让玩家在肉体上感觉自己身处某一环境中。视觉和听觉都能增强这种感觉的逼真度。

在 VR 中，实现沉浸感和临场感画面的主要方式是通过低延迟的头部追踪。当你转头、匍匐前进时，显示屏能以几乎察觉不到的延迟匹配你的实时视野。有趣的是，头部追踪系统也正是真正的 3D 音效至关重要的原因。

在现实生活中，我们常常会微微转动或抬高头部，以确定某个声音的确切来源，大脑会记录下这些声音的差异。鼠标视角在一定程度上能模仿这种行为，因此对于鼠标游戏来说，3D 音效是一个不错的选择，但头部追踪系统对 3D 音效的需求几乎是强制性的。

3D 音效：VR 的必需品

VR 中的音效既可以成为临场感的亮点，也可能成为败笔。正确实现的 3D 音效能够增强场景的临场感，为玩家传递各种物体的位置信息和环境信息。通过头部运动追踪一个运动中的物体固然重要，能够听到与该物体实时位置相匹配的声音同样重要。视觉和听觉可以相互增强，一旦两者相互冲突，沉浸感就会消失。

想象一下，你看到一个物体在你的上方，但听到的声音却像是从旁边传来；或者你在听一个角色讲话，但无论你如何转头，声音似乎总是从正前方传来。如果出现这种情况，沉浸感将荡然无存，更谈不上临场感了。

3D 音效之所以重要，是因为当我们听到那些能够感知的声音时，听觉几乎可以替代我们无法实现的触觉，例如听到风吹过脸庞的声音或雨滴落在身边的声音。你可以通过观看 Oculus Connect 大会上的视频（需翻墙），进一步了解 3D 音效对 VR 的重要性。

当然，没有优秀的 3D 音效，沉浸感并非完全不存在，但真正的 3D 音效能够将这种感觉无限放大。这就是为什么 VR 如此坚定地推崇整合了空间定位和环境氛围的真正 3D 音效。

值得注意的是，由于耳朵对声音的连续性判断和准确定位能力，使用 HRTF 的耳机似乎比扬声器更能传递逼真的 3D 音效。

音频复苏

2014 年，Oculus 授权了 VisiSonic 的音频技术，并将其融入 Oculus Audio SDK 中。这项技术高度依赖定制的 HRTF，通过耳机再现精准的空间定位，这实际上就是 Aureal 在 20 年前推出的技术。

Oculus 不仅将这项技术整合到了其 Audio ADK 中，还免费提供，而且不仅在 VR 平台上免费，在其他任何平台（包括传统 PC 平台）上也是免费的。尽管市面上有各种第三方音频解决方案，但 Oculus 的这一举措为大家提供了一个高质量、易上手的 3D 音效基准，甚至为游戏内真正的 3D 音效设定了起跑线，而这条起跑线在近十年前 DirectSound3D 停用后就消失了。

一段时间以来，3D 音效一直处于低迷状态，也可以说它需要复苏。多亏了 VR 的出现，人们终于认识到 3D 音效复苏的重要性。3D 音效不再是可有可无的点缀，而是至关重要的元素，它能够放大和倍增整个 VR 体验，将临场感和沉浸感提升到图形无法达到的高度。

最后，让我们来听听 Valve 声音工程师对 3D 音效的看法。

VIA maximumpc 魔多 VR

博客详情

泰课在线

首页菜单

首页

学习中心

用户中心

作者信息

洞悉

最新文章

大小端详解

游戏业洗牌下的程序员心声：还在加班么？赚够钱了么？

游戏关卡的玩法规划设计思路

七个角度总结国内外游戏公司的理念差别

在Unity中使用单元测试让你的代码更稳固

运营实战分析：游戏运营该如何优雅地背锅