心理声学(psychoacoustics)是研究声音和它引起的听觉之间关系的一门边缘学科。[1][2]心理声学一词似乎很令人费解,其实很简单,它就是指“人脑解释声音的方式”。压缩音频的所有形式都是用功能强大的算法将我们听不到的音频信息去掉。[3][4]例如,如果我扯着嗓子喊一声,同时轻轻地踏一下脚,您就会听到我的喊声,但可能听不到我踏脚的声音。通过去掉踏脚声,就会减少信息量,减小文件的大小,但听起来却没有区别。[5][6][7]
原理
心理声学模型是对人听感的统计性质的数学表述模型,它解释人各种听感的生理原理。
心理声学模型可以在主观听感劣化不多的条件下,大大降低数字音频信号传输的带宽。它主要基于人的听觉器官的生理结构和感知模式,通过对数字音频信号的相应处理,去除不可闻的信号成分及引入不可闻的畸变,达到普通熵[shāng]编码无法达到的压缩比率。 由于人耳听觉系统复杂,人类迄今为止对它的机理和听觉特性的某些问题总是还不能从生理解剖角度完全解释清楚。所以,对人耳听觉特性的研究仅限于在心理声学和语言声学内进行。人耳对不同强度和不同频率声音的一定听觉范围称为声域。在人耳的声域范围内,声音听觉心理的主观感受主要有响度、音高、音色等特征和掩蔽效应、高频定位等特性。其中响度、音度、音色可以在主观上用来描述具有振幅、频率和相位三个物理是的任何复杂的声音,故又称为声音“三要素”;而对于多种音源场合的人的耳掩蔽效应等特性尤为重要,它是心理声学的基础。