一种自适应音频感知响度调整方法

IPC分类号 : G10L19/00,G10L21/02

申请号

CN201210005515.1

可选规格: 数量

库存1件

确认取消

￥30000; 库存1件

首页

立即咨询

看了又看

专利摘要

本发明属于多媒体信息处理和音频分析领域，涉及一种自适应音频感知响度调整方法，包括：对于当前音频文件进行等响度滤波；对于音频信号按特定窗口大小计算其RMS能量值，从而得到整个音频文件的RMS能量序列；将RMS能量序列转换为分贝值序列，并对其进行升序排序；对升序的分贝值序列利用差分法计算二阶导数，并利用局部窗口平均法进行二阶导数序列的平滑处理；当序列过长时，对原始序列进行亚采样；在平滑后的二阶导数序列上搜索当前音频的最优稳定分贝区间，计算此区间的平均分贝值作为当前音频文件的最优稳定响度。采用线性映射的方法对该音频进行响度调整。本发明具有运行速度快、校正准确、符合声学感知、性能稳定、无损音频音质等优点。

说明书

技术领域

本发明属于多媒体信息处理和音频分析领域，涉及一种自适应音频感知响度估计与快速归一化的新型技术，可用于将不同响度感知基准的音频文件自动调整为统一的感知响度基准。

背景技术

ReplayGain(回放增益)标准是David Robinson于2001年提出的一套技术标准，用以衡量MP3音乐文件的感知响度，并对音频响度进行增益归一化处理(见文献：D.Robinson，″ReplayGain specification discussion″，www.replaygain.org，2010)。具体步骤是，首先对整个音频文件进行心理声学扫描，以量度它的感知响度和峰值电平；进而计算音频文件的原始响度与目标响度(通常定为89分贝的声压值)的差别增益值；将该音频文件的增益值和峰值电平值作为元数据存储于音频文件中，以便播放器能够根据这些元数据自动衰减(或放大)音量播放该文件，从而在回放不同的音频文件时得到近似一致的输出响度。ReplayGain标准可以缓解在播放不同专辑的音频文件时需要不断手动调整音量的问题，并避免对响度较高的歌曲产生削波。然而，ReplayGain标准对于音频文件感知响度的衡量采用了固定阈值(95％最大能量)的估计方法，难以保证其对不同类型音频感知响度的估计精度，尤其不能很好地剔除音频中由于自然发声过程所引起的极低与极高响度成份的不良影响，从而使得所估计的响度偏离真实听觉感知响度区间。

发明内容

本发明的目的是针对现有技术在自动估计不同音频文件的感知响度上的不足，提供一套实用的音频感知响度自适应调整方法，可以使用户方便地将不同音量基准的音频文件更为准确地自动调整到统一的感知响度基准。

为此，本发明采用如下的技术方案：

一种自适应音频感知响度调整方法，包括以下步骤：

a)对当前音频信号进行等响度滤波；

b)计算RMS能量序列：首先，将滤波后的音频信号按照时间间隔分割成若干个窗口，设每个窗口的数据量为M，计算每个窗口的均方根值，得到整个音频文件的RMS能量序列；

c)能量分贝转换：将RMS能量序列转换为分贝序列，并对分贝序列进行升序排序得到SDB序列；

d)采用差分法计算SDB序列的二阶导数SDB″序列；

e)设置一个局部窗口，利用局部均值对SDB″序列进行平滑操作，去除干扰噪声，得到wSDB″序列；

f)如果wSDB″序列长度大于某一特定阈值时，采用线性插值亚采样的方法降低样本数量，亚采样后的平滑二阶导数序列仍记为wSDB″序列；

g)构造衡量某一时间区间[t₁，t₂]是否为最优稳定分贝空间可能性的能量函数E(t1,t2)=α(t2-t1)+(1-α)std(wSDB′′(t1-t2)),]]>其中，std(·)为标准差，α为调制系数，wSDB″(t₁→t₂)表示wSDB″序列中从t₁到t₂的子段，遍历所有可能的时间区间[t₁，t₂]组合，求出其中能量函数取值最大的时间区间作为最优稳定分贝区间，并在此区间上求均值，得到当前音频文件的最优稳定分贝代表值；

h)按照83dB标准，恢复当前音频文件的最优稳定响度。

i)在当前音频文件的最优稳定响度的基础上，采用线性映射的方法，调整该音频的实际响度。

作为优选实施方式，本发明采用级联Yulewalk与二阶高通Butterworth滤波器组，对当前音频信号进行等响度滤波。

本发明在传统ReplainGain标准的基础上，采用较为成熟的等响度滤波器，针对ReplayGain算法在音频感知响度估计精度与灵活性方面的不足，设计了更为合理的自适应感知响度估计方法，避免了现有基于固定阈值的方法易受极低与极高音频响度成份影响的不足，更为符合声学感知机理，提高了对不同类型音频文件感知响度估计的精度。此外，本发明采用了基于线性映射的响度归一化方法，具有很好的实时性，并同时保持了音频在低、中、高响度部分的音质。本发明是对现有ReplayGain算法的改进，更好地考虑了各类音频文件低、中、高响度成份的分布，采用了自适应的感知响度估计技术，使得所估计的响度值更为符合真实听觉响度感知区间。与现有方法相比，本发明具有如下优点：

(1)响度估计更为准确。本发明基于等响度滤波器组提取音频响度特征，并在此基础上计算其RMS能量，建立响度分贝值升序序列；为了去除音频中极低与极高响度成份的不良影响，本发明提出了一个衡量音频稳定分贝区间的新型能量函数和相应的优化方法；与现有基于固定阈值的方法不同，本算法最终输出的感知响度，是对最优的音频稳定分贝区间求均值得到的。由于本方法兼顾了最优分贝区间的代表性与响度一致性，因而很好地去除了极低与极高响度成份的不良影响，提高了感知响度的估计精度。

(2)实时性高。本发明设计了简单实用的基于线性亚采样的数据降维方法，能够在保证响度估计精度的同时，提高算法的运行速度。此外，所采用的线性映射响度归一化方法，也极大地提高了处理效率，并保持了音频文件的原有音质。

附图说明

图1：音频最优稳定响度值估计方法流程图。

图2：音频感知响度归一化方法流程图。

图3：音频最优稳定分贝区间示例图。

图4：响度归一化处理前后音频振幅图像比对图。

具体实施方式

本发明提出了音频感知响度的自适应估计方法与相应的响度快速归一化方法。与现有ReplayGain标准基于固定阈值的方法不同，本发明对当前音频文件首先提取最优稳定分贝区间，进而在此区间上计算该音频文件的感知响度，并在文件较大时，采用线性亚采样技术进行数据降维，不仅提高了感知响度的估计精度，同时保证了算法的实时性。

本发明属于多媒体信息处理和音频分析领域，涉及一种快速而实用的音频响度感知归一化的新型技术，主要包括音频最优稳定响度值获取与响度归一化两部分，图1和图2分给给出了这两部分的流程图。

1.音频最优稳定响度值估计

如图1所示，对于输入音频文件，通过分析其等响度滤波器响应特征向量，计算该音频文件的最优稳定响度值，具体包括以下主要步骤：

1)等响度滤波

采用10系数的级联Yulewalk与150Hz二阶高通Butterworth滤波器组，对当前音频文件进行滤波。

2)计算RMS能量序列

RMS算法是一种估计音频能量的方法，被广泛地用于面向音频信号处理的滤波器设计中。其计算简单，具有良好的实时性，且与声压分贝值具有直接的关联关系。本发明所提出的音频感知响度估计方法也是基于RMS算法来对音频能量进行分段计算的。可参见文献N.Levinson，“维纳RMS准则在滤波器设计与预测中的应用The Wiener RMS(root mean square)error criterion in filter design and prediction”，vol.25，no.4，pp.261-278，J.Math.Phys.，1947。

首先，将音频信号分割N个大小为50ms的窗口，则每个窗口的数据量为：

M=1000Fs50=20Fs,---(1)]]>

其中，F_s为频率；然后，计算每个窗口的rms值，

rmsi=1MΣj=1Ma(j)2,---(2)]]>

其中，a(j)为第该音频文件j帧的振幅。对整个音频文件提取RMS能量，可以得到整个音频文件的RMS能量序列：

RMS＝[rms₁，rms₂，…，rms_N]。 (3)

3)能量分贝转换

将RMS能量序列转换为分贝序列：

DB＝[db₁，db₂，…，db_N]， (4)

其中，db_i＝20log₁₀(rms_i)代表第i个窗口的分贝值。进而，对DB序列进行排序，得到升序的SDB序列。

4)差分二阶求导

采用差分法计算SDB序列的二阶导数序列SDB″：

SDB″＝[sdb₃-2sdb₂+sdb₁，…，sdb_N-2sdb_N-1+sdb_N-2]。 (5)

5)局部平滑去除噪声

设置大小为11的局部窗口(窗口包含的数据为：当前信号+前五个+之后五个)，利用局部均值对SDB″序列进行平滑操作，去除干扰噪声，得到wSDB″序列。

6)线性插值降维

如果当前音频文件过大时(即：当wSDB″序列长度大于某一特定阈值L时)，为保证分析和处理的速度，需采用线性插值亚采样的方法降低样本数量，亚采样比例为：

scale=max_lenlen,---(6)]]>

其中，len为当前样本数量，max_len为算法允许的最大样本数量，max_len默认设置为500。

简便起见，亚采样后的平滑二阶导数序列仍记为wSDB″。

7)计算最优稳定响度

计算整个音频文件的最优稳定响度，需要考虑音频响度的整体分布，并且屏蔽极低与极高响度部分的影响，因此本方法首先从wSDB″序列中按照以下两个原则提取当前音频的最优稳定分贝区间：i)该区间应该尽可能长，以便代表整个音频的响度分布；ii)该区间的响度应尽可能一致。为达到这一目标，本发明提出如下能量函数以衡量某一区间[t₁，t₂]作为最优稳定分贝空间的可能性：

E(t1,t2)=α(t2-t1)+(1-α)std(wSDB′′(t1-t2)),---(7)]]>