嵌入式媒体处理中的语音处理模型--上海韬放电子科技有限公司

24小时联系电话:18217114652、13661815404

中文

您当前的位置：: 首页>; 电子资讯>; 公司新闻>; 嵌入式媒体处理中的语...

公司新闻

嵌入式媒体处理中的语音处理模型

2021-06-29

嵌入式媒体处理中的语音处理模型

语音和音频处理都处理可听数据，尽管语音处理的频率范围是 20 Hz 到 4 kHz，而音频处理的频率范围是 20 Hz 到 20 kHz。语音和音频处理之间有一个主要区别：语音压缩机制基于人类声带，而音频压缩机制基于人耳系统。

语音处理是数字信号处理的一个子集。人类声道的某些特性与一些数学技术一起使用来实现语音信号的压缩，以便通过 VoIP 和蜂窝网络传输数据。

语音处理大致分为：

语音编码：通过删除数据中的冗余来压缩语音以减少数据大小以用于存储和流式传输。

语音识别：算法识别口语单词并将其转换为文本的能力。

说话人验证/识别：用于银行业的安全应用，以确定说话人的身份。

语音增强：用于消除噪音和增加增益，使录制的语音更清晰。

语音合成：人工生成人类语音以进行文本到语音的转换。

从语音处理的角度剖析人类声带

人耳对 50 Hz 至 4 KHz 之间的能量信号最为敏感。语音信号由声音序列组成。当空气被挤出肺部时，声道的声学激发产生声音/语音信号。肺在言语产生过程中充当供气设备。声带（如下图所示）实际上是改变声门面积的两层膜。当我们呼吸时，声带保持打开状态，但当我们说话时，它们会打开和关闭。

当空气被挤出肺部时，声带附近的气压就会升高。一旦气压达到某个阈值，声带/褶皱就会打开，空气流过它们会导致膜振动。声带振动的频率取决于声带的长度和声带的张力。该频率称为基频或音调频率，它定义了人类的音调。统计发现人类的基频在以下范围内：

男士 50 Hz 至 200 Hz

150 Hz 至 300 Hz 女性和

儿童 200 Hz 至 400 Hz

人类的语音可以大致分为三种类型的声音：

浊音：当空气从肺部流过声道时，声带振动产生的声音，例如 a、b、m、n 等。浊音带有低频成分。在浊音产生期间，声带大部分时间是闭合的。

清音：声带不振动的清音。空气通过声道的持续流动会产生清音，例如 shh、sss、f 等。清音带有高频分量。在清音产生期间，声带大部分时间是开放的。

其他声音：这些声音可以分类为：

鼻音：声带与鼻道在声学上耦合，即通过鼻孔和嘴唇发出的声音，例如 m、n、ing 等。

爆破音：这些声音是声道前部闭合处附近压力的积累和突然释放的结果，例如 p、t、b 等

声道的横截面积根据我们打算产生的声音而变化。共振峰频率可以定义为能量高度集中的频率。统计上，已经观察到对于每 kHz 大约有一个共振峰频率。因此，我们可以在 4 KHz 的人类语音频率范围内观察到总共 3-4 个共振峰频率。

由于人类语音的带宽为 0 到 4 KHz，我们基于奈奎斯特准则以 8 KHz 对语音信号进行采样以避免混叠。

语音制作模型

根据语音信号（浊音或清音）的内容，语音信号包括一系列脉冲（对于浊音）或随机噪声（对于清音）。这个信号频谱在声道中移动。声道充当频谱整形滤波器，即声道的频率响应被施加到传入语音信号上。声道的形状和大小决定了频率响应，从而决定了人声的差异。

开发准确的语音生成模型需要开发基于语音过滤器的人类语音生成机制模型。假定激发源和声道是相互独立的。因此，它们都是单独建模的。为了对声道进行建模，假设声道在 10 毫秒的时间段内具有定义的特征。因此，每 10 毫秒一次，声道配置会发生变化，从而产生新的声道参数（即共振/共振峰频率）

要建立准确的语音生成模型，必须建立基于语音滤波器的模型。该模型必须准确地表示以下内容：

人类语言产生机制的激发技术。

唇鼻发声过程。

声道的复杂操作。

浊音和

无声的讲话。

S(z) = E(z) * G(z) * A*V(z) * R(z)

在哪里：

S(z) => 模型输出的语音

E(z) => 激励模型

G(z) => 声门模型

A => 增益因子

V(z) => 声带模型

R(z) => 辐射模型

激励模型：模型的激励函数的输出将根据产生的语音的特征而变化。

在浊音过程中，激励将由一系列脉冲组成，每个脉冲以基音周期的间隔间隔开。

在清音过程中，激励将是白噪声/随机噪声类型的信号。

声门模型：声门模型专门用于人类语音的浊音部分。声门流在语音识别和语音合成机制中区分说话者。

增益系数：声音的能量取决于增益系数。通常，浊音的能量比清音的能量大许多倍。

声道模型：一连串无损管（短而圆柱形）构成声道的基础/模型（如下图 4所示），每个管都有自己的共振频率。无损管的设计因人而异。共振频率取决于管子的形状，因此不同人的声音也不同。

上述声道模型通常用于低比特率语音编解码器、语音识别系统、说话人认证/识别系统以及语音合成器。为每一帧语音导出声道模型的系数是必不可少的。用于导出语音编解码器中声道模型系数的典型技术是线性预测编码 (LPC)。LPC 声码器可以实现 1.2 到 4.8 kbps 的比特率，因此被归类为低质量、中等复杂度和低比特率算法。

使用 LPC，我们可以从过去的语音样本中导出当前的语音样本值。

在时域中，语音方程可以粗略表示如下：

当前语音样本 = [（系数 X 过去的语音样本）+ 增益修正的激励]

概括

语音信号的特性取决于人类语音产生系统。语音生成模型源自人类语音生成系统的基本原理。

因此，了解人类语音生成系统的特征对于设计语音压缩、语音合成和语音识别技术的算法至关重要。语音生成模型用于将模拟语音转换为数字形式，以通过电话应用程序（蜂窝电话、有线电话和互联网上的 VoIP 流）、文本到语音转换、语音编码以通过压缩有效利用带宽将语音信号降低比特率以在相同带宽内容纳更多用户。

上一篇：基础知识：什么是工业物联网？: 下一篇：您的系统是否需要 RTC 模块电路？

公司新闻

嵌入式媒体处理中的语音处理模型

相关新闻

电子资讯

最新新闻