phymath999: 语音编码(Speech codec)

Thursday, February 21, 2013

语音编码(Speech codec)

语音网关设备常用语音编码(Speech codec)介绍（二）

2012-12-17 网经科技

语音网关设备常用语音编码(Speech codec)介绍（一）

2012-12-13 网经科技

编码是一个通过一些我们制定的规则把一定的信息内容如语音、视频、数字、文本等转换成一些简单的可供另一种设备使用或分析的过程。我们所说的语音编码就是一个对模拟的语音信号进行编码，将模拟信号转换成数字信号，从而降低传输码率再进行数字传输的过程。常用的语音编码可被分类为波形编码、参量编码（音源编码）和混合编码。波形编码是指将时域的模拟话音的波形信号经过取样、量化、编码后形成的数字话音信号。参量编码是一种基于人类语言的发音机理，找出表征语音的特征参量，对特征参量进行编码。混合编译码是一种结合波形编译码和参量编译码优点后形成的编码。
现在市场上语音网关设备的常用编码有G.711, G.723, G.726 , G.729, ILBC，QCELP, EVRC, AMR, SMV等。
G.7xx 是由国际电信联盟(ITU)推出的一组ITU-T标准。主要用于电话方面音频压缩和解压缩。在电话技术中，有两个主要的算法标准，分别定义在 mu-law 算法（美国使用）和 a-law 算法（欧洲及世界其他国家使用）中。两者都是基于对数关系的，但对于计算机的处理来说，后者更为简单。在国际标准中，统一使用 MOS（Mean Opinion Score）方法评价语音压缩后的质量。在 MOS方法中，电话语音质量的标准定为4分。也就是说，如果一种算法将语音压缩后，MOS 值能达到4分，即说明其语音质量和电话质量等同，用户无法分辨出其中的区别。G.7xx中广泛应用的有：G.711，G.723, G.726, G.729. 每一种又有很多分支，如G.729 就有g.729A, g.729B and g.729AB。

上一篇我们介绍了语单编码的一些定义、分类等，还列出了语音网关设备常用编码,这一篇我们介绍一下G.7xx系列语音编码。
G.7XX系列语音编码是由ITU 推出的, 现在广泛应用的有：G.711，G.723, G.726, G.729. 它们中每一种又有很多分支，例如G.729有g.729A、g.729B和g.729AB这几种分支。
G.711:
G.711是一种语音模拟信号的非线性量化，可分为两种类型:G.711 A-law 和 G.711 u-law.不同的国家和地方会选取其中一种作为自己的标准. G.711比特率(bitrate)是64kbps. 更详细的资料可以在ITU下到相关的说明，下面列出一些主要性能参数：
+ G.711（PCM方式：PCM＝脉码调制：Pulse Code Modulation）
- 采样率：8kHz
- 信息量：64kbps／channel
- 理论延迟：0.125msec
- 品质：MOS值4.10

G.726:
G.726有四种码率：40, 32, 24, 16 kbit/s Adaptive Differential Pulse Code Modulation (ADPCM)，最为常用的方式是 32 kbit/s，但由于其只是 G.711速率的一半，所以可将网络的可利用空间增加了一倍。G.726规定了一个 64 kbpsA-law 或 µ-law PCM 信号是如何被转化为40, 32, 24或16 kbps 的 ADPCM 通道的。在这些通道中，24和16 kbps 的通道被用于数字电路倍增设备(DCME)中的语音传输，而40 kbps 通道则被用于 DCME 中的数据解调信号（如4800 kbps 或更高的调制解调器）。
G.726 encoder 输入一般都是G.711 encoder的输出：64kbps A-law or u-law.其算法实质就是一个ADPCM，自适应量化算法。
G.729:
G..729语音压缩编译码算法采用算法是共轭结构的代数码激励线性预测(CSACELP)，是基于CELP编码模型的算法；能够实现很高的语音质量（长话音质）和很低的算法延时；算法帧长为10ms，编码器含5ms前瞻，算法时延15ms；其重建语音质量在大多数工作环境下等同于32kb/s的ADPCM（G.726），MOS分大于4.0；编码时输入16bitPCM语音信号，输出2进制比特流；译码时输入为2进制比特流，输出16bitPCM语音信号；在语音信号8KHz取样的基础上，16bit线性PCM后进行编码，压缩后数据速率为8Kbps；具有相当于16：1的压缩率。
G.729系列在当前的VOIP得到广泛的应用，且相关分支较多，可以直接从ITU上得到source code 和相关文档。
G.729（CS-ACELP方式：Conjugate Structure Algebraic Code Excited Linear Prediction）
+ 采样率：8kHz
- 信息量：8kbps／channel
- 帧长：10msec
- 理论延迟：15msec
- 品质：MOS值3.9
G.723.1:
G.723.1是一种双速率的语音编码器，ITU-T建议应用于低速率多媒体语音或其它音频信号服务中的压缩算法；其应用目标系统包括H.323、H.324等多媒体通信系统，当前该算法已成为IP电话系统中的必选算法之一；编码器帧长为30ms，还有7.5ms的前瞻，编码器的算法时延为37.5ms；编码器先对语音信号进行传统电话带宽的滤波（基于G.712），再对语音信号用传统8000-Hz速率进行抽样（基于G.711），并变换成16 bit线性PCM码作为该编码器的输入；在解码器中对输出进行逆操作来重构语音信号；高速率编码器使用多脉冲最大似然量化（MP-MLQ），低速率编码器使用代数码激励线性预测（ACELP）方法，编码器和解码器都必须支持此两种速率，并能够在帧间对两种速率进行转换；此系统同样能够对音乐和其他音频信号进行压缩和解压缩，但它对语音信号来说是最优的；采用了执行不连续传输的静音压缩，这就意味着在静音期间的比特流中加入了人为的噪声。除了预留带宽之外，这种技术使发信机的调制解调器保持连续工作，并且避免了载波信号的时通时断。

(注：资料来源于互联网，如果存在相关版权问题请联系我们及时删除)

phymath999

Thursday, February 21, 2013

语音编码(Speech codec)

语音网关设备常用语音编码(Speech codec)介绍（二）

语音网关设备常用语音编码(Speech codec)介绍（一）

No comments:

Post a Comment