H.323语音编码
来自EEWiki.
背景:
H.323 由 ITU-T 定义,用于在因特网(VOIP)上传输语音。除了语音应用程序, H.323 结合 ITU-T T.120 系列标准还提供了视频通信和数据协作机制。H.323 是一种框架性结构规范,因为它包括了多种其它 ITU 标准。 H.323 架构定义了四个主要的组件:终端(Terminal)、网关(Gageway)、关守(Gagekeeper)、多点控制单元(MCU)。
H.323 结构的信息交换方式有五种类型:
音频(数字化)语音;
视频(数字化);
数据(文件或图像);
通信控制(功能支持交换、逻辑控制信道等);
控制连接和会话(安装和解除)。
音频编解码协议包括G.711协议(必选)、G.722、G.723.1、G.728、G.729等协议。
发展情况:
音频编码器对从麦克风输入的音频信息进行编码传输,在接收端进行解码以便输出到扬声器,音频信号包含数字化且压缩的语音。H.323支持的压缩算法符合ITU标准。为进行语音压缩,H.323终端必须支持G.711语音标准,传送和接收A律和u律。其它音频编解码器标准如G.722、G.723.1、G.729.A、MPEG-1音频则可选择支持。编码器使用的音频算法必须由H.245来确定。H.323终端应能对本身所具有的音频编解码能力进行非对称操作,如以G.711发送,以G.728接收。
H.323协议栈结构
G.711:关于声音频率的脉冲编码调制
G.722:7 kHz 音频编码 (64 kb/s)
G.723.1:传输速率为5.3和6.3 kb/s 的多媒体通信下的双速率语音编码。
G.728:通过低时延码激励线性预测编码实现16 kb/s 的语音编码 。
G.729:通过共扼结构—代数码激励线性预测编码实现8 kb/s 的语音编码 。
相关理论:
H.323会议系统中的音频(语音)编码方式主要有六种:G.711、G.722、G.723.1、G.728、G.729和MPEG audio。其中G.711是必备的,其它为可选项。除了上述六种编码方式外,也可以通过能力协商来采用其它方法。在图象编码方面,H.263采用了多种方法使编码尺度可变,即根据不同的信道质量对码流进行调整以保证适当的服务质量。对于语音编码,这一点同样重要。目前,H.323会议系统中主要采用G.723.1和G.729两种语音方式。
G.723.1是一个双速率的语音编码器,它的两个编码速率分别为6.3k和5.3k。高速率(6.3k)采用多脉冲激励最大似然量化(MP_MLQ)算法,低速率(5.3k)采用代数码本激励线性预测(ACELP)算法。这两种算法具有相同的理论基础,都是基于线性预测(LPC),都采用非周期性分量的激励源。不同之处在于对MP_MLQ采用多脉冲最大似然量化激励,而对ACELP采用的是代数码本激励。
G.723.1具有较好的语音质量。其5.3k速率编码,语音质量优于VCELP(8kb/s);其6.3k速率编码,语音质量等价于32kb/s的G.726建议相应指标。两者基本上均能达到长途电话质量的要求。G.723.1的缺点是固有时延较大。
G.729是一个8kb/s的语音编码标准,它采用的算法是共轭结构代数码本激励线性预测编码(CS_ACELP),能达到32kb/sADPCM语音质量。研究发现,CS_ACELP算法很有特点:作不太大的改动后,向下可达6.4kb/s,向上可达13kb/s,且可传送更好的语音质量。

