六、AAC 音频编码技术

AAC是高级音频编码（Advanced Audio Coding）的缩写，出现于1997年，最初是基于MPEG-2的音频编码技术，目的是取代MP3格式。2000年，MPEG-4标准出台，AAC重新集成了其它技术包括SBR或PS特性，目前AAC可以定义为⼀种由 MPEG-4 标准定义的有损音频压缩格式。

AAC是一种高压缩比的音频压缩算法，但它的压缩比要远超过较老的音频压缩算法，如AC-3、MP3等。并且其质量可以同未压缩的CD音质相媲美。
同其他类似的音频编码算法一样，AAC也是采用了变换编码算法，但AAC使用了分辨率更高的滤波器组，因此它可以达到更高的压缩比。
AAC使用了临时噪声重整、后向自适应线性预测、联合立体声技术和量化哈夫曼编码等最新技术，这些新技术的使用都使压缩比得到进一步的提高。
AAC支持更多种采样率和比特率、支持1个到48个音轨、支持多达15个低频音轨、具有多种语言的兼容能力、还有多达15个内嵌数据流。
AAC支持更宽的声音频率范围，最高可达到96kHz，最低可达8KHz，远宽于MP3的16KHz-48kHz的范围。
不同于MP3及WMA，AAC几乎不损失声音频率中的甚高、甚低频率成分，并且比WMA在频谱结构上更接近于原始音频，因而声音的保真度更好。
AAC采用优化的算法达到了更高的解码效率，解码时只需较少的处理能力。

1、AAC编码规格简述

AAC共有9种规格，以适应不同的场合的需要。这里再说明一下HE和HEv2的相关内容：

1）HE

HE-AAC v1（又称AACPlusV1，SBR)，用容器的方法实现了AAC（LC）+SBR技术。SBR其实代表的是Spectral Band Replication(频段复制)。简要叙述一下，音乐的主要频谱集中在低频段，高频段幅度很小，但很重要，决定了音质。如果对整个频段编码，若是为了保护高频就会造成低频段编码过细以致文件巨大；若是保存了低频的主要成分而失去高频成分就会丧失音质。SBR把频谱切割开来，低频单独编码保存主要成分，高频单独放大编码保存音质，“统筹兼顾”了，在减少文件大小的情况下还保存了音质，完美的化解这一矛盾。

2）HEv2

用容器的方法包含了HE-AAC v1和PS技术。PS指“parametric stereo”（参数立体声）。原来的立体声文件文件大小是一个声道的两倍。但是两个声道的声音存在某种相似性，根据香农信息熵编码定理，相关性应该被去掉才能减小文件大小。所以PS技术存储了一个声道的全部信息，然后，花很少的字节用参数描述另一个声道和它不同的地方。

2.AAC音频文件格式

1）. ACC 音频文件格式类型

AAC的音频文件格式有ADIF ＆ ADTS：

ADIF：Audio Data Interchange Format 音频数据交换格式。这种格式的特征是可以确定的找到这个音频数据的开始，不需进行在音频数据流中间开始的解码，即它的解码必须在明确定义的开始处进行，这种格式常用在磁盘文件中。

ADTS：Audio Data Transport Stream 音频数据传输流。这种格式的特征是它是一个有同步字的比特流，解码可以在这个流中任何位置开始。它的特征类似于mp3数据流格式。

AAC的ADIF文件格式如下：

简单说，ADTS可以在任意帧解码，也就是说它每一帧都有头信息。ADIF只有一个统一的头，所以必须得到所有的数据后解码。这两种的header的格式也是不同的，一般编码后的和抽取出的都是ADTS格式的音频流。

AAC的ADIF文件格式如下：

AAC的ADTS文件中一帧的格式如下：

2）. ADIF 的 Header 结构

ADIF 的头信息如下图：

ADIF头信息位于AAC文件的起始处，接下来就是连续的 Raw Data Blocks。

3）. ADTS 的 Header 头结构

一个 AAC 原始数据块长度是可变的，对原始帧加上 ADTS 头的封装，就形成了 ADTS 帧。ADTS 头中相对重要的信息有：采样率，声道数，帧长度，每一个带 ADTS 头信息的 AAC 流会清晰的告诉解码器它需要的这些信息，解码器才能解析读取。一般情况下 ADTS 的头信息都是 7 个字节，分为 2 部分：

　　- adts_fixed_header(); —— 固定头信息，头信息中的每一帧都相同.

　　- adts_variable_header(); —— 可变头信息，头信息则在帧与帧之间可变.

ADTS 的固定头信息：

Syncword: 总是0xFFF，代表一个ADTS帧的开始, 用于同步，解码器可通过0xFFF确定每个ADTS的开始位置.因为它的存在，解码可以在这个流中任何位置开始, 即可以在任意帧解码。
ID：MPEG Version: 0 for MPEG-4, 1 for MPEG-2
Layer：always: '00'
Protection_absent：Warning, set to 1 if there is no CRC and 0 if there is CRC
Profile：表示使用哪个级别的AAC，如profile的值等于 Audio Object Type的值减1，即profile = MPEG-4 Audio Object Type - 1
sampling_frequency_index: 采样率的下标.

channel_configuration：声道数. 比如2表示立体声双声道.

aac_frame_length: 一个ADTS帧的长度包括ADTS头和AAC原始流.
adts_buffer_fullness：0x7FF 说明是码率可变的码流.
number_of_raw_data_blocks_in_frame：表示ADTS帧中有number_of_raw_data_blocks_in_frame + 1个AAC原始帧.

注意：ACC LC和HE在采样率设置方面不同，LC格式的为正常索引，HE格式的索引为除2后对应的采样索引，这是因为：HE使用了SBR技术，即 Spectral Band Replication(频段复制)，所以存储同样的音频内容，HE文件较小。使用时采样率为LC的一半。

ADTS的可变头信息： preview

（1）Syncword 存在的目的是为了找出帧头在比特流中的位置，ADTS格式的帧头同步字为12比特的“1111 1111 1111”.

（2）ADTS的头信息为两部分组成，其一为固定头信息，紧接着是可变头信息。固定头信息中的数据每一帧都相同，而可变头信息则在帧与帧之间可变。

4）. AAC文件处理流程

(1). 判断文件格式，确定为ADIF或ADTS

(2). 若为ADIF，解ADIF头信息，跳至第6步。

(3). 若为ADTS，寻找同步头。

(4). 解ADTS帧头信息。

(5). 若有错误检测，进行错误检测。

(6). 解块信息。

(7). 解元素信息。

注意：有时候在处理AAC音频流的时候 (比如：把 AAC 音频的 ES 流从 FLV 封装格式中抽出来送给硬件解码器)，编码后的 AAC 文件在PC或者手机上不能播放，导致播放错误，很大可能的原因是 AAC 文件的每一帧缺少 ADTS 头信息文件的包装拼接，这时需要加上头文件 ADTS 即可。

3. AAC的RTP打包方式

AAC的RTP打包方式并没有向H.264那样丰富，我知道的只有一种方式，原因主要是AAC一帧数据大小都是几百个字节，不会向H.264那么少则几个字节，多则几千字节。

AAC的RTP打包方式就是将ADTS帧取出ADTS头部，取出AAC数据，每帧数据封装成一个RTP包。

需要注意的是，并不是将AAC数据直接拷贝到RTP的载荷中。AAC封装成RTP包，在RTP载荷中的前四个字节是有特殊含义的，然后再是AAC数据，如下图所示

其中RTP载荷的两个字节AAC包的个数，后面每两个字节表示包的长度。

4.AAC RTP包的时间戳计算

假设音频的采样率位44100，即每秒钟采样44100次

AAC一般将1024次采样编码成一帧，所以一秒就有44100/1024=43帧

RTP包发送的每一帧数据的时间增量为44100/43=1025

每一帧数据的时间间隔为1000/43=23ms

七、hls之m3u8、ts、h264、AAC流格式详解

HLS，Http Live Streaming 是由Apple公司定义的用于实时流传输的协议，HLS基于HTTP协议实现，传输内容包括两部分，一是M3U8描述文件，二是TS媒体文件。

1、M3U8文件

用文本方式对媒体文件进行描述，由一系列标签组成。

#EXTM3U

#EXT-X-TARGETDURATION:5

#EXTINF:5,

./0.ts

#EXTINF:5,

./1.ts

#EXTM3U：每个M3U8文件第一行必须是这个tag。
#EXT-X-TARGETDURATION：指定最大的媒体段时间长度（秒），#EXTINF中指定的时间长度必须小于或等于这个最大值。该值只能出现一次。
#EXTINF：描述单个媒体文件的长度。后面为媒体文件，如./0.ts。

2、ts文件

ts文件为传输流文件，视频编码主要格式h264/mpeg4，音频为acc/MP3。

ts文件分为三层：ts层Transport Stream、pes层 Packet Elemental Stream、es层 Elementary Stream。es层就是音视频数据，pes层是在音视频数据上加了时间戳等对数据帧的说明信息，ts层就是在pes层加入数据流的识别和传输必须的信息。

注：详解如下

（1）ts层 ts包大小固定为188字节，ts层分为三个部分：ts header、adaptation field、payload。ts header固定4个字节；adaptation field可能存在也可能不存在，主要作用是给不足188字节的数据做填充；payload是pes数据。

1）ts header

preview

PID

ts层的内容是通过PID值来标识的，主要内容包括：PAT表、PMT表、音频流、视频流。解析ts流要先找到PAT表，只要找到PAT就可以找到PMT，然后就可以找到音视频流了。PAT表的PID值固定为0。PAT表和PMT表需要定期插入ts流，因为用户随时可能加入ts流，这个间隔比较小，通常每隔几个视频帧就要加入PAT和PMT。PAT和PMT表是必须的，还可以加入其它表如SDT（业务描述表）等，不过hls流只要有PAT和PMT就可以播放了。

PAT表：他主要的作用就是指明了PMT表的PID值。

PMT表：他主要的作用就是指明了音视频流的PID值。

音频流/视频流：承载音视频内容。

adaption

preview

自适应区的长度要包含传输错误指示符标识的一个字节。pcr是节目时钟参考，pcr、dts、pts都是对同一个系统时钟的采样值，pcr是递增的，因此可以将其设置为dts值，音频数据不需要pcr。如果没有字段，ipad是可以播放的，但vlc无法播放。打包ts流时PAT和PMT表是没有adaptation field的，不够的长度直接补0xff即可。视频流和音频流都需要加adaptation field，通常加在一个帧的第一个ts包和最后一个ts包里，中间的ts包不加。

PAT格式

PMT格式

preview

2）pes层

pes层是在每一个视频/音频帧上加入了时间戳等信息，pes包内容很多，我们只留下最常用的。

preview

pts是显示时间戳、dts是解码时间戳，视频数据两种时间戳都需要，音频数据的pts和dts相同，所以只需要pts。有pts和dts两种时间戳是B帧引起的，I帧和P帧的pts等于dts。如果一个视频没有B帧，则pts永远和dts相同。从文件中顺序读取视频帧，取出的帧顺序和dts顺序相同。dts算法比较简单，初始值 + 增量即可，pts计算比较复杂，需要在dts的基础上加偏移量。

举例说明：

preview

点播视频dts算法

dts = 初始值 + 90000 / video_frame_rate，初始值可以随便指定，但是最好不要取0，video_frame_rate就是帧率，比如23、30。

pts和dts是以timescale为单位的，1s = 90000 time scale , 一帧就应该是90000/video_frame_rate 个timescale。

用一帧的timescale除以采样频率就可以转换为一帧的播放时长。

点播音频dts算法：

dts = 初始值 + (90000 * audio_samples_per_frame) / audio_sample_rate，audio_samples_per_frame这个值与编解码相关，aac取值1024，mp3取值1158，audio_sample_rate是采样率，比如24000、41000。AAC一帧解码出来是每声道1024个sample，也就是说一帧的时长为1024/sample_rate秒。所以每一帧时间戳依次0，1024/sample_rate，...，1024*n/sample_rate秒。

直播视频的dts和pts应该直接用直播数据流中的时间，不应该按公式计算。

3）es层

es层指的就是音视频数据，我们只介绍h.264视频和aac音频。

h.264视频

打包h.264数据我们必须给视频数据加上一个nalu（Network Abstraction Layer unit），nalu包括nalu header和nalu type，nalu header固定为0x00000001（帧开始）或0x000001（帧中）。h.264的数据是由slice组成的，slice的内容包括：视频、sps、pps等。nalu type决定了后面的h.264数据内容。

preview

红色字体显示的内容是最常用的，打包es层数据时pes头和es数据之间要加入一个type=9的nalu，关键帧slice前必须要加入type=7和type=8的nalu，而且是紧邻。

preview

aac音频

打包aac音频必须加上一个adts(Audio Data Transport Stream)头，共7Byte，adts包括fixed_header和variable_header两部分，各28bit。

fixed_header

preview

mp3音频

mp3音频不需要加adts头。

3. h264帧类型判断

当nalu type=5或1时，表示后面跟着的数据是视频数据，下面我们只列出前2项。

preview

4.mp4转ts

我们假设mp4格式中的视频编码为h.264，音频编码为aac。我们从mp4中获取的视频信息包括：sps、pps、dts、pts、帧率、帧数据、ticks（每秒滴答数）。音频信息包括：pts、采样频率、声道数、帧数据。mp4文件的dts和ts文件的dts是需要进行换算的，都是初始值 + 增量，但是增量计算是不同的。

视频信息获取：

音频信息获取：

mp4的stsd原子中包含很多关键的音视频编解码元信息。对于视频数据，不同的编解码格式stsd中包含的子原子类型是不同的。MP4的视频H.264封装有2种格式：h264和avc1，只要看到这两个FOURCC（四字节编码）。就可以肯定是h.264编码，区别在于slice是否有起始码。对于音频数据，stsd中包含的子原子只会是mp4a，mp4a又包含了一个子原子esds，判断音频编码格式的是esds中的第十一个字节，如果是0x40则说明是aac编码，如果是0x69则说明是mp3。

AVC1 描述:H.264 bitstream without start codes.一般通过ffmpeg转码生成的视频，是不带起始码0x00000001的，但是带有4字节的长度。
H264 描述:H.264 bitstream with start codes.一般对于一下HDVD等电影的压制格式，是带有起始码0x00000001的。

除了avc1和h264还可能是下面的FOURCC，只是名字不同而已。

MEDIASUBTYPE_AVC1 'AVC1' H.264 bitstream without start codes.
MEDIASUBTYPE_H264 'H264' H.264 bitstream with start codes.
MEDIASUBTYPE_h264 'h264' Equivalent to MEDIASUBTYPE_H264, with a different FOURCC.
MEDIASUBTYPE_X264 'X264' Equivalent to MEDIASUBTYPE_H264, with a different FOURCC.
MEDIASUBTYPE_x264 'x264' Equivalent to MEDIASUBTYPE_H264, with a different FOURCC.

Slice种的三种编码模式：I_slice、P_slice、B_slice

frame的3种类型：I frame、P frame、 B frame

1、NAL、Slice与frame意思及相互关系

NAL指网络提取层，里面放一些与网络相关的信息

Slice是片的意思，264中把图像分成一帧（frame）或两场（field），而帧又可以分成一个或几个片（Slilce）；片由宏块（MB）组成。宏块是编码处理的基本单元。

2、VCL视频编码层不做解释。

3、NAL nal_unit_type为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）。表示后面的数据信息为序列参数集（SPS）、图像参数集（PPS）、增强信息（SEI）。

4、H.264的参数集又分为序列参数集（Sequence parameter set）和图像参数集（Pictureparameterset）。

序列参数集：包括一个图像序列的所有信息，即两个IDR图像间的所有图像信息。

图像参数集：包括一个图像的所有分片的所有相关信息，包括图像类型、序列号等，解码时某些序列号的丢失可用来检验信息包的丢失与否。多个不同的序列和图像参数集存储在解码器中，编码器依据每个编码分片的头部的存储位置来选择适当的参数集，图像参数集本身也包括使用的序列参数集参考信息。

总结：

NAL单元中首先会有一个H.264 NAL type，根据这个可以判断是啥信息。如果是

H264NT_SLICE_DPA,H264NT_SLICE_DPB,H264NT_SLICE_DPC,H264NT_SLICE_IDR视频数据相关的，里面还会有Slicehead头信息，根据这个头信息，可以判断属于I-Slice（P-Slice或B-Slice），之后对于每个宏块，都会有MB head信息，根据宏块头信息可以判断块模式。

1)H.264 码流总体结构

h264的功能分为两层，视频编码层（VCL）和网络提取层（NAL）。H.264 的编码视频序列包括一系列的NAL 单元，每个NAL 单元包含一个RBSP。一个原始的H.264 NALU 单元常由 [StartCode] [NALU Header] [NALU Payload] 三部分组成，其中 Start Code 用于标示这是一个NALU 单元的开始，必须是"00 00 00 01" 或"00 00 01"。

preview

其中RBPS有分为几种类型：

preview

NAL的解码单元的流程如下： preview

2) H.264 NAL Header

占一个字节，由三部分组成forbidden_bit(1bit)，nal_reference_bit(2bits)（优先级），nal_unit_type(5bits)（类型）。

forbidden_bit:禁止位。

nal_reference_bit：当前NAL的优先级，值越大，该NAL越重要。

nal_unit_type ：NAL类型。参见下表

preview

几个例子：

3)AAC

ADTS是个啥

ADTS全称是(Audio Data Transport Stream)，是AAC的一种十分常见的传输格式。
记得第一次做demux的时候，把AAC音频的ES流从FLV封装格式中抽出来送给硬件解码器时，不能播;保存到本地用pc的播放器播时，我靠也不能播。当时崩溃了，后来通过查找资料才知道。一般的AAC解码器都需要把AAC的ES流打包成ADTS的格式，一般是在AAC ES流前添加7个字节的ADTS header。也就是说你可以吧ADTS这个头看作是AAC的frameheader。

preview

ADTS内容及结构

ADTS 头中相对有用的信息采样率、声道数、帧长度。想想也是，我要是解码器的话，你给我一堆得AAC音频ES流我也解不出来。每一个带ADTS头信息的AAC流会清晰的告送解码器他需要的这些信息。

一般情况下ADTS的头信息都是7个字节，分为2部分：

adts_fixed_header();

adts_variable_header();

preview

syncword ：同步头总是0xFFF, all bits must be 1，代表着一个ADTS帧的开始

ID：MPEG Version: 0 for MPEG-4, 1 for MPEG-2

Layer：always: '00'

profile：表示使用哪个级别的AAC，有些芯片只支持AAC LC 。在MPEG-2 AAC中定义了3种：

preview

sampling_frequency_index：表示使用的采样率下标，通过这个下标在 Sampling Frequencies[ ]数组中查找得知采样率的值。

There are 13 supported frequencies:

0: 96000 Hz

1: 88200 Hz

2: 64000 Hz

3: 48000 Hz

4: 44100 Hz

5: 32000 Hz

6: 24000 Hz

7: 22050 Hz

8: 16000 Hz

9: 12000 Hz

10: 11025 Hz

11: 8000 Hz

12: 7350 Hz

13: Reserved

14: Reserved

15: frequency is written explictly

channel_configuration: 表示声道数

0: Defined in AOT Specifc Config

1: 1 channel: front-center

2: 2 channels: front-left, front-right

3: 3 channels: front-center, front-left, front-right

4: 4 channels: front-center, front-left, front-right, back-center

5: 5 channels: front-center, front-left, front-right, back-left, back-right

6: 6 channels: front-center, front-left, front-right, back-left, back-right, LFE-channel

7: 8 channels: front-center, front-left, front-right, side-left, side-right, back-left, back-right, LFE-channel

8-15: Reserved

preview

frame_length : 一个ADTS帧的长度包括ADTS头和AAC原始流.

adts_buffer_fullness：0x7FF 说明是码率可变的码流

4).将AAC打包成ADTS格式

如果是通过嵌入式高清解码芯片做产品的话，一般情况的解码工作都是由硬件来完成的。所以大部分的工作是把AAC原始流打包成ADTS的格式，然后丢给硬件就行了。

通过对ADTS格式的了解，很容易就能把AAC打包成ADTS。我们只需得到封装格式里面关于音频采样率、声道数、元数据长度、aac格式类型等信息。然后在每个AAC原始流前面加上个ADTS头就OK了。

八、Ubuntu构建ZLMediaKit流媒体服务框架（含webrtc）

参照：https://segmentfault.com/a/1190000041737848

1.获取代码

代码从git获取，如果没安装git，需要执行

sudo apt-get install git

cd /opt

#拉取项目代码

git clone https://github.com/ZLMediaKit/ZLMediaKit.git

#国内用户推荐从同步镜像网站gitee下载

git clone --depth 1 https://gitee.com/xia-chu/ZLMediaKit

cd ZLMediaKit

#不要忘了这句命令

git submodule update --init

2.安装编译器

#安装gcc

sudo apt-get install build-essential

#安装cmake

sudo apt-get install cmake

3.依赖库

1）openssl安装编译

#如果之前安装了可以先卸载:apt -y remove openssl

cd /opt

#从git下载

git clone https://github.com/openssl/openssl.git

#如果git下载太慢或者连接有问题（比如我），可以到gitee下载

git clone https://gitee.com/mirrors/openssl.git

#下面的依次执行

mv openssl openssl-src && cd openssl-src

./config --prefix=/opt/openssl

make -j4

sudo make install

cd /opt/openssl && cp -rf lib64 lib

2）libsrtp安装编译

cd /opt

git clone https://gitee.com/mirrors/cisco-libsrtp.git

cd cisco-libsrtp

./configure --enable-openssl --with-openssl-dir=/opt/openssl

make -j4

sudo make install

4.构建和编译ZLMediaKit

cd /opt/ZLMediaKit

mkdir build

cd build

cmake .. -DENABLE_WEBRTC=true -DOPENSSL_ROOT_DIR=/opt/openssl -DOPENSSL_LIBRARIES=/opt/openssl/lib

cmake --build . --target MediaServer

补充GDB调试

SET(CMAKE_BUILD_TYPE "Debug")

SET(CMAKE_CXX_FLAGS_DEBUG "$ENV{CXXFLAGS} -O0 -Wall -g2 -ggdb")

SET(CMAKE_CXX_FLAGS_RELEASE "$ENV{CXXFLAGS} -O3 -Wall")

5.补充操作

上一步操作执行后，运行服务成功但没有demo页面，发现对应的www文件夹以及ssl证书并未放入指定目录，需要进行补充操作

#把www文件夹复制到编译后的目录

cd /opt/ZLMediaKit

sudo cp -r www release/linux/Debug/

#把自带的ssl证书放到编译后的目录

sudo cp -r tests/default.pem release/linux/Debug/

6.启动服务

cd /opt/ZLMediaKit/release/linux/Debug

#通过-h可以了解启动参数

./MediaServer -h

#以守护进程模式启动

./MediaServer -d &

之后浏览器打开https://你的服务器ip/webrtc可以成功推流拉流

526互联

流媒体学习6

六、AAC 音频编码技术

1、AAC编码规格简述

1）HE

2）HEv2

2.AAC音频文件格式

1）. ACC 音频文件格式类型

2）. ADIF 的 Header 结构

3）. ADTS 的 Header 头结构

4）. AAC文件处理流程

3. AAC的RTP打包方式

4.AAC RTP包的时间戳计算

七、hls之m3u8、ts、h264、AAC流格式详解

1、M3U8文件

2、ts文件

1）ts header

PID

adaption

PAT格式

PMT格式

2）pes层

点播视频dts算法

点播音频dts算法：

3）es层

h.264视频

aac音频

mp3音频

3. h264帧类型判断

4.mp4转ts

1)H.264 码流总体结构

2) H.264 NAL Header

3)AAC

ADTS是个啥

ADTS内容及结构

4).将AAC打包成ADTS格式

八、Ubuntu构建ZLMediaKit流媒体服务框架（含webrtc）

1.获取代码

2.安装编译器

3.依赖库

1）openssl安装编译

2）libsrtp安装编译

4.构建和编译ZLMediaKit

补充GDB调试

5.补充操作

6.启动服务