五、H264编码

H264在视频采集到输出中属于编解码层次的数据，如下图所示，是在采集数据后做编码压缩时通过编码标准编码后所呈现的数据。

1.编解码的必要性

1)为什么要压缩

节省传输带宽；编码可以将数据进行压缩，减少传输资源浪费。

节省存储空间：

计算一下：10秒钟1080p（1920x1080）、30fps的YUV420P原始视频，需要占用多大的存储空间？

(10 * 30) * (1920 * 1080) * 1.5 = 933120000字节 ≈ 889.89MB

2)可以压缩什么信息

简单来说就是去除冗余信息

空间冗余：图像相邻像素之间有较强的相关性

时间冗余：视频序列的相邻图像之间内容相似

编码冗余：不同像素值出现的概率不同

视觉冗余：人的视觉系统对某些细节不敏感

知识冗余：规律性的结构可由先验知识和背景知识得到

3)压缩类别

无损压缩（Lossless）：Winzip

压缩前解压缩后图像完全一致

压缩比低(2:1~3:1)

有损压缩（Lossy）：H.264/AVC

压缩前解压缩后图像不一致

压缩比高(10:1~20:1)

利用人的视觉系统的特性

2. I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系

1）视频传输原理

视频是利用人眼视觉暂留的原理，通过播放一系列的图片，使人眼产生运动的感觉。单纯传输视频画面，视频量非常大，对现有的网络和存储来说是不可接受的。为了能够使视频便于传输和存储，人们发现视频有大量重复的信息，如果将重复信息在发送端去掉，在接收端恢复出来，这样就大大减少了视频数据的文件，因此有了H.264视频压缩标准。

视频里边的原始图像数据会采用 H.264编码格式进行压缩，音频采样数据会采用 AAC 编码格式进行压缩。视频内容经过编码压缩后，确实有利于存储和传输。不过当要观看播放时，相应地也需要解码过程。因此编码和解码之间，显然需要约定一种编码器和解码器都可以理解的约定。就视频图像编码和解码而言，这种约定很简单：编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ) ，解码器在播放时则是读取一段一段的 GOP 进行解码后读取画面再渲染显示。GOP ( Group of Pictures) 是一组连续的画面，由一张 I 帧和数张 B / P 帧组成，是视频图像编码器和解码器存取的基本单位，它的排列顺序将会一直重复到影像结束。I 帧是内部编码帧（也称为关键帧），P帧是前向预测帧（前向参考帧），B 帧是双向内插帧（双向参考帧）。简单地讲，I 帧是一个完整的画面，而 P 帧和 B 帧记录的是相对于 I 帧的变化。如果没有 I 帧，P 帧和 B 帧就无法解码。

在 H.264压缩标准中I帧、P帧、B帧用于表示传输的视频画面。

2）帧类型

　H264协议里定义了三种帧，完整编码的帧叫I帧，参考之前的I帧生成的只包含差异部分编码的帧叫P帧，还有一种参考前后的帧编码的帧叫B帧。
　　H264采用的核心算法是帧内压缩和帧间压缩，帧内压缩是生成I帧的算法，帧间压缩是生成B帧和P帧的算法。

I帧

Intra-coded picture（帧内编码图像帧），I帧表示关键帧，你可以理解为这一帧画面的完整保留；解码时只需要本帧数据就可以完成（因为包含完整画面）。又称为内部画面 (intra picture)，I 帧通常是每个 GOP（MPEG 所使用的一种视频压缩技术）的第一个帧，经过适度地压缩，做为随机访问的参考点，可以当成图象。在MPEG编码的过程中，部分视频帧序列压缩成为I帧；部分压缩成P帧；还有部分压缩成B帧。I帧法是帧内压缩法，也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT（Discrete Cosine Transform）的压缩技术，这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。

【I帧特点】
　　1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;
　　2.解码时仅用I帧的数据就可重构完整图像;
　　3.I帧描述了图像背景和运动主体的详情;
　　4.I帧不需要参考其他画面而生成;
　　5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
　　6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
　　7.I帧不需要考虑运动矢量;
　　8.I帧所占数据的信息量比较大。

【I帧编码流程】
　　(1)进行帧内预测，决定所采用的帧内预测模式。
　　(2)像素值减去预测值，得到残差。
　　(3)对残差进行变换和量化。
　　(4)变长编码和算术编码。
　　(5)重构图像并滤波，得到的图像作为其它帧的参考帧。

例如：在视频会议系统中，终端发送给MCU（或者MCU发送给终端）的图像，并不是每次都把完整的一幅幅图片发送到远端，而只是发送后一幅画面在前一幅画面基础上发生变化的部分。如果在网络状况不好的情况下，终端的接收远端或者发送给远程的画面就会有丢包而出现图像花屏、图像卡顿的现象，在这种情况下如果没有I帧机制来让远端重新发一幅新的完整的图像到本地（或者本地重新发一幅新的完整的图像给远端），终端的输出图像的花屏、卡顿现象会越来越严重，从而造成会议无法正常进行。
在视频画面播放过程中，若I帧丢失了，则后面的P帧也就随着解不出来，就会出现视频画面黑屏的现象；若P帧丢失了，则视频画面会出现花屏、马赛克等现象。
在视频会议系统中I帧只会在会议限定的带宽内发生，不会超越会议带宽而生效。I帧机制不仅存在于MCU中，电视墙服务器、录播服务器中也存在。就是为了解决在网络状况不好的情况下，出现的丢包而造成的如图像花屏、卡顿，而影响会议会正常进行

P帧

Predictive-coded Picture（前向预测编码图像帧）。P帧表示的是这一帧跟之前的一个关键帧（或P帧）的差别，解码时需要用之前缓存的画面叠加上本帧定义的差别，生成最终画面。（也就是差别帧，P帧没有完整画面数据，只有与前一帧的画面差别的数据）。

【P帧的预测与重构】
　　P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

【P帧特点】
　　1.P帧是I帧后面相隔1~2帧的编码帧;
　　2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);
　　3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
　　4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;
　　5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;
　　6.由于P帧是参考帧,它可能造成解码错误的扩散;
　　7.由于是差值传送,P帧的压缩比较高。

B帧

Bidirectionally predicted picture（双向预测编码图像帧)。B帧是双向差别帧，也就是B帧记录的是本帧与前后帧的差别，换言之，要解码B帧，不仅要取得之前的缓存画面，还要解码之后的画面，通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高，但是解码时CPU会比较累。

【B帧的预测与重构】

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。采用运动预测的方式进行帧间双向预测编码

【B帧特点】
　　1.B帧是由前面的I或P帧和后面的P帧来进行预测的;
　　2.B帧传送的是它与前面的I帧或P帧和后面的P帧之间的预测误差及运动矢量;
　　3.B帧是双向预测编码帧;
　　4.B帧压缩比最高,因为它只反映参考帧间运动主体的变化情况,预测比较准确;
　　5.B帧不是参考帧,不会造成解码错误的扩散

为什么需要B帧

从上面的看，我们知道I和P的解码算法比较简单，资源占用也比较少，I只要自己完成就行了，P呢，也只需要解码器把前一个画面缓存一下，遇到P时就使用之前缓存的画面就好了，如果视频流只有I和P，解码器可以不管后面的数据，边读边解码，线性前进，大家很服。那么为什么还要引入B帧？

网络上的电影很多都采用了B帧，因为B帧记录的是前后帧的差别，比P帧能节约更多的空间，但这样一来，文件小了，解码器就麻烦了，因为在解码时，不仅要用之前缓存的画面，还要知道下一个I或者P的画面（也就是说要预读预解码），而且，B帧不能简单地丢掉，因为B帧其实也包含了画面信息，如果简单丢掉，并用之前的画面简单重复，就会造成画面卡（其实就是丢帧了），并且由于网络上的电影为了节约空间，往往使用相当多的B帧，B帧用的多，对不支持B帧的播放器就造成更大的困扰，画面也就越卡。

显示和解码顺序示意图

3）GOP(序列)和IDR

在H264中图像以序列为单位进行组织，一个序列是一段图像编码后的数据流。
一个序列的第一个图像叫做 IDR 图像（立即刷新图像），IDR 图像都是 I 帧图像。H.264 引入 IDR 图像是为了解码的重同步，当解码器解码到 IDR 图像时，立即将参考帧队列清空，将已解码的数据全部输出或抛弃，重新查找参数集，开始一个新的序列。这样，如果前一个序列出现重大错误，在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。
一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化比较少时，一个序列可以很长，因为运动变化少就代表图像画面的内容变动很小，所以就可以编一个I帧，然后一直P帧、B帧了。当运动变化多时，可能一个序列就比较短了，比如就包含一个I帧和3、4个P帧。
在视频编码序列中，GOP即Group of picture（图像组），指两个I帧之间的距离，Reference（参考周期）指两个P帧之间的距离。两个I帧之间形成一组图片，就是GOP（Group Of Picture）。

GOP说白了就是两个I帧之间的间隔：比较说GOP为120,如果是720p60的话,那就是2s一次I帧，GOP一般设置为编码器每秒输出的帧数，即每秒帧率，一般为25或30，当然也可设置为其他值。
　　在一个GOP中，P、B帧是由I帧预测得到的，当I帧的图像质量比较差时，会影响到一个GOP中后续P、B帧的图像质量，直到下一个GOP 开始才有可能得以恢复，所以GOP值也不宜设置过大。
　　由于P、B帧的复杂度大于I帧，所以过多的P、B帧会影响编码效率，使编码效率降低。另外，过长的GOP还会影响Seek操作的响应速度，由于P、B帧是由前面的I或P帧预测得到的，所以Seek操作需要直接定位，解码某一个P或B帧时，需要先解码得到本GOP内的I帧及之前的N个预测帧才可以，GOP值越长，需要解码的预测帧就越多，seek响应的时间也越长。

　　在H.264/AVC视频编码标准中，整个系统框架被分为了两个层面：视频编码层面（VCL）和网络抽象层面（NAL）。其中，前者负责有效表示视频数据的内容，而后者则负责格式化数据并提供头信息，以保证数据适合各种信道和存储介质上的传输。因此我们平时的每帧数据就是一个NAL单元（SPS与PPS除外）。在实际的H264数据帧中，往往帧前面带有00 00 00 01 或 00 00 01分隔符，一般来说编码器编出的首帧数据为PPS与SPS，接着为I帧……

4）PTS和DTS

为什么会有PTS和DTS的概念

通过上面的描述可以看出：P帧需要参考前面的I帧或P帧才可以生成一张完整的图片，而B帧则需要参考前面I帧或P帧及其后面的一个P帧才可以生成一张完整的图片。这样就带来了一个问题：在视频流中，先到来的 B 帧无法立即解码，需要等待它依赖的后面的 I、P 帧先解码完成，这样一来播放时间与解码时间不一致了，顺序打乱了，那这些帧该如何播放呢？这时就引入了另外两个概念：DTS 和 PTS。

PTS和DTS

先来了解一下PTS和DTS的基本概念：

DTS（Decoding Time Stamp）：即解码时间戳，这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS（Presentation Time Stamp）：即显示时间戳，这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。

虽然 DTS、PTS 是用于指导播放端的行为，但它们是在编码的时候由编码器生成的。

在视频采集的时候是录制一帧就编码一帧发送一帧的，在编码的时候会生成 PTS，这里需要特别注意的是 frame（帧）的编码方式，在通常的场景中，编解码器编码一个 I 帧，然后向后跳过几个帧，用编码 I 帧作为基准帧对一个未来 P 帧进行编码，然后跳回到 I 帧之后的下一个帧。编码的 I 帧和 P 帧之间的帧被编码为 B 帧。之后，编码器会再次跳过几个帧，使用第一个 P 帧作为基准帧编码另外一个 P 帧，然后再次跳回，用 B 帧填充显示序列中的空隙。这个过程不断继续，每 12 到 15 个 P 帧和 B 帧内插入一个新的 I 帧。P 帧由前一个 I 帧或 P 帧图像来预测，而 B 帧由前后的两个 P 帧或一个 I 帧和一个 P 帧来预测，因而编解码和帧的显示顺序有所不同，如下所示：

假设编码器采集到的帧是这个样子的：

I B B P B B P

那么它的显示顺序，也就是PTS应该是这样：

1 2 3 4 5 6 7

编码器的编码顺序是：

1 4 2 3 7 5 6

推流顺序也是按照编码顺序去推的，即

I P B B P B B

那么接收断收到的视频流也就是

I P B B P B B

这时候去解码，也是按照收到的视频流一帧一帧去解的了，接收一帧解码一帧，因为在编码的时候已经按照 I、B、P 的依赖关系编好了，接收到数据直接解码就好了。那么解码顺序是：

I P B B P B B

DTS：1 2 3 4 5 6 7

PTS：1 4 2 3 7 5 6

可以看到解码出来对应的 PTS 不是顺序的，为了正确显示视频流，这时候我们就必须按照 PTS 重新调整解码后的 frame(帧)，即

I B B P B B P

DTS：1 3 4 2 6 7 5

PTS：1 2 3 4 5 6 7

另外，并不是一定要使用B帧。在实时互动直播系统中，很少使用B帧。主要的原因是压缩和解码B帧时，由于要双向参考，所以它需要缓冲更多的数据，且使用的CPU也会更高。由于实时性的要求，所以一般不使用它。不过对于播放器来说，遇到带有B帧的H264数据是常有的事儿。在没有B帧的情况下，存放帧的顺序和显示帧的顺序就是一样的，PTS和DTS的值也是一样的。

3. H264分层结构

H264的主要目标是为了有高的视频压缩比和良好的网络亲和性，为了达成这两个目标，H264的解决方案是将系统框架分为两个层面，分别是视频编码层面（VCL）和网络抽象层面（NAL）。

VLC层是对核心算法引擎、块、宏块及片的语法级别的定义，负责有效表示视频数据的内容，最终输出编码完的数据SODB；

NAL层定义了片级以上的语法级别（如序列参数集和图像参数集，针对网络传输，后面会描述到），负责以网络所要求的恰当方式去格式化数据并提供头信息，以保证数据适合各种信道和存储介质上的传输。NAL层将SODB打包成RBSP然后加上NAL头组成一个NALU单元，具体NAL单元的组成也会在后面详细描述。

这里说一下SODB与RBSP的关联，具体结构如图所示：

SODB: 数据比特串，是编码后的原始数据；

RBSP: 原始字节序列载荷，是在原始编码数据后面添加了结尾比特，一个bit“1”和若干个比特“0”，用于字节对齐。

5.H264码流结构

在经过编码后的H264的码流如图所示，从图中我们需要得到一个概念，H264码流是由一个个的NAL单元组成，其中SPS、PPS、IDR和SLICE是NAL单元某一类型的数据。

H.264原始码流（又称为“裸流”）是由一个一个的NALU组成的。其中每个NALU之间通过startcode（起始码）进行分隔，起始码分成两种：0x000001（3Byte）或者0x00000001（4Byte）。如果NALU对应的Slice为一帧的开始就用0x00000001，否则就用0x000001。

H.264码流解析的步骤就是首先从码流中搜索0x000001和0x00000001，分离出NALU；然后再分析NALU的各个字段。

6.H264的NAL单元

1）H264的NAL结构

在实际的网络数据传输过程中H264的数据结构是以NALU（NAL单元）进行传输的，传输数据结构组成为[NALU Header]+[RBSP]，如图所示：

从之前的分析我们可以知道，VCL层编码后的视频帧数据，帧有可能是I/B/P帧，这些帧也可能是属于不同的序列之中；同一序列也还有相应的序列参数集与图片参数集；综上所述，想要完成准确无误视频的解码，除了需要VCL层编码出来的视频帧数据，同时还需要传输序列参数集和图像参数集等等，所以RBSP不单纯只保存I/B/P帧的数据编码信息，还有其他信息也可能出现在里面。

上面知道NAL单元是作为实际视频数据传输的基本单元，NALU头是用来标识后面RBSP是什么类型的数据，同时记录RBSP数据是否会被其他帧参考以及网络传输是否有错误，所以针对NAL头和RBSP的作用以及结构与所承载的数据需要做个简单的了解；

2）NAL头

NAL头的组成

NAL单元的头部是由forbidden_bit(1bit)，nal_reference_bit(2bits)（优先级），nal_unit_type(5bits)（类型）三个部分组成的，组成如图所示：

1、F(forbiden):禁止位，占用NAL头的第一个位，当禁止位值为1时表示语法错误；

2、NRI:参考级别，占用NAL头的第二到第三个位；值越大，该NAL越重要。

3、Type:Nal单元数据类型，也就是标识该NAL单元的数据类型是哪种，占用NAL头的第四到第8个位；

NAL单元数据类型(Type)

NAL类型主要就是下面图中这些类型，每个类型都有特殊的作用。

　　常用Nalu_type:

0x67 (0 11 00111) SPS 非常重要 type = 7

0x68 (0 11 01000) PPS 非常重要 type = 8

0x65 (0 11 00101) IDR帧关键帧非常重要 type = 5

0x61 (0 11 00001) 非IDR的I帧或 P帧非常重要 type = 1 非IDR的I帧不大常见 【这个大概率是P帧，通过工具查看某个H264的P slice，开头为00 00 00 01 61】

0x41 (0 10 00001) 非IDR的I帧或 P帧重要 type = 1 【非IDR的I帧和P帧都是有可能的，具体通过工具分析】

0x01 (0 00 00001) B帧不重要 type = 1

0x06 (0 00 00110) SEI 不重要 type = 6

　　所以判断是否为I帧的算法为：（NALU类型 & 0001 1111） = 5

　　最简单的办法是找0x65或0x25（I frame启始位），

　　或者去找0x67或0x27（SPS）

　　和0x68或0x28（PPS）后面的完整包。

　　SPS和PPS后面必然跟着I frame。（68之后，出现 000001 开始就是关键帧数据）

好，对于H.264格式了解这么多就够了，我们的目的是想从一个H.264的文件中将一个一个的NALU提取出来，然后封装成RTP包，下面介绍如何将NALU封装成RTP包。一般程序中的定义。

enum {

NAL_IDR = 5,

NAL_SEI = 6,

NAL_SPS = 7,

NAL_PPS = 8,

NAL_AUD = 9,

NAL_B_P = 1,

};

3） H264 NAL RTP打包

NALU是H264用于网络传输的单元类型，一个完整的NALU单元一般是以0x000001或者0x00000001开始，其后跟的则是NALU头和NALU的数据；我们在网络传输的时候，会去掉开始的0x000001或者0x00000001的标志；一般需要将这些标志替换为RTP payload的头部（1个字节）；

RTP载荷第一个字节

格式跟NALU头一样：【后面的格式与H264的RTP打包格式相关】

F:【1 bit】 forbidden_zero_bit，占1位，在 H.264 规范中规定了这一位必须为 0

NRI:【2 bits】 nal_ref_idc，占2位，取值从0到3，指示这个 NALU 的重要性，取值越大约重要。

Type：【5 bits】nalu是指包含在 NAL 单元中的 RBSP 数据结构的类型，其中0未定义，1-19在264协议中有定义，20-23为264协议指定的保留位。

单一NAL单元模式

即一个 RTP 包仅由一个完整的 NALU 组成. 这种情况下 RTP NAL 头类型字段和原始的 H.264的 NALU 头类型字段是一样的。【RTP载荷第一个字节 type=1-23】

如有一个 H.264 的 NALU 是这样的:[00 00 00 01 67 42 A0 1E 23 56 0E 2F ... ]

　　这是一个序列参数集 NAL 单元. [00 00 00 01] 是四个字节的开始码, 67 是 NALU 头, 42 开始的数据是 NALU 内容。

　　封装成 RTP 包将如下:[ RTP Header ] [ 67 42 A0 1E 23 56 0E 2F ]，即只要去掉 4 个字节的开始码就可以了。

组合封包模式

即可能是由多个 NAL 单元组成一个 RTP 包. 分别有4种组合方式: STAP-A, STAP-B, MTAP16, MTAP24。【RTP载荷第一个字节 type=24-27】

　　　　【STAP-A 单一时间的组合包 24

　　　　 STAP-B 单一时间的组合包 25

　　　　 MTAP16 多个时间的组合包 26

　　　　 MTAP24 多个时间的组合包 27】

如下图为一个包含sps、pps的包

第一个字节为0X18（即24），表示组合封包。0x00 0x15表示一个封包的长度21，后面的21个字节为一个封包，67（01100111，00111即7为sps帧）为NAL头；0x00 0x04表示一个封包的长度4，后面的4个字节为一个封包，68（01101000，01000即8为pps帧）为NAL头

分片封包模式

对于较大的NALU，一个NALU可以分为多个RTP包发送。存在两种类型 FU-A 和 FU-B.。【RTP载荷第一个字节 type=28-29】

　　　　【FU-A 分片的单元 28

　　　　 FU-B 分片的单元 29

　　　　没有定义 30-31 】

注意，FU payload中并没有传送NALU的头部，
NALU的头部由FU indicator（前3位）和FU header（后五位）组成：nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f)；

RTP载荷第一个字节位FU Indicator，其格式如下：

高三位：与NALU第一个字节的高三位相同

Type：28<----->0x1c，表示该RTP包一个分片，为什么是28？因为H.264的规范中定义的，此外还有许多其他Type，这里不详讲。

RTP载荷第二个字节位FU Header，其格式如下：

S：标记该分片打包的第一个RTP包

E：比较该分片打包的最后一个RTP包

R：占1位，保留位，为0

Type：NALU的Type，后续才是NALU data）

注意，FU payload中并没有传送NALU的头部，NALU的头部由FU indicator（前3位）和FU header（后五位）组成：nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f)；

第一个包

1. RTP header中的M为0.
2. FU Indicator为3C,即00111100, 11100即为28，表示是分片分包。
3. FU Header为81，即10000001，即s为1，第一个封包；type为1，即b帧。
中间的包

1. RTP header中的M为0.
2. FU Indicator为3C,即00111100, 11100即为28，表示是分片分包。
3. FU Header为01，即00000001，即s、e都为0，中前的封包；type为1，即b帧。
最后的包

1. RTP header中的M为1.
2. FU Indicator为3C,即00111100, 11100即为28，表示是分片分包。
3. FU Header为41，即0 1000001，即s为0、e为1，最后的封包；type为1，即b帧。

FU-A分包方式注意点

①关于时间戳，需要注意的是h264的采样率为90000HZ(被标准固定死的，为了方便转换成npt时间，见维基百科：https://en.wikipedia.org/wiki/RTP_audio_video_profile)，因此时间戳的单位为1(秒)/90000，因此如果当前视频帧率为25fps，那时间戳间隔或者说增量应该为3600，如果帧率为30fps，则增量为3000，以此类推。

②关于h264拆包，按照FU-A方式说明：
        1）第一个FU-A包的FU indicator：F应该为当前NALU头的F，而NRI应该为当前NALU头的NRI，Type则等于28，表明它是FU-A包。FU header生成方法：S = 1，E = 0，R = 0，Type则等于NALU头中的Type。
        2）后续的N个FU-A包的FU indicator和第一个是完全一样的，如果不是最后一个包，则FU header应该为：S = 0，E = 0，R = 0，Type等于NALU头中的Type。
        3）最后一个FU-A包FU header应该为：S = 0，E = 1，R = 0，Type等于NALU头中的Type。

③FU payload中并没有传送NALU的头部，NALU的头部由FU indicator（前3位）和FU header（后五位）组成：nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f)；

④FU-A 还原的时候，也是0x00 00 00 01 开始，不需要自己额外添加0x00 00 00 01
⑤FU-A 的的解析，start end等数据要解析好
⑥single nal unit 也是以0x00 00 00 01开始，也不需要自己添加分隔符