流媒体学习5

发布时间 2023-12-08 14:32:02作者: 泽良_小涛

五、H264编码

  H264在视频采集到输出中属于编解码层次的数据,如下图所示,是在采集数据后做编码压缩时通过编码标准编码后所呈现的数据。

https://img-blog.csdn.net/20180516184837257?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

1.编解码的必要性

1)为什么要压缩

节省传输带宽;编码可以将数据进行压缩,减少传输资源浪费。

节省存储空间:

计算一下:10秒钟1080p(1920x1080)、30fps的YUV420P原始视频,需要占用多大的存储空间?

(10 * 30) * (1920 * 1080) * 1.5 = 933120000字节 ≈ 889.89MB

2)可以压缩什么信息

简单来说就是去除冗余信息

空间冗余:图像相邻像素之间有较强的相关性

时间冗余:视频序列的相邻图像之间内容相似

编码冗余:不同像素值出现的概率不同

视觉冗余:人的视觉系统对某些细节不敏感

知识冗余:规律性的结构可由先验知识和背景知识得到

3)压缩类别

无损压缩(Lossless):Winzip

压缩前解压缩后图像完全一致

压缩比低(2:1~3:1)

有损压缩(Lossy):H.264/AVC

压缩前解压缩后图像不一致

压缩比高(10:1~20:1)

利用人的视觉系统的特性

2. I帧、P帧、B帧、GOP、IDR 和PTS, DTS之间的关系 

1)视频传输原理

视频是利用人眼视觉暂留的原理,通过播放一系列的图片,使人眼产生运动的感觉。单纯传输视频画面,视频量非常大,对现有的网络和存储来说是不可接受的。为了能够使视频便于传输和存储,人们发现视频有大量重复的信息,如果将重复信息在发送端去掉,在接收端恢复出来,这样就大大减少了视频数据的文件,因此有了H.264视频压缩标准。

视频里边的原始图像数据会采用 H.264编码格式进行压缩,音频采样数据会采用 AAC 编码格式进行压缩。视频内容经过编码压缩后,确实有利于存储和传输。不过当要观看播放时,相应地也需要解码过程。因此编码和解码之间,显然需要约定一种编码器和解码器都可以理解的约定。就视频图像编码和解码而言,这种约定很简单:编码器将多张图像进行编码后生产成一段一段的 GOP ( Group of Pictures ) , 解码器在播放时则是读取一段一段的 GOP 进行解码后读取画面再渲染显示。GOP ( Group of Pictures) 是一组连续的画面,由一张 I 帧和数张 B / P 帧组成,是视频图像编码器和解码器存取的基本单位,它的排列顺序将会一直重复到影像结束。I 帧是内部编码帧(也称为关键帧),P帧是前向预测帧(前向参考帧),B 帧是双向内插帧(双向参考帧)。简单地讲,I 帧是一个完整的画面,而 P 帧和 B 帧记录的是相对于 I 帧的变化。如果没有 I 帧,P 帧和 B 帧就无法解码。

在 H.264压缩标准中I帧、P帧、B帧用于表示传输的视频画面。

https://img2018.cnblogs.com/blog/653161/201904/653161-20190409133500660-1511997028.png

2)帧类型

 H264协议里定义了三种帧,完整编码的帧叫I帧,参考之前的I帧生成的只包含差异部分编码的帧叫P帧,还有一种参考前后的帧编码的帧叫B帧。
  H264采用的核心算法是帧内压缩和帧间压缩,帧内压缩是生成I帧的算法,帧间压缩是生成B帧和P帧的算法。

I帧

Intra-coded picture(帧内编码图像帧),I帧表示关键帧,你可以理解为这一帧画面的完整保留;解码时只需要本帧数据就可以完成(因为包含完整画面)。又称为内部画面 (intra picture),I 帧通常是每个 GOP(MPEG 所使用的一种视频压缩技术)的第一个帧,经过适度地压缩,做为随机访问的参考点,可以当成图象。在MPEG编码的过程中,部分视频帧序列压缩成为I帧;部分压缩成P帧;还有部分压缩成B帧。I帧法是帧内压缩法,也称为“关键帧”压缩法。I帧法是基于离散余弦变换DCT(Discrete Cosine Transform)的压缩技术,这种算法与JPEG压缩算法类似。采用I帧压缩可达到1/6的压缩比而无明显的压缩痕迹。

【I帧特点】
  1.它是一个全帧压缩编码帧。它将全帧图像信息进行JPEG压缩编码及传输;
  2.解码时仅用I帧的数据就可重构完整图像;
  3.I帧描述了图像背景和运动主体的详情;
  4.I帧不需要参考其他画面而生成;
  5.I帧是P帧和B帧的参考帧(其质量直接影响到同组中以后各帧的质量);
  6.I帧是帧组GOP的基础帧(第一帧),在一组中只有一个I帧;
  7.I帧不需要考虑运动矢量;
  8.I帧所占数据的信息量比较大。

【I帧编码流程】
  (1)进行帧内预测,决定所采用的帧内预测模式。
  (2)像素值减去预测值,得到残差。
  (3)对残差进行变换和量化。
  (4)变长编码和算术编码。
  (5)重构图像并滤波,得到的图像作为其它帧的参考帧。

例如:在视频会议系统中,终端发送给MCU(或者MCU发送给终端)的图像,并不是每次都把完整的一幅幅图片发送到远端,而只是发送后一幅画面在前一幅画面基础上发生变化的部分。如果在网络状况不好的情况下,终端的接收远端或者发送给远程的画面就会有丢包而出现图像花屏、图像卡顿的现象,在这种情况下如果没有I帧机制来让远端重新发一幅新的完整的图像到本地(或者本地重新发一幅新的完整的图像给远端),终端的输出图像的花屏、卡顿现象会越来越严重,从而造成会议无法正常进行。
在视频画面播放过程中,若I帧丢失了,则后面的P帧也就随着解不出来,就会出现视频画面黑屏的现象;若P帧丢失了,则视频画面会出现花屏、马赛克等现象。
在视频会议系统中I帧只会在会议限定的带宽内发生,不会超越会议带宽而生效。I帧机制不仅存在于MCU中,电视墙服务器、录播服务器中也存在。就是为了解决在网络状况不好的情况下,出现的丢包而造成的如图像花屏、卡顿,而影响会议会正常进行

P帧

Predictive-coded Picture(前向预测编码图像帧)。P帧表示的是这一帧跟之前的一个关键帧(或P帧)的差别,解码时需要用之前缓存的画面叠加上本帧定义的差别,生成最终画面。(也就是差别帧,P帧没有完整画面数据,只有与前一帧的画面差别的数据)。

https://img2018.cnblogs.com/blog/653161/201904/653161-20190409133937499-660885857.png

【P帧的预测与重构】
  P帧是以I帧为参考帧,在I帧中找出P帧“某点”的预测值和运动矢量,取预测差值和运动矢量一起传送。在接收端根据运动矢量从I帧中找出P帧“某点”的预测值并与差值相加以得到P帧“某点”样值,从而可得到完整的P帧。

【P帧特点】
  1.P帧是I帧后面相隔1~2帧的编码帧;
  2.P帧采用运动补偿的方法传送它与前面的I或P帧的差值及运动矢量(预测误差);
  3.解码时必须将I帧中的预测值与预测误差求和后才能重构完整的P帧图像;
  4.P帧属于前向预测的帧间编码。它只参考前面最靠近它的I帧或P帧;
  5.P帧可以是其后面P帧的参考帧,也可以是其前后的B帧的参考帧;
  6.由于P帧是参考帧,它可能造成解码错误的扩散;
  7.由于是差值传送,P帧的压缩比较高。

B帧

Bidirectionally predicted picture(双向预测编码图像帧)。B帧是双向差别帧,也就是B帧记录的是本帧与前后帧的差别,换言之,要解码B帧,不仅要取得之前的缓存画面,还要解码之后的画面,通过前后画面的与本帧数据的叠加取得最终的画面。B帧压缩率高,但是解码时CPU会比较累。

https://img2018.cnblogs.com/blog/653161/201904/653161-20190409134207944-517248017.png

【B帧的预测与重构】

B帧以前面的I或P帧和后面的P帧为参考帧,“找出”B帧“某点”的预测值和两个运动矢量,并取预测差值和运动矢量传送。接收端根据运动矢量在两个参考帧中“找出(算出)”预测值并与差值求和,得到B帧“某点”样值,从而可得到完整的B帧。采用运动预测的方式进行帧间双向预测编码

【B帧特点】
  1.B帧是由前面的I或P帧和后面的P帧来进行预测的;
  2.B帧传送的是它与前面的I帧或P帧和后面的P帧之间的预测误差及运动矢量;
  3.B帧是双向预测编码帧;
  4.B帧压缩比最高,因为它只反映参考帧间运动主体的变化情况,预测比较准确;
  5.B帧不是参考帧,不会造成解码错误的扩散

为什么需要B帧

  从上面的看,我们知道I和P的解码算法比较简单,资源占用也比较少,I只要自己完成就行了,P呢,也只需要解码器把前一个画面缓存一下,遇到P时就使用之前缓存的画面就好了,如果视频流只有I和P,解码器可以不管后面的数据,边读边解码,线性前进,大家很服。那么为什么还要引入B帧?

网络上的电影很多都采用了B帧,因为B帧记录的是前后帧的差别,比P帧能节约更多的空间,但这样一来,文件小了,解码器就麻烦了,因为在解码时,不仅要用之前缓存的画面,还要知道下一个I或者P的画面(也就是说要预读预解码),而且,B帧不能简单地丢掉,因为B帧其实也包含了画面信息,如果简单丢掉,并用之前的画面简单重复,就会造成画面卡(其实就是丢帧了),并且由于网络上的电影为了节约空间,往往使用相当多的B帧,B帧用的多,对不支持B帧的播放器就造成更大的困扰,画面也就越卡。

显示和解码顺序示意图

https://img2018.cnblogs.com/blog/653161/201904/653161-20190413100417199-500899393.png

3)GOP(序列)和IDR

https://img2020.cnblogs.com/blog/653161/202112/653161-20211216165707365-1947946625.png

在H264中图像以序列为单位进行组织,一个序列是一段图像编码后的数据流。
一个序列的第一个图像叫做 IDR 图像立即刷新图像),IDR 图像都是 I 帧图像。H.264 引入 IDR 图像是为了解码的重同步,当解码器解码到 IDR 图像时,立即将参考帧队列清空,将已解码的数据全部输出或抛弃,重新查找参数集,开始一个新的序列。这样,如果前一个序列出现重大错误,在这里可以获得重新同步的机会。IDR图像之后的图像永远不会使用IDR之前的图像的数据来解码。
一个序列就是一段内容差异不太大的图像编码后生成的一串数据流。当运动变化比较少时,一个序列可以很长,因为运动变化少就代表图像画面的内容变动很小,所以就可以编一个I帧,然后一直P帧、B帧了。当运动变化多时,可能一个序列就比较短了,比如就包含一个I帧和3、4个P帧。
在视频编码序列中,GOP即Group of picture(图像组),指两个I帧之间的距离,Reference(参考周期)指两个P帧之间的距离。两个I帧之间形成一组图片,就是GOP(Group Of Picture)。

GOP说白了就是两个I帧之间的间隔:比较说GOP为120,如果是720p60的话,那就是2s一次I帧,GOP一般设置为编码器每秒输出的帧数,即每秒帧率,一般为25或30,当然也可设置为其他值。
  在一个GOP中,P、B帧是由I帧预测得到的,当I帧的图像质量比较差时,会影响到一个GOP中后续P、B帧的图像质量,直到下一个GOP 开始才有可能得以恢复,所以GOP值也不宜设置过大。
  由于P、B帧的复杂度大于I帧,所以过多的P、B帧会影响编码效率,使编码效率降低。另外,过长的GOP还会影响Seek操作的响应速度,由于P、B帧是由前面的I或P帧预测得到的,所以Seek操作需要直接定位,解码某一个P或B帧时,需要先解码得到本GOP内的I帧及之前的N个预测帧才可以,GOP值越长,需要解码的预测帧就越多,seek响应的时间也越长。

  在H.264/AVC视频编码标准中,整个系统框架被分为了两个层面:视频编码层面(VCL)和网络抽象层面(NAL)。其中,前者负责有效表示视频数据的内容,而后者则负责格式化数据并提供头信息,以保证数据适合各种信道和存储介质上的传输。因此我们平时的每帧数据就是一个NAL单元(SPS与PPS除外)。在实际的H264数据帧中,往往帧前面带有00 00 00 01 或 00 00 01分隔符,一般来说编码器编出的首帧数据为PPS与SPS,接着为I帧……

https://img2020.cnblogs.com/blog/2293816/202112/2293816-20211228012950687-1034200615.png

4)PTS和DTS

为什么会有PTS和DTS的概念

通过上面的描述可以看出:P帧需要参考前面的I帧或P帧才可以生成一张完整的图片,而B帧则需要参考前面I帧或P帧及其后面的一个P帧才可以生成一张完整的图片。这样就带来了一个问题:在视频流中,先到来的 B 帧无法立即解码,需要等待它依赖的后面的 I、P 帧先解码完成,这样一来播放时间与解码时间不一致了,顺序打乱了,那这些帧该如何播放呢?这时就引入了另外两个概念:DTS 和 PTS。

PTS和DTS

先来了解一下PTS和DTS的基本概念:

DTS(Decoding Time Stamp):即解码时间戳,这个时间戳的意义在于告诉播放器该在什么时候解码这一帧的数据。
PTS(Presentation Time Stamp):即显示时间戳,这个时间戳用来告诉播放器该在什么时候显示这一帧的数据。

虽然 DTS、PTS 是用于指导播放端的行为,但它们是在编码的时候由编码器生成的。

在视频采集的时候是录制一帧就编码一帧发送一帧的,在编码的时候会生成 PTS,这里需要特别注意的是 frame(帧)的编码方式,在通常的场景中,编解码器编码一个 I 帧,然后向后跳过几个帧,用编码 I 帧作为基准帧对一个未来 P 帧进行编码,然后跳回到 I 帧之后的下一个帧。编码的 I 帧和 P 帧之间的帧被编码为 B 帧。之后,编码器会再次跳过几个帧,使用第一个 P 帧作为基准帧编码另外一个 P 帧,然后再次跳回,用 B 帧填充显示序列中的空隙。这个过程不断继续,每 12 到 15 个 P 帧和 B 帧内插入一个新的 I 帧。P 帧由前一个 I 帧或 P 帧图像来预测,而 B 帧由前后的两个 P 帧或一个 I 帧和一个 P 帧来预测,因而编解码和帧的显示顺序有所不同,如下所示:

https://img2018.cnblogs.com/blog/653161/201904/653161-20190409140359663-1617356236.png

假设编码器采集到的帧是这个样子的:

 I B B P B B P 

那么它的显示顺序,也就是PTS应该是这样:

 1 2 3 4 5 6 7  

编码器的编码顺序是:

 1 4 2 3 7 5 6 

推流顺序也是按照编码顺序去推的,即

 I P B B P B B 

那么接收断收到的视频流也就是

 I P B B P B B 

这时候去解码,也是按照收到的视频流一帧一帧去解的了,接收一帧解码一帧,因为在编码的时候已经按照 I、B、P 的依赖关系编好了,接收到数据直接解码就好了。那么解码顺序是:

I P B B P B B

DTS:1 2 3 4 5 6 7

PTS:1 4 2 3 7 5 6

可以看到解码出来对应的 PTS 不是顺序的,为了正确显示视频流,这时候我们就必须按照 PTS 重新调整解码后的 frame(帧),即

I B B P B B P

DTS:1 3 4 2 6 7 5

PTS:1 2 3 4 5 6 7

另外,并不是一定要使用B帧。在实时互动直播系统中,很少使用B帧。主要的原因是压缩和解码B帧时,由于要双向参考,所以它需要缓冲更多的数据,且使用的CPU也会更高。由于实时性的要求,所以一般不使用它。不过对于播放器来说,遇到带有B帧的H264数据是常有的事儿。在没有B帧的情况下,存放帧的顺序和显示帧的顺序就是一样的,PTS和DTS的值也是一样的。

3. H264分层结构

  H264的主要目标是为了有高的视频压缩比和良好的网络亲和性,为了达成这两个目标,H264的解决方案是将系统框架分为两个层面,分别是视频编码层面(VCL)和网络抽象层面(NAL)。

https://img-blog.csdn.net/20180517163443625?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

VLC层是对核心算法引擎、块、宏块及片的语法级别的定义,负责有效表示视频数据的内容,最终输出编码完的数据SODB;

NAL层定义了片级以上的语法级别(如序列参数集和图像参数集,针对网络传输,后面会描述到),负责以网络所要求的恰当方式去格式化数据并提供头信息,以保证数据适合各种信道和存储介质上的传输。NAL层将SODB打包成RBSP然后加上NAL头组成一个NALU单元,具体NAL单元的组成也会在后面详细描述。

  这里说一下SODB与RBSP的关联,具体结构如图所示:

        SODB: 数据比特串,是编码后的原始数据;

       RBSP: 原始字节序列载荷,是在原始编码数据后面添加了结尾比特,一个bit“1”和若干个比特“0”,用于字节对齐。

https://img-blog.csdn.net/20180517163514787?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70https://img-blog.csdn.net/20180517163514787?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

5.H264码流结构

在经过编码后的H264的码流如图所示, 从图中我们需要得到一个概念,H264码流是由一个个的NAL单元组成,其中SPS、PPS、IDR和SLICE是NAL单元某一类型的数据。

https://img-blog.csdn.net/20180517163557954?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

H.264原始码流(又称为“裸流”)是由一个一个的NALU组成的。其中每个NALU之间通过startcode(起始码)进行分隔,起始码分成两种:0x000001(3Byte)或者0x00000001(4Byte)。如果NALU对应的Slice为一帧的开始就用0x00000001,否则就用0x000001。

H.264码流解析的步骤就是首先从码流中搜索0x000001和0x00000001,分离出NALU;然后再分析NALU的各个字段。

6.H264的NAL单元

1)H264的NAL结构

在实际的网络数据传输过程中H264的数据结构是以NALU(NAL单元)进行传输的,传输数据结构组成为[NALU Header]+[RBSP],如图所示:

https://img-blog.csdn.net/20180517163938667?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

从之前的分析我们可以知道,VCL层编码后的视频帧数据,帧有可能是I/B/P帧,这些帧也可能是属于不同的序列之中;同一序列也还有相应的序列参数集与图片参数集;综上所述,想要完成准确无误视频的解码,除了需要VCL层编码出来的视频帧数据,同时还需要传输序列参数集和图像参数集等等,所以RBSP不单纯只保存I/B/P帧的数据编码信息,还有其他信息也可能出现在里面。

上面知道NAL单元是作为实际视频数据传输的基本单元,NALU头是用来标识后面RBSP是什么类型的数据,同时记录RBSP数据是否会被其他帧参考以及网络传输是否有错误,所以针对NAL头和RBSP的作用以及结构与所承载的数据需要做个简单的了解;

2)NAL头

 NAL头的组成

NAL单元的头部是由forbidden_bit(1bit),nal_reference_bit(2bits)(优先级),nal_unit_type(5bits)(类型)三个部分组成的,组成如图所示:

https://img-blog.csdn.net/20180517164005461?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

1、F(forbiden):禁止位,占用NAL头的第一个位,当禁止位值为1时表示语法错误;

2、NRI:参考级别,占用NAL头的第二到第三个位;值越大,该NAL越重要。

3、Type:Nal单元数据类型,也就是标识该NAL单元的数据类型是哪种,占用NAL头的第四到第8个位;

NAL单元数据类型(Type)

 NAL类型主要就是下面图中这些类型,每个类型都有特殊的作用。

https://img-blog.csdn.net/20180517164131977?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2dvX3N0cg==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70

  常用Nalu_type: 

0x67 (0 11 00111) SPS 非常重要 type = 7 

0x68 (0 11 01000) PPS 非常重要 type = 8 

0x65 (0 11 00101) IDR帧 关键帧 非常重要 type = 5 

0x61 (0 11 00001) 非IDR的I帧 或 P帧 非常重要 type = 1  非IDR的I帧 不大常见 【这个大概率是P帧,通过工具查看某个H264的P slice,开头为00 00 00 01 61】

0x41 (0 10 00001) 非IDR的I帧 或 P帧 重要 type = 1 【非IDR的I帧P帧都是有可能的,具体通过工具分析】

0x01 (0 00 00001) B帧 不重要 type = 1 

0x06 (0 00 00110) SEI 不重要 type = 6

  所以判断是否为I帧的算法为: (NALU类型  & 0001  1111) = 5  

  最简单的办法是找0x65或0x25(I frame启始位),

  或者去找0x67或0x27(SPS)

  和0x68或0x28(PPS)后面的完整包。

  SPS和PPS后面必然跟着I frame。(68之后,出现  000001 开始就是关键帧数据 )

好,对于H.264格式了解这么多就够了,我们的目的是想从一个H.264的文件中将一个一个的NALU提取出来,然后封装成RTP包,下面介绍如何将NALU封装成RTP包。一般程序中的定义。

enum {

NAL_IDR = 5,

NAL_SEI = 6,

NAL_SPS = 7,

NAL_PPS = 8,

NAL_AUD = 9,

NAL_B_P = 1,

};

3) H264 NAL RTP打包

NALU是H264用于网络传输的单元类型,一个完整的NALU单元一般是以0x000001或者0x00000001开始,其后跟的则是NALU头和NALU的数据;我们在网络传输的时候,会去掉开始的0x000001或者0x00000001的标志;一般需要将这些标志替换为RTP payload的头部(1个字节);

RTP载荷第一个字节

格式跟NALU头一样:【后面的格式与H264的RTP打包格式相关】

F:【1 bit】 forbidden_zero_bit, 占1位,在 H.264 规范中规定了这一位必须为 0

NRI:【2 bits】 nal_ref_idc, 占2位,取值从0到3,指示这个 NALU 的重要性,取值越大约重要。

Type:【5 bits】nalu是指包含在 NAL 单元中的 RBSP 数据结构的类型,其中0未定义,1-19在264协议中有定义,20-23为264协议指定的保留位。

单一NAL单元模式

即一个 RTP 包仅由一个完整的 NALU 组成. 这种情况下 RTP NAL 头类型字段和原始的 H.264的   NALU 头类型字段是一样的。【RTP载荷第一个字节 type=1-23】

      如有一个 H.264 的 NALU 是这样的:[00 00 00 01 67 42 A0 1E 23 56 0E 2F ... ]

  这是一个序列参数集 NAL 单元. [00 00 00 01] 是四个字节的开始码, 67 是 NALU 头, 42 开始的数据是 NALU 内容。

  封装成 RTP 包将如下:[ RTP Header ] [ 67 42 A0 1E 23 56 0E 2F ],即只要去掉 4 个字节的开始码就可以了。

组合封包模式 

即可能是由多个 NAL 单元组成一个 RTP 包. 分别有4种组合方式: STAP-A, STAP-B, MTAP16, MTAP24。 【RTP载荷第一个字节 type=24-27

    【STAP-A   单一时间的组合包     24

       STAP-B   单一时间的组合包     25

       MTAP16   多个时间的组合包    26 

       MTAP24   多个时间的组合包    27】

如下图为一个包含sps、pps的包

第一个字节为0X18(即24),表示组合封包。0x00 0x15表示一个封包的长度21,后面的21个字节为一个封包,67(01100111,00111即7为sps帧)为NAL头;0x00 0x04表示一个封包的长度4,后面的4个字节为一个封包,68(01101000,01000即8为pps帧)为NAL头

分片封包模式

对于较大的NALU,一个NALU可以分为多个RTP包发送。存在两种类型 FU-A 和 FU-B.。【RTP载荷第一个字节 type=28-29】

    【FU-A     分片的单元   28

       FU-B     分片的单元  29  

      没有定义 30-31 】

https://img2020.cnblogs.com/blog/2293816/202110/2293816-20211021172227545-1860999992.png

注意,FU payload中并没有传送NALU的头部,
NALU的头部由FU indicator(前3位)和FU header(后五位)组成:nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f);

  • RTP载荷第一个字节位FU Indicator,其格式如下:

高三位:与NALU第一个字节的高三位相同

Type:28<----->0x1c,表示该RTP包一个分片,为什么是28?因为H.264的规范中定义的,此外还有许多其他Type,这里不详讲。

  • RTP载荷第二个字节位FU Header,其格式如下:

S:标记该分片打包的第一个RTP包

E:比较该分片打包的最后一个RTP包

R: 占1位,保留位,为0

Type:NALU的Type,后续才是NALU data)

注意,FU payload中并没有传送NALU的头部,NALU的头部由FU indicator(前3位)和FU header(后五位)组成:nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f);

  • 第一个包

    1. RTP header中的M为0.
    2. FU Indicator为3C,即00111100, 11100即为28,表示是分片分包。
    3. FU Header为81,即10000001,即s为1,第一个封包;type为1,即b帧。
  • 中间的包

    1. RTP header中的M为0.
    2. FU Indicator为3C,即00111100, 11100即为28,表示是分片分包。
    3. FU Header为01,即00000001,即s、e都为0,中前的封包;type为1,即b帧。
  • 最后的包

    1. RTP header中的M为1.
    2. FU Indicator为3C,即00111100, 11100即为28,表示是分片分包。
    3. FU Header为41,即0 1000001,即s为0、e为1,最后的封包;type为1,即b帧。

FU-A分包方式注意点

①关于时间戳,需要注意的是h264的采样率为90000HZ(被标准固定死的,为了方便转换成npt时间,见维基百科:https://en.wikipedia.org/wiki/RTP_audio_video_profile),因此时间戳的单位为1(秒)/90000,因此如果当前视频帧率为25fps,那时间戳间隔或者说增量应该为3600,如果帧率为30fps,则增量为3000,以此类推。

②关于h264拆包,按照FU-A方式说明:
        1)第一个FU-A包的FU indicator:F应该为当前NALU头的F,而NRI应该为当前NALU头的NRI,Type则等于28,表明它是FU-A包。FU header生成方法:S = 1,E = 0,R = 0,Type则等于NALU头中的Type。
        2)后续的N个FU-A包的FU indicator和第一个是完全一样的,如果不是最后一个包,则FU header应该为:S = 0,E = 0,R = 0,Type等于NALU头中的Type。
        3)最后一个FU-A包FU header应该为:S = 0,E = 1,R = 0,Type等于NALU头中的Type。

 ③FU payload中并没有传送NALU的头部,NALU的头部由FU indicator(前3位)和FU header(后五位)组成:nal_unit_type = (fu_indicator & 0xe0) | (fu_header & 0x1f);

 ④FU-A 还原的时候,也是0x00 00 00 01 开始,不需要自己额外添加0x00 00 00 01
 ⑤FU-A 的的解析,start end等数据要解析好
 ⑥single nal unit 也是以0x00 00 00 01开始,也不需要自己添加分隔符