第5章内容安全基础

5.1 信息内容安全概述

（1）全球信息化的今天，互联网将朝着开放性、异构性、移动性、动态性、并发性的方向发展。通过不断演化，产生了下一代互联网、5G 移动通信网络、移动互联网、物联网等新型网络形式以及云计算等服务模式。同时，随着工业4.0影响全球和我国实施“互联网+”行动，互联网与各个行业的融合也日益加深，创造了巨大的经济效益和社会效益，互联网已成为人们获取信息、互相交流、协同工作的重要途径，具有应用极为广泛、发展规模最大、贴近人们生活等众多优点。
（2）互联网上各种不良信息流传以及不规范行为的产生原因可归结为两类。一类是由于在互联网爆炸性发展过程中，相关方面的规范和管理措施未能同步发展。在互联网发展的初期阶段，用户数目很少，多数是学术研究人员，网络也没有用于商业用途，网络安全的问题并不突出。如今这些情况都已经发生了巨大的变化，一些原有网络模式不再适应现在的情况。另外一类原因是互联网在为人们提供便利获取与发布信息的同时，也制造了前所未有的思想碰撞场所，因而在互联网中更容易出现一些另类、新奇、不易理解或不符合规范的行为。互联网将整个世界变成了“地球村”,将持有各种思想、观点的人聚集在一起，这也将是一个长期存在的客观现实。面对这种挑战，一方面，人们不应因噎废食，因为互联网上存在的一些不良现象而畏惧或排斥新技术、新事物；另一方面，应当通过法律与技术等多方面措施限制与消除这些不良现象，让互联网更好地为人民服务，发挥更大的效用，使得人人都能更高效、更自由地使用互联网进行信息沟通。

5.2 信息内容安全威胁

（1）从内容安全要解决的主要问题及其解决方案来看，内容安全和计算机安全一样，主要建立在保密性、完整性、可用性之上，典型的信息内容安全挑战如下图所示

（2）在分析内容安全的问题之前，首先要搞清楚对安全的威胁来自何方。在互联网、电信网、电视网等各类网络信息共享环境中，一方面，内容安全所面临的威胁有泄露(指对信息的非授权访问)、欺骗、破坏和篡夺等；另一方面，一些恶意用户产生并传播的恶意内容也是网络空间面临的潜在安全威胁。下面首先对泄露、欺骗、破坏和篡夺等威胁进行详细的描述。
（3）以内容为中心的未来互联网旨在将内容名称而不是 IP 地址作为传输内容的标识符，从而实现信息的路由。内容中心网络更适合大数据的内容分发，可以在网络层实现高效的检索机制。事实上，内容中心网络为未来互联网带来了许多好处。首先，互联网中以信息为中心的内容将包含底层信息的内容、属性和关系，从而引入大量语义和情感特征。因此，可以实施更多优化表示来增强网络性能。其次，信息中心网络在大数据内容分发过程中能够提供更智能的分析，这种分析可以以提高未来互联网的智能水平的方式进行。内容中心网络具有许多独特的属性，如位置独立命名、网络内缓存、基于名称的路由和内置安全性。在内容中心网络体系结构中，除了可能对网络流量产生影响的旧式攻击之外，还出现了新的攻击。信息中心网络将安全模型从保护转发路径更改为保护内容使其可以为所有网络节点使用。内容中心网络攻击可以分为命名、路由、缓存和其他攻击。命名攻击可以分为监视列表和嗅探攻击。这些攻击允许攻击者审查和过滤内容。攻击者还可以获取有关内容流行性和用户兴趣的私人信息。考虑到信息中心网络的数据是根据名称进行路由和缓存的，发布者在向网络中发布内容时会依据相关的命名规则，将数据的有关属性、特征和内容包装为数据名称，从而暴露在网络中；订阅者在向网络中发布请求时，也会依次将所需要数据的相关信息包装为数据名称并将其以兴趣包的形式发布到网络中。因此数据名称本身携带了内容信息。通过对名称中暴露出的信息进行挖掘和延展，攻击者可以从中获得有关内容的信息，并通过语义方面的模糊化和替换，对需求进行混淆，从而可以将并非订阅者真实需要的内容发送给对方，以达到不同目的上的欺骗攻击。内容中心网络的常见路由攻击是指恶意发布者和订阅者可以发布和订阅无效的内容或路由。内容中心网络缓存容易受到不同类型的攻击，这些攻击会污染或破坏缓存系统，此外还有缓存内容和未缓存内容之间的差异，这些攻击会侵犯信息中心网络隐私。其他路由攻击则表现为在传输过程中未经授权地访问和更改内容。

5.3 网络信息内容获取

在网络媒体信息与网络通信信息遍布世界各个角落的今天，面向海量网络信息实现全面或有针对性的内容获取，已经成为信息内容安全研究领域中的重要课题。

5.3.1 网络信息内容获取技术

理想的网络媒体信息获取流程主要由初始 URL 集合——信息“种子”集合，等待获取的URL 队列，信息获取模块，信息解析模块，信息判重模块与网络媒体信息库共同组成，如图所示。

（1）早期传统网络媒体信息获取方法的技术实质，可以统一归属于采用网络交互过程编程重构机制实现网络媒体信息获取。
（2）客户端进一步要求网络浏览器导出网页文本内容，存储网页图像信息，或在用于信息获取的计算机上对于正在播放的视/音频信息进行屏幕录像，最终面向各种类型的网络内容、各种形态的网络媒体实现发布信息获取，如图所示。

5.3.2 信息内容获取的典型工具

（1）网络爬虫是在互联网上实施信息内容获取的主要工具。网络爬虫是一种按照一定的规则，自动抓取互联网信息的程序或者脚本。
（2）通常，舆情分析系统采用的爬虫是以上介绍的两类爬虫的组合，并做一定的定制改动。随着网络技术的复杂化，网络爬虫也面临着越来越多的新问题，例如支持 Frame 的网页的处理，登录页面的处理等。
（3）网络爬虫通常采用分布式机制来保证信息获取的全面性和时效性。

5.3.3 信息内容特征抽取与选择

1.文本信息内容的特征抽取与选择

(1)文本特征选择对文本内容的过滤和分类、聚类处理、自动摘要以及用户兴趣模式发现、知识发现等有关方面的研究都有非常重要的影响。通常根据某个特征评估函数计算各个特征的评分值，然后按评分值对这些特征进行排序，选取若干个评分值最高的作为特征词，这就是特征选择。特征选取的方式有4种：
①用映射或变换的方法把原始特征变换为较少的新特征。
②从原始特征中挑选出一些最具代表性的特征。
③根据专家的知识挑选最有影响的特征。
④用数学的方法进行选取，找出最具分类信息的特征，这种方法是一种比较精确的方法，人为因素的干扰较少，尤其适合于文本自动分类挖掘系统的应用。

2. 音频信息内容的特征抽取与选择

对于音频信息内容，充分地分析和提取其物理特征(例如频谱等)、听觉特征(例如响度、音色等)和语义特征(例如语音的关键词、音乐的旋律节奏等),有效地实现音频信息的内容分类和检索至关重要。特征抽取所采用的特征包括基于帧的特征和基于片段的特征两种。
(1)基于帧的音频特征主要有以下几种：
①MFCC②频域能量③子带能量比④过零率⑤基音频率
(2)常见的基于片段的音频特征主要有以下几种：
①静音帧率②高过零率帧率③低能量帧率④谱通量⑤和谐度

3.图像信息的特征抽取与选择

图像的特征抽取和选择主要包含以下几个方面：
(1)图像颜色特征提取
(2)图像纹理特征提取
(3)其他图像特征

5.4 信息内容分析与处理

海量信息内容分析的基本处理环节可以归结为分类和过滤，其他更加复杂的处理问题则是上述简单处理问题的组合。

5.4.1 信息内容分类

分类算法在图像分类、索引和内容理解方面都有直接的应用，其主要功能是：通过分析不同图像类别的图像特征之间存在的差异，将其按内容分成若干类别。经过几十年的研究与实践，目前已经有数十种分类方法。

1.线性分类器

（1）线性分类器通过训练集构造一个线性判别函数，在运行过程中根据该判别函数的输出，确定数据类别。线性分类器结构如图5-5所示。
分类结果完全依赖于线性判别函数的输出：如果输出为正，则判别为第一类C₁; 如果输出为负，则判别为第二类C₂; 如果输出为0,则不能作出判断(这种情
况现实应用中出现得比较少)。

2.最近邻分类法

（1）最近邻分类方法有以下特点：
①不需要复杂的学习优化过程，但分类过程需要计算与所有训练样本的距离，有一定的计算量。
②与线性分类器相比，最近邻分类法的分界面可以不是一个超平面而是一个更复杂的曲线。

3.支持向量机

支持向量机属于一般化线性分类器，能够同时最小化经验误差与最大化几何边缘区。因此支持向量机也被称为最大边缘区分类器。

5.4.2 信息内容过滤

信息内容过滤可以被应用到很多方面，以下是它最常见的应用：
①Internet 搜索结果的过滤
②用户电子邮件过滤
③服务器/新闻组过滤
④浏览器过滤
⑤专为未成年人的过滤
⑥为客户的过滤

5.5 网络舆情内容监测与预警

网络舆情内容监测与预警系统在对网络公开发布信息的深入与全面提取的基础上，通过对海量非结构化信息的挖掘与分析，实现对网络舆情的热点、焦点、演变等信息的掌握，从而为网络舆情监测与引导部门的决策提供科学的依据。

5.5.1网络舆情系统的背景与应用范围

网络舆情监测技术的发展趋势可以归结为以下几个方面：
①针对信息源的深入信息采集。
②异构信息的融合分析。
③非结构信息的结构化表达。

5.5.2 网络舆情系统的功能分解

根据网络舆情监测预警系统的实际需求和目前国内外技术发展的现状，建议从网络媒体信息提取、网络媒体内容聚合分析以及网络媒体内容综合表达等几个方面进行核心技术攻关。

1. 高仿真网络信息（论坛、聊天室）深度提取技术

（1）网络舆情监测预警的主要目的是对互联网中的各类重点、难点、疑点和热点舆情，做及时、有效的监测和应对。因此，在针对互联网的信息提取中，对于动态、实时、分布式发布信息的准确与深度采集有很高的要求。目前一般的网络媒体信息采集技术不能满足网络舆情监测预警基础设施与关键应用的技术需要。

2. 基于语义的海量媒体内容特征快速提取与分类技术

（1）分类特征统计与分析模块是针对前述三个模块采集的互联网信息库特征信息进行进一步的分类特征统计和分析，其主要功能是将三种不同技术路线得到的结论做进一步的融合和统一，以保证基于语义的海量文本特征快速提取与分类系统产生的互联网舆情信息作业信息库的标准化和正则化。

3.非结构信息自组织聚合表达技术

对于互联网中大量的以非结构化存在的信息资源，一方面需要完成基于语义的结构化转化，另一方面，为满足网络舆情监测预警基础设施与典型应用的实际需求，还必须实现非结构信息的自组织聚合表达技术。

5.5.3 互联网舆情内容分析

（1）伴随互联网的迅速普及，各式各样、良莠不齐的发布内容日渐泛滥，传统、纯粹的“人海”战术已经无法满足当前互联网媒体信息监控工作的实际需求。基于互联网媒体发布内容主动获取、分析挖掘与表达呈现等系列技术开展互联网论坛监测工作，首先需要保证相关监测产品对于目标站点发布数据的提取比率，即监测产品信息提取部分的具体性能。
（2）其次，当前互联网利用动态脚本生成的动态内容已经占据主导地位
（3）监控系统针对获取内容关键信息开放单一和组合选项“与或”热点查询操作，最终呈现系统目标站点关于社会焦点更为全面的讨论分布情况与话题具体内容。另一方面，监控系统借助获取内容主题信息提取操作，开放热点数据报告定制功能。

5.6 内容中心网络及安全

下一代网络对高度可扩展的组网结构和高效的内容分发机制的需求急速增长。内容中心网络通过提供面向内容本身的网络协议，包括以内容为中心的订阅机制和语义主导的命名、路由和缓存策略，在解决当前基于 IP 地址进行联网的模式上体现出了巨大的潜力。

5.6.1 内容中心网络架构

1. 内容信息对象

信息对象是指内容本身，它是 CCN 的关注焦点。

2.命名

（1）内容的命名是信息对象的标识，具有全局性和唯一性，其地位与 TCP/IP 架构的 IP 地址类似。
（2）扁平命名也称为自我认证命名，该命名方式可以验证对象的名称-数据完整性，而无需公钥基础设施或其他第三方。

3.路由

（1）在 CCN 中，内容信息分发依赖于内容发布与订阅的异步机制。
（2）CCN 使用基于名称的路由。

4. 缓存

（1）缓存是 CCN 服务不可或缺的一部分，CCN 中的网内缓存实现了以下原则：统一的，即应用于任何协议提供的所有内容；民主的，即由任何内容提供者发布的；普遍存在的，即可用于所有网络节点。

5. 应用程序编程接口

CCN 应用程序编程接口是根据请求和交付内容信息对象定义的。

5.6.2 面向内容中心网络的攻击分类

1. 命名相关攻击

由于内容请求对网络可见，因此 CCN 架构在隐私方面面临更大的威胁。许多攻击者试图审查/监控互联网使用情况。

2. 路由相关攻击

（1）此类攻击可分为分布式拒绝服务(Distributed Denial of Service,DDoS)和欺骗攻击。其中，DDoS 攻击可分为资源耗尽和时间攻击，欺骗攻击可分为阻塞攻击、劫持攻击和拦截攻击。
（2）路由相关攻击可能引起拒绝服务、资源耗尽、路径渗透、隐私泄露等，对内容中心网络造成较大威胁。