期末复习--数据分析之黑马程序员-必背考点-526互联

填空：

数据分析的目的将隐藏在大批乱的数据集中提炼出有用的数据。

Anaconda中包含conda、Python等超过180个科学包及依赖项。

Jupyter Notebook是支持实时代码、数学方程、可视化和Markdown的Web应用程序。

数组对象ndarray执行一些科学计算。

ndarray.ndim执行的结果为2，则表示创建的是_2_维数组

NumPy的数据类型是由一个类型名和元素_位长_的数字组成

两个数组大小ndarray.shape不同，算术运算会出现广播机制。

花式索引是NumPy的一个术语，指用整数数组或列表进行索引。

Pandas是一个基于Numpy的Python库。

Pandas中有两个主要的数据结构分别为Series,DataFrame。

Series结构由索引和数据组成。

可以使用列表和字典创建一个Series对象。

数据排序可以分为按置排序，按索引排序。

数据清洗的目的是让数据具有完整性，唯一性，权威性，合法性，一致性等特点。

产生缺失值或空值的原因有人为原因，机械原因。

stack()方法可以将列索引转换为行索引。

concat()函数的堆叠方式有横向堆叠和纵向堆叠，连接方式有内连接和外连接。

拉依达原则在检测异常值时必须保证数据遵守正态分布。

分组聚合的流程一般为拆分、应用、合并。拆分是将数据集按照一定规则分成若干组；应用是对这些分组的数据进行一系列操作的过程；合并是将这些执行操作后的结果进行整合。

分组键的形式可以有列表或数组的长度需要与带分组轴的长度一致、DataFrame中某列的名称、字典或Series对象、函数。

transform()方法会对产生的标量值进行广播操作。

对DataFrame对象进行分组后会返回DataFrameGroupBy对象。

bokeh是针对浏览器使用的交互式可视化库。

数据可视化常见的统计图表有直方图,饼图,折线图.

使用Matplotlib绘制图表时，需要导入pyplot模块。

直方图中使用横轴表示数据的类型，用纵轴表示分布情况 。

用Matplotlib绘制柱状图时能使用pyplot模块中的bar函数。

时间序列是指多个时间点上形成的数值序列。

ARIMA模型是一种用于时间序列预测的常见统计模型。

Pandas中的频率是由一个基础频率和一个乘数组成的，比如7D。

重采样指将时间序列从一个频率转换到另一个频率的处理过程。

在Pandas中，使用Period类表示一个标准的时间段或时期。

情感极性分析方法主要有基于情感词典，基于机器学习方法。

文本相似度的检测是根据余弦相似度公式进行检测。

余弦相似度与向量的幅值无关，与向量的方向有关。

文本分类属于有监督的机器学习。

文本分类的步骤包括 数据集准备，特征抽取，模型训练，分类结果评价。

选择题：

搭接数据仓库和保证数据质量的是数据处理

Jupyter Notebook编辑文档且展示数据分析过程

绘制数组的2D图形Matplotlib

用来表示数组维度的属性是shape

np.ones((3,3)),[14],[[[0 3]][[1 4]][[2 5]]]

where()矢量化三元表达式

from_tuples()将元组转换为MultiIndex对象

describe()可以一次性输出多个统计指标

03 25 32 44 51

0 T 1F 2T

dropna()删除缺失值或空值

scatter()可以绘制散点图的函数.

Period不可以用做Pandas对象索引

2015-07-21 2018-08-10 0 2018-08-11 1

基于动态的分词方法不属于分词算法

支持繁体分词模式不属于jieba分词模式

['Life', 'short', ',', 'need', 'Python', '.']

人生苦短我用 Pyhton

date_range()创建固定频率DatetimeIndex对象

下列说法不正确的是：

Anaconda是完全开源的、付费的。异常值一定要删除。

unstack()方法可以将列索引旋转为行索引。

Pandas中只有Series和DataFrame这两种数据结构

分组键能是列表或数组，但长度不需要与待分组轴的长度相同。

agg()方法中func参数只能传入一个函数。

Matplotlib是一个Python 3D绘图库。可以处理大量的数据流。

Charts库可直接使用，不需要单独安装。

条形图由一系列高度不等的纵向条纹或线段表示数据分布情况。

时间序列数据在降采样时，总体的数据量是增加的。

nltk擅长处理英文文本。

下列正确的是：

DataFrame是二维数据结构，并且该结构具有行索引和列索引。

会对产生的标量值进行广播操作。

apply（）可以对数据进行分组。

判断题√：

Python是一门胶水语言，可以轻松地操作其它语言编写的库。

如果没有明确地指明数组中元素的类型，则默认为float64。

数组之间的任何算术运算都会将运算应用到元素级。

多维数组操作索引时，可以将切片与整数索引混合使用。

在DataFrame中每列的数据都可以看做是一个Series对象。

使用describe()方法会输出多个统计指标。

rename()方法可以重命名索引名。

在箱形图中超出上界和下界的值称为异常值。

分组聚合的原理一般分为拆分-应用-合并。

apply()方法可以使用广播功能。

使用transform()方法进行聚合运算，其结果可以保持与原数据形状相同。

seaborn是基于Matplotlib核心库。

Figure对象可以划分多个绘图区域，每个绘图区域都是一个Axes对象。

Matplotlib生成的图表可以保存在本地。

最基本的时间序列类型是以时间戳为索引的Series对象。

如果相同频率的两个Period对象进行数学运算，那么计算结果为它们的单位数量。

DatetimeIndex是一种用来指代一系列时间戳的索引结构。

文本分词的目的在于使用单词来表示文本特征。

词干提取和词性还原的目的是相同的。

简答题

数据分析：用适当的统计分析方法对收集来的大量数据进行分析，从中提取有用信息和形成结论，并加以详细研究和概括总结的过程。

数据分析的基本过程：明确目的和思路、数据收集、数据处理、数据分析、数据展现。

Python数据分析的优势：语法简单精炼，适合初学者入门；拥有一个巨大且活跃的科学计算社区；拥有强大的通用编程能力；人工智能时代的通用语言；方便对接其它语言。

NumPy数组不需要循环遍历，即可对每个元素执行批量的算术运算操作，这个过程叫做矢量化运算。

实现广播机制满足哪些条件：两个数组的某一维度等长，或其中一个数组为一维数组。

Series和DataFrame的特点：Series是一个类似于一维数组的对象，它能够保存任何类型的数据，主要由一组数据和与之相关的索引两部分构成。DataFrame是一个类似于二维数组的对象，它每列的数据可以是不同的数据类型。DataFrame的结构也是由索引和数据组成的，并且DataFrame的索引有行索引和列索引。

层次化索引：是在单层索引的基础上进行延伸，它可以在一个轴上存在多层索引，并且能够以低纬度形式表示高维度的数据。

数据预处理常用哪些操作：在数据预处理的过程中会根据数据的实际情况选择合适处理方法，常用的预处理操作有数据清洗、数据合并、数据重塑、数据转换等，在这几种操作中又分别含有不同的数据处理方法，例如在数据清洗过程中含有空值和缺失的检测、重复值的处理、异常值的处理等。

数据合并的操作有哪些：在Pandas中常用的数据合并操作有：concat()函数表示沿着一条轴将多个对象进行堆叠、merge()函数表示根据一个或多个键将不同的对象进行合并、join()方法表示根据索引或指定的列来合并数据、combine_first()方法表示填充合并数据。

时间序列的数据有哪几种？

时间戳（Timestamp），表示特定的时刻，比如现在。

固定周期（period），比如2018年或者2018年10月。

时间间隔（interval），由起始时间戳和结束时间戳表示。

什么是降采样？什么是升采样？如果是将高频率数据聚合到低频率，则称为降采样；如果是将低频率数据转换到高频率数据，则称为升采样。

什么是文本分析？文本分析是指对文本的表示及其特征项的选取，通过一定的方法将文本中无用的信息删除，留下有用的信息，通过对这些有用的信息进行挖掘，最后根据结果分析文本得意图和目的。

请简述常用的文本情感分析方法。常用的文本情感分析方法有两种分别是基于情感词典和基于机器学习。使用情感词典的方法主要是通过制定一系列的情感词典和规则，对文本进行段落拆解、句法分析、情感值计算，而机器学习方法是将问题进行归纳分类，根据分类对文本进行不同的标注。

请简述检测文本相似度的流程。

文本相似度的检测一般分为如下步骤：1、通过特征提取的模型或手动实现，找出这两篇文章的关键词。2、从每篇文章中各取出若干个关键词，把这些关键词合并成一个集合，然后计算每篇文章中各个词对于这个集合中的关键词的词频。3、生成两篇文章中各自的词频向量。4、计算两个向量的余弦相似度，值越大则表示越相似。

random_shuffle黑马程序员算法

空间黑马程序员容器

黑马程序员文件程序