数据采集与融合技术实践作业三

                                                                                   102102136 陈耕

作业1：

（1）作业内容

实验要求：

码云链接：

代码内容：

具体实现：

（2）心得体会：

作业2：

（1）作业内容

实验要求：

要求：熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法；使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取股票相关信息。

候选网站

东方财富网：https://www.eastmoney.com/
新浪股票：http://finance.sina.com.cn/stock/

输出信息：

码云链接：

代码内容：

具体实现：

（2）心得体会：

1.了解到了网页数据是动态加载的，首先需要通过js文件获取数据所在的url，明白了动态加载的网页数据的爬取过程和如何通过查看js文件获取数据所在的url；
2.熟悉了翻页处理来获取不同模块以及页数上的股票信息，所以通过修改url的对应的值来达到翻页以及查看不同模块的效果；
3.学会了使用pd.DataFrame的相关语句来完成数据库的相关操作。