数据采集与融合技术实践作业三

发布时间 2023-10-20 15:33:30作者: 皌

数据采集与融合技术实践作业三

                                                                                   102102136 陈耕

作业1:

(1)作业内容

实验要求:

image

码云链接:

代码内容:


具体实现:

(2)心得体会:

作业2:

(1)作业内容

实验要求:

要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取股票相关信息。

候选网站

东方财富网:https://www.eastmoney.com/
新浪股票:http://finance.sina.com.cn/stock/

输出信息:

image

码云链接:

代码内容:



具体实现:

(2)心得体会:

1.了解到了网页数据是动态加载的,首先需要通过js文件获取数据所在的url,明白了动态加载的网页数据的爬取过程和如何通过查看js文件获取数据所在的url;
2.熟悉了翻页处理来获取不同模块以及页数上的股票信息,所以通过修改url的对应的值来达到翻页以及查看不同模块的效果;
3.学会了使用pd.DataFrame的相关语句来完成数据库的相关操作。

作业3:

(1)作业内容

实验要求:

要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取外汇网站数据。

候选网站

招商银行网:https://www.boc.cn/sourcedb/whpj/

输出信息:

image

码云链接:

代码内容:


具体实现:

(2)心得体会: