数据采集与融合技术实践作业三
102102136 陈耕
作业1:
(1)作业内容
实验要求:
码云链接:
代码内容:
具体实现:
(2)心得体会:
作业2:
(1)作业内容
实验要求:
要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取股票相关信息。
候选网站
东方财富网:https://www.eastmoney.com/
新浪股票:http://finance.sina.com.cn/stock/
输出信息:
码云链接:
代码内容:
具体实现:
(2)心得体会:
1.了解到了网页数据是动态加载的,首先需要通过js文件获取数据所在的url,明白了动态加载的网页数据的爬取过程和如何通过查看js文件获取数据所在的url;
2.熟悉了翻页处理来获取不同模块以及页数上的股票信息,所以通过修改url的对应的值来达到翻页以及查看不同模块的效果;
3.学会了使用pd.DataFrame的相关语句来完成数据库的相关操作。
作业3:
(1)作业内容
实验要求:
要求:熟练掌握 scrapy 中 Item、Pipeline 数据的序列化输出方法;使用scrapy框架+Xpath+MySQL数据库存储技术路线爬取外汇网站数据。
候选网站
招商银行网:https://www.boc.cn/sourcedb/whpj/
输出信息:
码云链接:
代码内容: