数据采集大作业

发布时间 2023-12-14 17:23:16作者: 碎月当浮空

基本信息

这个项目属于哪个课程 https://edu.cnblogs.com/campus/fzu/2023DataCollectionandFusiontechnology
组名、项目简介 普雷蒙奇、国产手机情感分析
团队成员学号 102102112 102102115 102102116 102102118 102102119 102102120 102102156 102102159
项目目标 构造一个可以对国产手机各个方面进行多模态分析的系统,直观的感受到大众对于国产手机的的态度
其他参考文献 ...

项目整体

Gitee文件夹链接:

项目背景:

近年来,消费市场上涌动起一股的国货新潮流。买国货、用国货、晒国货,成为很多人,特别是年轻一代的生活日常。2023年9月华为Mate60系列正式开售,再次掀起一股国货的浪潮。媒体研究发现,新机至少有46家供应链来自国内,国产化率高达90%左右,不愧是“国货之光”,彻底解决“卡脖子”问题,而且新机正如余承东所言,在很多方面“遥遥领先”。然而,尽管国产手机,如华为、小米、oppo、vivo在全球市场上的销量和影响力不断增长,但要想继续保持“遥遥领先”,消费者的体验和反馈很重要。消费者对于国产手机的真实态度和反馈,将直接影响着手机品牌的口碑和市场表现。因此,本研究将通过收集和分析消费者对于国产手机的真实反馈,为手机品牌提供有价值的建议和改进方向。

项目需求:

由于国产手机在市场上的竞争力越来越强,越来越多的消费者对于国产手机也是抱有很大的期待,但是随着各种外界因素,因此消费者对于国产手机的真实态度和反馈,将直接影响着手机品牌的口碑和市场表现。因此,本研究将通过收集和分析消费者对于国产手机的真实反馈,为手机品牌提供有价值的建议和改进方向。也帮助人们可以更好地了解国产手机。

团队成员:

102102112	王俊凯

102102115	叶可鹏

102102116	吕艺能

102102118	许诚龙

102102119	李子慕

102102120	李岩

102102156	屈亚鹏

102102159	李璐璐

项目规划:

(1)爬取当当国产手机的图片,将下载的url信息在控制台输出,并将下载的图片存储。

(2)爬取B站视频,搜索国产手机,爬取综合排序前30的所有视频弹幕。

(3)爬取B站视频音频。  

(4)将爬取的弹幕与评论自动写入数据库中。

(5)对采集的数据集进行可视化表示,制作词云图。

(6)对采集的数据集进行情感分析。

(7)将结果在应用平台展示。

描述项目的整体规划和时间安排。说明项目的阶段性目标和里程碑。可以使用甘特图或时间轴来展示项目的进度计划。

技术路线:

 **前端技术开发:
-使用HTML,CSS和JavaScript进行前端的是界面设计,创建用户在网页中直接与之交互的界面。
-提升用户体验,使用动画效果和过渡效果,可以提高页面的交互性和吸引力
**后端技术开发:
-使用python语言来实现后端开发的编写
-使用Django框架来处理前端信息的接收,以及后端得到的信息返回

功能实现:

(1)爬取当当网的国产手机的图片,我们使用了re库中的findall()方法来提取数据
(2)爬取B站的视频音频,我们也是用re库中的refindall()方法来提取数据,然后并修改文件的格式以WAV的格式存储下来。

(3) 爬取B站弹幕,我们使用了re库中的findall()方法来提取数据

(4)
    -文本分析:自己训练模型后,发现无法正常调用,后转而使用百度云的API接口。
-音频分析:我们首先提取出视频中的音频,然后使用whisper,对其转为文本后在进行情感分析。

成果与展示:

总结项目的成果和亮点。分享项目的截图、演示视频或在线演示链接,让读者可以直观地了解项目的效果和功能。

总结与反思:

本次项目让我们收获颇丰,成功之处在于团队协作和高效沟通。我们共同面对挑战,积极寻求解决方案,确保项目按时完成。不足之处在于初期对需求理解不够深入,以及在项目上始终没有一个你明确的方向,导致前期的时候浪费了很多的精力,但是效率很低。最后在项目中我们学习到了团队协作的重要性,叶在一次又一次地完成任务中,提升了能力。

个人分工

在这次的实践中我主要负责的是项目的模型寻找以及,部分模型代码的训练和优化的编写。同时也负责部分爬取数据的工作,比如爬取B站的弹幕。

心得体会

102102112 王俊凯

在这次参与数据采集项目的过程中,我收获了很多宝贵的经验和教训。如项目的一个规划以及项目方向的确定,虽然起初我们还完全没有头绪,但是随着我们每个人的集思广益,慢慢的整个项目的逻辑也理清楚了。在这个项目中,我们选择了Python作为编程语言,并使用了requests库来发送HTTP请求获取数据。此外,我们还使用了wordcloud库构造词云来进行数据可视化。这些工具和技术都为我们提供了高效、灵活的数据采集和分析能力。
对于这次项目实践,自己觉得还有很多不足的地方,比如之前想要搞的有些情感分析的但是因为时间不够再加上自己代码的完整性不行所以不得不取消掉了,这也有点遗憾。不过在在这次的项目实践中,由于我们需要的数据都是我们要自己获取的,比如B站的弹幕信息,视频音信息,以及当当网上面的图片信息等等。通过这些,自己也是再一次对爬虫的工具以及方法的到了一个复习和提升。也加深了我对于机器学习的理解。
我们还从网上找到了很多可以利用的插件,学会合理利用资源,减少工作量提高工作效率,帮我们更精确的表达分析结果。当然更重要的是,通过这次课程设计,我们小组之间的分工合作非常重要,几个人之间相互配合,有效缩短了作业时间,大大提高了工作效率.
总之,这次数据采集项目让我收获了很多宝贵的经验和教训。通过参与项目,我不仅提高了自己的技能和能力,还加深了对数据采集、分析和可视化领域的理解。在未来的工作中,我将继续努力学习和提高自己,为项目的成功贡献更多的力量。