综合设计——多源异构数据采集与融合应用综合实践

发布时间 2023-12-14 21:56:36作者: leo102102119

综合设计——多源异构数据采集与融合应用综合实践

这个项目属于哪个课程 2023数据采集与融合技术
组名、项目简介 组名:普雷蒙奇、项目需求:多模态情感分析、项目目标:通过在网页中搜索关键词来得到一个综合的情感分析、项目开展技术路线:前端、python 、华为云平台
团队成员学号 102102112、102102115、102102116、102102118、102102119、102102120、102102156、102102159
这个项目目标 通过在网页中上传文本、图片、视频或音频分析其中的情感
其他参考文献 [1]梁爱华,王雪峤 多模态学习数据采集与融合、[2]陈燕、赖宇斌 基于CLIP和交叉注意力的多模态情感分析模型 、[3]武星、殷浩宇 面向视频数据的多模态情感分析

Gitee文件夹链接:

https://gitee.com/w-jking/crawl_project/blob/master/大作业/datacrawl.7z

项目整体介绍:

项目名称
国产手机情感分析

项目背景
近年来,国货新潮流兴起,华为Mate60系列供应链90%以上来自国内,消费者的真实反馈对于手机品牌口碑和市场表现至关重要,收集和分析消费者对于国产手机的反馈,不仅可以为用户提供一个选择手机品牌的依据,也可以为品牌提供有价值的建议和改进方向。

项目目标
通过采集和挖掘不同模态(文本、图片、音频)的数据,运用不同的情感分析模型,构造一个可以对国产手机各个方面进行多模态分析的系统,对国产手机品牌得到一个综合的情感分析,直观的感受到大众对于国产手机的的态度,以便于更好的判断国产手机中的“国货之光”。

项目具体流程图

技术路线

  • 前端开发

    • 使用HTML、CSS和JavaScript进行前端的是界面设计,实现输入关键词和视频数量和弹幕数量后得到一个综合分析。

    • 提升用户体验,使用动画效果和过渡效果,可以提高页面的交互性和吸引力。

  • 后端开发

    • 使用python语言来实现后端开发的编写

    • 使用Django框架来处理前端信息的接收,以及后端得到的信息返回

  • 数据处理与分析

    • 文本爬取

      • 爬取B站弹幕和京东评论,但是京东评论在项目最后阶段爬取不到数据,所以只保留了弹幕的爬取。
      • 采用request库的findall()函数获取指定cid的弹幕,并通过正则表达式提取出弹幕文本。
    • 图片爬取

      • 爬取当当网的图片。
      • 使用requests库的findall()函数和正则表达式取所有满足条件的图片链接。
      • 并使用多线程机制将图片进行下载。
    • 音/视频爬取

      • 爬取B站相关视频。
      • 采用request库的findall()函数和正则表达式提取JSON中BV号。
      • 使用正则表达式和json库获取视频和音频的url。
      • 使用requests库来下载视频和音频文件。
    • 文本分析: 首先考虑ERNIE-UIE文心模型,可是配置不成功,导致没有结果显示。接着考虑讯飞的情感分析模型,发现只能单句分析,不太符合需求,最后考虑百度云的API接口。

    • 视频和音频分析:

      • 对B站相关视频进行爬取,得到视频和音频。
      • 使用Whisper方法将音频转为文本。
      • 对上传的音频文件进行特征提取和情感识别。
  • 结果输出与展示:将分析结果通过前端界面展示。

  • 结果输出与展示


个人分工

102102119	李子慕

(1)爬取当当网的国产手机的图片。

(2)爬取B站弹幕。

心得体会

102102119	李子慕

在这次数据采集课程设计中,我又重新熟悉了一下python来做数据爬取、分析挖掘及可视化的过程,对requests、pyecharts等库也有了更多的熟悉,中间还遇到了一些从没见到过的问题,通过一次次的修改,最终呈现出了一个较为完整的版本,当然这次爬取的数据还有一部分没有用上,其实再深层剖析的话,还是有很多可分析空间。不过,自己对数据的理解还很浅,还需要多看看别人的文章进行学习。坦白说,这次课程设计对自己的提高不大,有些新技术还没来的及尝试,课设就结束了,在以后的时间里,我还会多去了解一些新的技术和方法来更有效率的完成学习和工作!
这次课设让我们对数据采集理解有了更深的了解,我们的课程设计要求是通过网络爬虫,采集京东某一型号手机的评论,根据评论的各类信息,来分析出购买手机顾客的类型和手机的方方面面的使用体验,这次我们使用的爬虫代码和主程序全部采用python编写,让我们对新的汇报语言有了更深的了解,懂得了如何使用这种语言去分析数据。
我们还从网上找到了很多可以利用的插件,学会合理利用资源,减少工作量提高工作效率,可以帮我们更精确的表达分析结果。当然更重要的是,通过这次课程设计,我们小组之间的分工合作非常重要,几个人之间相互配合,有效缩短了作业时间,大大提高了工作效率,还使我们学到了从大数据中分析出商品优劣的能力,让我们以后对数据也有了更敏感的思想。美中不足的是我们对于 python 了解比较浅显,在初步学习花费了较多的时间,导致我们后期进度比较紧张,但还是配合组长完美的完成了任务,这次课设经过组长悉心指导使我们受益匪浅。