多源异构数据采集与融合应用综合实践

这个项目属于哪个课程	https://edu.cnblogs.com/campus/fzu/2023DataCollectionandFusiontechnology
组名、项目简介	组名:泥头车
	项目需求：设计一个包含视频、文本、图片、音频的多源异构数据采集与融合的、能够判断相关性、客观性的应用网站
	项目目标：（1）对大众点评上的评论真实性进行分析（2）根据抖音等短视频平台上的短视频内容进行抽取和分类判别
	项目开展技术路线：python、华为云平台、前端：ES6、vue3、 element-plus、后端：python-flask框架、百度千帆大模型ERNIE-Bot服务、whisper、yolov8模型、基于预训练的vgg网络再训练
团队成员学号	102102136、102102137、102102138、102102139、102102109
这个项目的目标	采用技术手段和方法，对“水军”和虚假评论进行判别，对视频进行合理的分类以确保网络环境的公正、真实和安全。
其他参考文献	[1]吴娇,汪可馨,许锟.融合多模态的虚假新闻检测[J].哈尔滨商业大学学报(自然科学版),2023,39(01):47-52.DOI:10.19492/j.cnki.1672-0946.2023.01.011.https://kns.cnki.net/kcms2/article/abstract?v=GARc9QQj0GVrRulgkOiVKs9OD8ERvmQdGrXIV2ms209gRfu49Augq0X_2vnaL53NgHQ6KwEzzTwCIukhEcuJkgpr_m5eu9meF3LV8Ea-whxcFP_M4FPBC0nIemlyQWBNdhvtE6B2ZY0mEKOTVCeAgw==&uniplatform=NZKPT&language=CHS

实践内容：FZU判官网站制作

项目背景：

随着互联网的快速发展，网络评论和短视频成为人们表达意见、分享观点的重要渠道。然而，这些评论和短视频中有时存在大量的“水军”和虚假评论，给用户和平台带来了很多困扰。因此，对“水军”和虚假评论进行判别显得尤为重要。

“水军”是指在网络上故意发布虚假评论、制造舆论热点的一群人。他们通常是为了获取某种利益或达到某种目的而进行恶意行为。“水军”的存在不仅扰乱了网络秩序，还可能误导用户，导致不良后果。因此，对“水军”进行判别是维护网络健康的重要任务。

虚假评论是指那些故意发布不真实、不客观的评论，以达到某种目的的行为。这些评论往往与事实不符，甚至可能误导用户。虚假评论的存在不仅破坏了网络评论的公正性和真实性，还可能对用户造成经济损失或其他不良影响。因此，对虚假评论进行判别也是非常重要的。

随着短视频的兴起，短视频中的评论和互动也变得越来越重要。然而，与文本评论相比，短视频中的评论更加难以判别。因为短视频视频内容，很难通过文本分析来判断其真实性。因此，对短视频中的评论进行判别也是非常重要的。

因此，我们希望采用先进的技术手段和方法，对“水军”和虚假评论进行判别，以确保网络环境的公正、真实和安全。

功能阐述：

一、对大众点评上的评论真实性进行分析

数据获取：使用爬虫技术从大众点评上获取评论数据，包括评论的图片、文字、评分等信息。
数据清洗：对获取的数据进行清洗和处理，去除无关信息和噪声数据。
评论分析：使用自然语言处理（NLP）技术对评论的文字进行分析，提取关键词和情感倾向，判断评论的相关性和客观性。
综合评分计算：根据评论的相关性、客观性和其他因素，计算每条评论的综合评分。
结果展示：在网站上展示分析结果，包括评论的图片、文字、相关性、客观性和综合评分。

二、根据抖音等短视频平台上的短视频内容进行抽取和分类判别

数据获取：使用爬虫技术从抖音等短视频平台上获取视频数据。
视频处理：对获取的视频数据进行处理，包括视频转码、视频摘要生成等操作。
视频内容抽取：使用计算机视觉（CV）和自然语言处理（NLP）技术对视频内容进行抽取，提取视频的关键帧和音频信息，生成视频的文字描述。
视频分类：根据视频的文字描述和其他特征，使用机器学习算法对视频进行分类，判断视频属于哪一类。
结果展示：在网站上展示分类结果和视频的梗概。

个人分工

需求分析阶段

负责主导需求分析阶段的工作，组织和执行各项需求调研，主要任务为搜集、比较资料，同时还参考相关的行业报告和数据，对项目背景和现状进行了全面的了解。
在使用具体的模型方面，结合团队成员特长、多源异构数据的采集和融合和应用平台搭建等对项目的可行性和可完成度进行分析，对所需内容进行了详细的规划和整理，确定最终的设计方向：
在模态方面，选择共四种模态：文字、图片、音频和视频，并确定其中文字和音频的模型选用：

文字处理：百度千帆大模型ERNIE-Bot服务

语言理解能力强：基于Transformer架构，具有强大的自然语言理解能力，能够捕捉文本中的深层语义信息；
泛化性能好：通过在大规模语料库上进行预训练，可以在各种自然语言处理任务中表现出良好的泛化性能；
适用于多种场景：支持多种自然语言处理任务，适用于各种实际应用场景。

音频处理：whisper

高效压缩：采用先进的音频压缩技术，能够在保持音频质量的同时，显著降低音频文件的存储和传输成本；
良好的兼容性：支持多种音频格式，兼容性良好，可以满足不同设备和平台的需求；
易于集成：API接口简单易用，方便开发。

数据采集阶段

根据设计方案进行音频、文字的爬虫设计规范，包括规范使用的爬虫策略、数据结构、存储方式等选择合适的方式完成图片及文字方面的爬虫设计，并做好预处理工作。

数据建模阶段

负责主导音频模型运用阶段的工作，考虑模型的特性、适用场景以及项目的数据特点等因素，对于音频处理，使用whisper，对音频数据进行压缩再解压缩，进行后续的处理和分析并部署到实际应用中。

#实例
import time
import whisper

def sound_deal(url):
    """
    whisper支持格式Mp3、mp4、mpweg、mpga、m4a、wav、webm
    :param url:
    :return: 返回处理后合并的文本
    """
    whisper_model = whisper.load_model("large")
    print('开始加载')
    time1 = time.time()

    result = whisper_model.transcribe(url,initial_prompt="以下是普通话的句子。")
    time2 = time.time()
    s = time2 - time1
    print('时间' + str(s))
    content = ", ".join([i["text"] for i in result["segments"] if i is not None])
    return content

使用whisper，也是看重其便捷的使用和较为良好的效果。