综合设计——多源异构数据采集与融合应用综合实践

发布时间 2023-12-14 21:31:44作者: 一戴宗师
这个项目属于哪个课程 2023数据采集与融合技术 (福州大学 - 福州大学计算机与大数据学院)
组名、项目简介 组名:你在跟我作队
项目需求:(1)音视频转文字准确性 (2)实时性 (3)多语种支持 (4)扩展性
项目目标:①搭建轻量级网站平台提供交互。②利用大模型及第三方库解析音视频及图片。③性能测试及优化
项目开展技术路线:(1)HTML/CSS/JavaScript前端编写(2)Python flask请求处理、URL路由、模板渲染,快速搭建轻量级交互式web。(3)Whisper大模型解析视频,多语言语音识别、翻译。pytesseract库及Tesseract识别引擎提取图片文字。
团队成员学号 组长:陈星宇 102102135
组员:
冯展  052101102
王剑瑜 102102113
吴钦堋 052106102
李嘉骏 102102122
戴坤松 032004111
这个项目的目标 (1)搭建轻量级网站平台。(2)输入视频网址,利用大模型解析视频,将音视频转文字,概括视频主要内容,同时获取评论,提炼观看者对视频内容看法。输入图片网址,提取图片上文字。(3)将上述处理结果通过搭建的web网页进行交互式输入输出。(4)性能测试与优化,提高转文字准确性,实时性,多语种,可扩展性和灵活性。
其他参考文献 《语音识别技术的研究与发展》
《基于深度学习的语音识别研究》
《Whisper: A Self-supervised Speech Pre-training Method》
《Large-scale Weakly Supervised Pre-training for Speech Recognition》
《Improving the Robustness of Whisper with Domain-Adaptive Training》

oGitee 文件夹链接:

码云链接

项目整体简述

项目概述
致力于打造一个简单而灵活的Web网页,用于采集需要处理的视频和图片的网址。通过运用相关第三方库和大模型技术,深入解析这些视频和图片,实现音视频转文字,音视频内容提炼,观众情感判断。同时提取图片文字,为后续的数据分析和处理提供便利。最后通过Web网页将处理结果反馈给用户,帮助他们更好地理解和利用这些视频和图片资源。
项目需求
 (1)音视频转文字准确性
 (2)实时性
 (3)多语种支持
 (4)扩展性
项目目标
 (1)搭建轻量级网站平台。
 (2)输入视频网址,利用大模型解析视频,将音视频转文字,概括视频主要内容,同时获取评论,提炼观看者对视频内容看法。输入图片网址,提取图片上文字。
 (3)将上述处理结果通过搭建的web网页进行交互式输入输出。
 (4)性能测试与优化,提高转文字准确性,实时性,多语种,可扩展性和灵活性。
技术路线
 (1)HTML/CSS/JavaScript前端编写
 (2)Python flask请求处理、URL路由、模板渲染,快速搭建轻量级交互式web。
 (3)Whisper大模型解析视频,多语言语音识别、翻译。pytesseract库及Tesseract识别引擎提取图片文字。
效果简单展示:

个人工作汇报

(1)利用pytesseract库及Tesseract识别引擎编程实现输入图片网址,提取图片文字并输出。

(2)程序测试
①网络性能测试与优化

②简单功能测试

(3)相关工作对接,文档编写

实践总结及心得体会

在此次多源异构数据采集融合实践中,我们团队遇到了技术上的挑战,如音视频的文字转换、噪声去除、情感推断分析等问题。通过不断学习和尝试,我们成功解决了这些问题。在团队协作中,我们遇到了沟通不畅、任务分配不均等问题。不过后续通过加强沟通和协作,成功解决了这些问题,提高了团队的工作效率。并且通过合理安排时间和资源,成功按时完成了项目任务。
通过参与此次音视频转文字项目,我不仅提高了自己的技能水平,还获得了许多宝贵的经验和教训。这些经验和教训将对我今后的学习工作产生积极的影响。同时,我也感谢团队成员的共同努力和协作,让我们共同完成了这个项目。最后,感谢老师的辛勤付出,实践课程圆满完结撒花!