综合设计——多源异构数据采集与融合应用综合实践-526互联

这个项目属于哪个课程	2023数据采集与融合技术 (福州大学 - 福州大学计算机与大数据学院)
组名、项目简介	组名：你在跟我作队项目需求：(1)音视频转文字准确性 (2)实时性 (3)多语种支持 (4)扩展性项目目标：①搭建轻量级网站平台提供交互。②利用大模型及第三方库解析音视频及图片。③性能测试及优化项目开展技术路线：(1)HTML/CSS/JavaScript前端编写(2)Python flask请求处理、URL路由、模板渲染，快速搭建轻量级交互式web。(3)Whisper大模型解析视频，多语言语音识别、翻译。pytesseract库及Tesseract识别引擎提取图片文字。
团队成员学号	组长：陈星宇 102102135 组员：冯展 052101102 王剑瑜 102102113 吴钦堋 052106102 李嘉骏 102102122 戴坤松 032004111
这个项目的目标	(1)搭建轻量级网站平台。(2)输入视频网址，利用大模型解析视频，将音视频转文字，概括视频主要内容，同时获取评论，提炼观看者对视频内容看法。输入图片网址，提取图片上文字。(3)将上述处理结果通过搭建的web网页进行交互式输入输出。(4)性能测试与优化，提高转文字准确性，实时性，多语种，可扩展性和灵活性。
其他参考文献	《语音识别技术的研究与发展》《基于深度学习的语音识别研究》《Whisper: A Self-supervised Speech Pre-training Method》《Large-scale Weakly Supervised Pre-training for Speech Recognition》《Improving the Robustness of Whisper with Domain-Adaptive Training》

oGitee 文件夹链接：

码云链接

项目整体简述

项目概述：
致力于打造一个简单而灵活的Web网页，用于采集需要处理的视频和图片的网址。通过运用相关第三方库和大模型技术，深入解析这些视频和图片，实现音视频转文字，音视频内容提炼，观众情感判断。同时提取图片文字，为后续的数据分析和处理提供便利。最后通过Web网页将处理结果反馈给用户，帮助他们更好地理解和利用这些视频和图片资源。
项目需求：
(1)音视频转文字准确性
(2)实时性
(3)多语种支持
(4)扩展性
项目目标：
(1)搭建轻量级网站平台。
(2)输入视频网址，利用大模型解析视频，将音视频转文字，概括视频主要内容，同时获取评论，提炼观看者对视频内容看法。输入图片网址，提取图片上文字。
(3)将上述处理结果通过搭建的web网页进行交互式输入输出。
(4)性能测试与优化，提高转文字准确性，实时性，多语种，可扩展性和灵活性。
技术路线：
(1)HTML/CSS/JavaScript前端编写
(2)Python flask请求处理、URL路由、模板渲染，快速搭建轻量级交互式web。
(3)Whisper大模型解析视频，多语言语音识别、翻译。pytesseract库及Tesseract识别引擎提取图片文字。
效果简单展示：

个人工作汇报

（1）利用pytesseract库及Tesseract识别引擎编程实现输入图片网址，提取图片文字并输出。

（2）程序测试
①网络性能测试与优化

②简单功能测试

（3）相关工作对接，文档编写

实践总结及心得体会

在此次多源异构数据采集融合实践中，我们团队遇到了技术上的挑战，如音视频的文字转换、噪声去除、情感推断分析等问题。通过不断学习和尝试，我们成功解决了这些问题。在团队协作中，我们遇到了沟通不畅、任务分配不均等问题。不过后续通过加强沟通和协作，成功解决了这些问题，提高了团队的工作效率。并且通过合理安排时间和资源，成功按时完成了项目任务。
通过参与此次音视频转文字项目，我不仅提高了自己的技能水平，还获得了许多宝贵的经验和教训。这些经验和教训将对我今后的学习工作产生积极的影响。同时，我也感谢团队成员的共同努力和协作，让我们共同完成了这个项目。最后，感谢老师的辛勤付出，实践课程圆满完结撒花！