Project2——论文查重系统(PPCS)

发布时间 2023-09-19 15:37:32作者: Antonio_ice_room

github项目地址

作业要求

工程概论 班级链接
作业要求 作业的要求链接
作业的目标 熟悉项目流程

需求

语言 Java
目标 对输入的两个文件进行查重
输出 命令行显示,并存入文件
要求 输出浮点型结果

算法流程

1.文本处理
使用空格分隔文本,并切换成小写
2.获取特征向量
并用分隔后得到的单词,组成词频向量
3.计算余弦相似度
用两个向量的点积除以二者的范数之积来计算余弦相似度
优缺点:
速度快,代码简单,但无法联系上下文,无法真正地对比语义信息。

PSP表格

|

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟
Planning 计划 5 5
Estimate 估计这个任务需要多少时间 3 1
Development 开发 - -
Analysis 需求分析 (包括学习新技术) - -
Design Spec 生成设计文档 - -
Design Review 设计复审 - -
Coding Standard 代码规范 (为目前的开发制定合适的规范) - -
Design 具体设计 10 5
Coding 具体编码 20 20
Code Review 代码复审 - -
Test 测试(自我测试,修改代码,提交修改) 20 15
Reporting 报告 30 25
Test Repor 测试报告 - -
Size Measurement 计算工作量 - -
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 - -
合计 88 71