Project2——论文查重系统(PPCS)
发布时间 2023-09-19 15:37:32作者: Antonio_ice_room
github项目地址
作业要求
需求
|
|
语言 |
Java |
目标 |
对输入的两个文件进行查重 |
输出 |
命令行显示,并存入文件 |
要求 |
输出浮点型结果 |
算法流程
1.文本处理
使用空格分隔文本,并切换成小写
2.获取特征向量
并用分隔后得到的单词,组成词频向量
3.计算余弦相似度
用两个向量的点积除以二者的范数之积来计算余弦相似度
优缺点:
速度快,代码简单,但无法联系上下文,无法真正地对比语义信息。
PSP表格
|
PSP2.1 |
Personal Software Process Stages |
预估耗时(分钟) |
实际耗时(分钟 |
Planning |
计划 |
5 |
5 |
Estimate |
估计这个任务需要多少时间 |
3 |
1 |
Development |
开发 |
- |
- |
Analysis |
需求分析 (包括学习新技术) |
- |
- |
Design Spec |
生成设计文档 |
- |
- |
Design Review |
设计复审 |
- |
- |
Coding Standard |
代码规范 (为目前的开发制定合适的规范) |
- |
- |
Design |
具体设计 |
10 |
5 |
Coding |
具体编码 |
20 |
20 |
Code Review |
代码复审 |
- |
- |
Test |
测试(自我测试,修改代码,提交修改) |
20 |
15 |
Reporting |
报告 |
30 |
25 |
Test Repor |
测试报告 |
- |
- |
Size Measurement |
计算工作量 |
- |
- |
Postmortem & Process Improvement Plan |
事后总结, 并提出过程改进计划 |
- |
- |
|
合计 |
88 |
71 |