个人项目(工程概论第一次作业)-526互联

这个作业属于哪个课程	工程概论
这个作业要求在哪里	个人项目
这个作业的目的	学会项目的构建，对GitHub使用进一步掌握

需求

题目：论文查重
描述如下：
设计一个论文查重算法，给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件，在答案文件中输出其重复率。

原文示例：今天是星期天，天气晴，今天晚上我要去看电影。
抄袭版示例：今天是周天，天气晴朗，我晚上要去看电影。
要求输入输出采用文件输入输出，规范如下：

从命令行参数给出：论文原文的文件的绝对路径。
从命令行参数给出：抄袭版论文的文件的绝对路径。
从命令行参数给出：输出的答案文件的绝对路径。
我们提供一份样例，课堂上下发，上传到班级群，使用方法是：orig.txt是原文，其他orig_add.txt等均为抄袭版论文。

注意：答案文件中输出的答案为浮点型，精确到小数点后两位

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	30	30
Estimate	估计这个任务需要多少时间	400	360
Development	开发	260	240
Analyse	需求分析	30	30
Design Spec	生成设计文档	15	15
Design Review	设计复审	15	15
Coding Standard	代码规范	10	10
Design	具体设计	20	20
Coding	具体编码	20	20
Coding Review	代码复审	30	30
Test	测试	40	40
Reporting	报告	60	60
Test Report	测试报告	20	20
Size Measurement	计算工作量	20	20
Postmortem & Process Improvement Plan	事后总结	30	30
	合计	1000	940

余弦相似度算法：针对字符长度而非个体差异的一种算法，算法存在一定瑕疵。将字符转化成向量坐标的方式，对两者的余弦值进行计算。

其中IDE中得到的0.82和Windows命令行中得到的0.69是来自同一个文本，但结果却有很大差距。

对于文件路径是否正确进行处理，如果文件路径输入错误即抛出异常。

IDE运行和Windows命令行运行同一组文本得到的数据有出入，这是因为二者编码不同。我使用的IDEA默认编码为utf-8，而Windows命令行为GBK，汉字所占字符量是不同的，这是差异的主要来源。而尝试将命令行编码更改为utf-8再进行程序运行，反而会引发异常，这需要从头将IO流改写。
是否分词对于同一个算法也会引起结果差异。对于余弦相似度算法，主要对于字符串长度而非个体差异。如果不分词，只记录单个字符出现次数进行计算得到的结果，其可靠信不如进一步预处理的分词后计算结果，即差异来源是词与字符之间。

代码中使用了readTextFile和writeOutputFile方法来读写文件，这也是一个比较耗时的操作，尤其是当处理的文件较大或较多时。可以考虑使用BufferedInputStream和BufferedOutputStream来包装FileInputStream和FileOutputStream，提高读写效率。
代码中使用了多个if-else语句，这可能会影响性能，因为JVM需要比较多个条件。您可以考虑使用switch语句来替换多个if-else，如果可能的话。switch语句在性能上有优势，因为它只需要计算一次表达式的值，然后根据匹配的case执行相应的代码块。