工程概论第二次作业

发布时间 2023-09-20 22:34:58作者: cyznb

第二次作业

这个作业属于哪个课程 计算2111
这个作业要求在哪里 在这里
这个作业的目标 学习论文查重算法

PSP表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划
· Estimate · 估计这个任务需要多少时间 5 5
Development 开发 100 70
· Analysis · 需求分析 (包括学习新技术) 50 40
· Design Spec · 生成设计文档 50 80
· Design Review · 设计复审 40 40
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 70 80
· Design · 具体设计 10 10
· Coding · 具体编码 40 50
· Code Review · 代码复审 70 40
· Test · 测试(自我测试,修改代码,提交修改) 80 80
Reporting 报告 20 20
· Test Repor · 测试报告 50 50
· Size Measurement · 计算工作量 50 40
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 5 5
· 合计 1000 640 610

需求

题目:论文查重

描述如下:

设计一个论文查重算法,给出一个原文文件和一个在这份原文上经过了增删改的抄袭版论文的文件,在答案文件中输出其重复率。

原文示例:今天是星期天,天气晴,今天晚上我要去看电影。
抄袭版示例:今天是周天,天气晴朗,我晚上要去看电影。
要求输入输出采用文件输入输出,规范如下:

从命令行参数给出:论文原文的文件的绝对路径。
从命令行参数给出:抄袭版论文的文件的绝对路径。
从命令行参数给出:输出的答案文件的绝对路径。
我们提供一份样例,课堂上下发,上传到班级群,使用方法是:orig.txt是原文,其他orig_add.txt等均为抄袭版论文。

注意:答案文件中输出的答案为浮点型,精确到小数点后两位

github地址:https://github.com/cyznbnbnba/cyznbnbnba/tree/main


代码

List<String> keywordList = HanLP.extractKeyword(str, str.length());//取出所有关键词
//获取hash值
String keywordHash = getHash(keyword);
           if (keywordHash.length() < 128) {
               // hash值可能少于128位,在低位以0补齐
               int dif = 128 - keywordHash.length();
               for (int j = 0; j < dif; j++) {
                   keywordHash += "0";
               }
           }
//加权and合并
for (int j = 0; j < v.length; j++) {
             // 对keywordHash的每一位与'1'进行比较
             if (keywordHash.charAt(j) == '1') {
                 //权重分10级,由词频从高到低,取权重10~0
                 v[j] += (10 - (i / (size / 10)));
             } else {
                 v[j] -= (10 - (i / (size / 10)));
             }
         }
//遍历
String simHash = "";// 储存返回的simHash值
        for (int j = 0; j < v.length; j++) {
            // 从高位遍历到低位
            if (v[j] <= 0) {
                simHash += "0";
            } else {
                simHash += "1";
            }
        }
//比较
for (int i = 0; i < simHash1.length(); i++) {
                // 每一位进行比较
                if (simHash1.charAt(i) != simHash2.charAt(i)) {
                    distance++;
                }
            }
//测试
public class TxtIOUtilsTest {
    @Test
    public void readTxtTest() {
        // 路径存在,正常读取
        String str = TxtIOUtils.readTxt("D:/test/orig.txt");
        String[] strings = str.split(" ");
        for (String string : strings) {
            System.out.println(string);
        }
    }
    @Test
    public void writeTxtTest() {
        // 路径存在,正常写入
        double[] elem = {0.11, 0.22, 0.33, 0.44, 0.55};
        for (int i = 0; i < elem.length; i++) {
            TxtIOUtils.writeTxt(elem[i], "D:/test/ans.txt");
        }
    }
    @Test
    public void readTxtFailTest() {
        // 路径不存在,读取失败
        String str = TxtIOUtils.readTxt("D:/test/none.txt");
    }
    @Test
    public void writeTxtFailTest() {
        // 路径错误,写入失败
        double[] elem = {0.11, 0.22, 0.33, 0.44, 0.55};
        for (int i = 0; i < elem.length; i++) {
            TxtIOUtils.writeTxt(elem[i], "User:/test/ans.txt");
        }
    }
}

测试代码

 public class TxtIOUtilsTest {
    @Test
    public void readTxtTest() {
        // 路径存在,正常读取
        String str = TxtIOUtils.readTxt("D:/test/orig.txt");
        String[] strings = str.split(" ");
        for (String string : strings) {
            System.out.println(string);
        }
    }
    @Test
    public void writeTxtTest() {
        // 路径存在,正常写入
        double[] elem = {0.11, 0.22, 0.33, 0.44, 0.55};
        for (int i = 0; i < elem.length; i++) {
            TxtIOUtils.writeTxt(elem[i], "D:/test/ans.txt");
        }
    }
    @Test
    public void readTxtFailTest() {
        // 路径不存在,读取失败
        String str = TxtIOUtils.readTxt("D:/test/none.txt");
    }
    @Test
    public void writeTxtFailTest() {
        // 路径错误,写入失败
        double[] elem = {0.11, 0.22, 0.33, 0.44, 0.55};
        for (int i = 0; i < elem.length; i++) {
            TxtIOUtils.writeTxt(elem[i], "User:/test/ans.txt");
        }
    }
}
//异常
        try{
            if(str.length() < 200) throw new ShortStringException("文本过短!");
        }catch (ShortStringException e){
            e.printStackTrace();
            return null;
        }
public ShortStringException(String message) {
        super(message);
    }

分析:

比对进入的每一个字符,计算相同的字符所占所有字符的比例,保留几位小数,并作性能分析