论文查重软件计算文字重复的主要方法有两种:文本比对和文本相似性匹配。
在文本比对方面,查重软件会将待检测的论文文本划分为若干个片段,并与已有数据库中的文献逐个进行比较。常见的比对策略包括字符比对和字符串匹配算法。根据比对结果,软件会计算出每个片段的相似度,并据此计算整篇论文的重复率。
在文本相似性匹配方面,查重软件会将待检测的论文与已有数据库中的文献进行全文比对,从而找到与待检测论文相似的文献。这种方法常用的技术包括基于TF-IDF(词频-逆文档频率)的文本相似性算法和基于词向量的文本相似性算法。软件会根据匹配结果计算出论文的重复率。
另外,知网查重系统在计算重复率时,也有自己的计算规则。它会按照章节进行检测,每个章节都有对应的重复率。每个章节的重复率等于该章节重复字数除以该章节总字数。而总重复率则是所有章节重复字数的总和除以论文总字数。在知网的检测报告中,不仅可以看到总文字复制比,如果论文内容比较长,还可以看到每个单独章节的复制比。
以上就是论文查重软件计算文字重复的主要方法。