同一篇论文两次查重结果相差20%,主要与查重系统算法差异、数据库动态更新、论文修改情况、格式识别问题、系统运行环境及自建库差异六大因素有关,具体分析如下:
查重系统算法差异:不同查重系统采用的算法不同,对相似度的判定标准和计算方法存在差异。例如,知网可能以连续13个字重复为判定标准,而其他系统可能设定更低的阈值或更复杂的算法模型。这种算法差异会导致同一篇论文在不同系统中的检测结果出现显著波动。
数据库动态更新:查重系统的数据库会随着时间不断增加和变化,收录新的文献和资料。若两次查重的时间间隔较长,数据库内容可能已发生显著更新,导致检测结果出现差异。例如,第一次查重时数据库中未收录某篇文献,而第二次查重时该文献已被纳入,从而影响重复率计算。
论文修改情况:在两次查重之间,若对论文进行了修改,尤其是涉及内容增删或结构调整,会导致检测结果发生变化。查重系统会根据数据库中的内容进行匹配,修改后的内容若与数据库中的内容不匹配,重复率会相应降低;反之,若修改后新增的内容与数据库中的内容相似,重复率可能上升。
格式识别问题:部分查重系统对特殊格式如图表、公式、代码、引用格式的识别不够准确,可能将不应计入重复的部分错误计算进去。例如,若第一次查重时论文格式规范,系统能正确识别引用部分;而第二次查重时格式出现错误,导致引用部分被误判为重复,从而推高重复率。
系统运行环境:查重系统的服务器稳定性或故障可能影响检测过程,导致结果出现偏差。例如,系统服务器过载或网络延迟可能导致检测速度过慢,进而影响结果准确性。此外,检测速度本身也会影响结果反馈的及时性,若速度过慢,用户可能无法及时了解论文情况。
自建库差异:部分查重系统支持自建库功能,允许用户上传特定文献进行比对。若某一系统中加入了特定的自建库,而另一个系统没有,则两个系统查出来的结果会有出入。例如,学校可能使用自建库包含内部资料或往届论文,若学生抄袭的内容在知网大数据库中不存在,但在自建库中存在,则两次查重结果会显著不同。



