一句话总结:比的不是意思,是字符和片段的相似度。
三层机制:
第一层,连续字符匹配。连续13个字左右一模一样,就判定重复。比如"随着我国经济的快速发展",连续命中就算。
第二层,指纹比对。把句子打成数字指纹(哈希值),哪怕你改了几个字,整体结构没变,指纹接近,照样命中。
第三层,语义比对,这是AI查重的能力。你把"经济快速发展"改成"经济增长迅猛",意思一样用词不同,传统系统查不出来,但AI能识别。
所以:
知网、维普、万方这些传统系统,主要靠第一层和第二层。
AIGC检测这类新系统,靠第三层。
重复率怎么算?
重复率 = 重复字符数 / 总字符数 × 100%
一般标准:
本科不超过30%
硕士不超过15%到20%
博士不超过10%
核心结论:你以为改了词就不重复了,但只要连续字符够长、或者句子结构指纹没变,照样被抓。真正安全的做法是用自己的话重新组织逻辑,而不是换同义词。



