当前正值毕业季,高校正面临一个新挑战:毕业论文中“AI 味”过浓的问题。今年,除了传统的查重、盲审和答辩,毕业生们在撰写论文时还需面对一项新的审核环节——AIGC(人工智能生成内容)检测。
据报道,一名毕业生发现其论文的 AI 生成内容比例为 62%,远超学校设定的 15% 的上限。然而,在寻求 AI 模型帮助修改论文后,再次检测发现 AI 率竟飙升至 94%。这种情况并非孤例,近期已有不少毕业生遇到了类似的问题。
央视新闻近日介绍了检测论文“AI 率”的技术原理。首都师范大学教育学院副院长蔡海龙解释说,传统的查重是通过比对论文语句与语料库中的现有文本来判断重复性,是一种确定性的判断。而 AI 检测则是利用 AI 系统来分析人类文本,识别其在语义和表达风格上是否与 AI 写作存在重叠。这本质上是一种基于概率的分类,而非基于证据的确定性判断。
当前 AI 检测技术面临的核心瓶颈在于“用 AI 来检测 AI”,这使得区分文本究竟是人类作者还是 AI 生成变得困难,无法提供明确的解释,这是技术上最关键的难题。
此外,中文语言表达本身具有的丰富语义和多样的表达方式,也给人工智能系统在检测人类作者所写语句时带来了诸多歧义,增加了检测的难度和降低了准确率,这是导致误判的重要原因之一。
鉴于目前 AI 率检测的精准度仍有待提高,有老师建议,在论文审核方面,应建立透明且可追溯的 AI 使用标注制度,而非简单地设定一个 AI 率的“红线”。在判定机制上,应推行以人工评审为主、AI 检测为辅的“人机共判”模式。
尽管学校为学生论文设置了“AI 率”检测的上限,但不少学生反映,学校的检测过程依赖于指定的检测平台和算法模型分析。
目前,多数高校普遍采用知网、维普、万方等系统的 AIGC 检测模块。央视记者就“AI 大模型如何检测文章的 AI 生成内容”向多个大模型提问,总结其回答,大致是通过“困惑度与突发性”等特征进行判断。通常认为,AI 生成的文本更为“平滑”,而人类文本的波动性则更大。
大模型解释说,困惑度是指文本的“可预测性”,越是包含人类特有的、出乎意料的、打破常规的表达,越倾向于被认为是人类所写。突发性则关乎文本的节奏波动——人类写作的节奏起伏如同心电图,而 AI 的输出则相对平稳,如同直线。那么,这种判断方法是否准确呢?
专家对此表示,除了困惑度、突发性等指标外,AI 文本生成的基本原理是通过预测下一个最有可能出现的词语的概率来逐步构建文本,这本质上是一种概率统计。因此,目前检测 AI 生成内容的准确性无法达到 100%,误判的情况也时有发生。