□孔德淇
又到一年毕业季,一则关于大学生论文AI率“亮红灯”的帖子引发热议。有网友反映,毕业论文中原创内容经一些系统检测后,被指AI率过高。有人将朱自清《荷塘月色》与刘慈欣《流浪地球》的片段上传至某论文检测系统,结果显示,AI生成疑似度竟分别达62.88%和52.88%。更有甚者,《滕王阁序》竟被检测出100%的AI率。连经典文学作品都过不了关,让大学生不禁忧心:自己的论文是否也会沦为AI检测误判的“牺牲品”?
AI检测技术是辅助人们判别内容是否由AI生成的有效工具。在生成式AI井喷发展、学术创作“AI味”渐浓的当下,借助技术手段辨识“机器代写”“数据伪造”等学术不端行为,更是教育与科研领域适应技术变革、守护学术殿堂纯净的必要之举。如今却出现如此啼笑皆非的判断,着实让人难以信服。
其实,只要对AI检测技术稍加了解,就不难发现此类问题背后的症结。当前的AI内容检测主要通过机器学习和自然语言处理技术,对文本、图像、音频等内容进行分析,以判断其是否包含特定的信息或模式,但这种检测方式存在明显的局限性。一方面,语言本就是千变万化的,相同的意思可以用多种表达方式来呈现,比如同样是写春天,有人喜欢引用“红杏枝头春意闹”,有人偏爱“春风又绿江南岸”,AI检测系统很难精准地判断出每一句话的创作源头,误判自然频频发生;另一方面,随着AI技术的不断发展,生成式AI所产出的内容越来越接近人类的表达方式,这就使得检测系统更难区分内容到底是出自人类之手,还是AI生成。
此外,若训练数据本身存在偏差,或是数据量不够多、不够全面,那么AI检测系统也容易出现误判。在实际应用中,许多检测系统为了追求速度和效率,往往简化了检测流程,这在一定程度上降低了结果的准确性。当AI检测系统频繁出现误判时,其权威性便会大打折扣。长此以往,不仅会误导公众对原创内容的判断,还可能打击创作者的积极性,让原创者寒心。
在技术尚未成熟的当下,论文不能盲目依赖AI检测。面对频繁误判的现状,当务之急是提升其检测技术的准确性与公信力。相关部门和机构需尽快强化对AI检测技术的规范与监管,一方面健全完善检测标准,构建涵盖技术原理、数据应用、结果评估等全流程的标准化体系,让检测有章可循;另一方面强化数据治理,通过纳入多元原创语料、运用先进技术校准数据偏差等方式,提升检测模型对语言多样性和领域特性的适配能力。
与此同时,为确保检测结果的客观性,还应建立常态化的技术审计机制,由第三方机构对检测系统的算法透明度、检测准确性等核心指标进行定期审查,确保检测结果科学可靠。只有让AI检测技术在科学、规范的轨道上运行,才能真正发挥其应有的作用。