文本相似?图片重复?AI生成?万方文察:论文一站式综合检测工具
科研诚信是科技创新的基石,是科研工作者开展科学工作所需具备的最基本道德基础,也是管理工作人员和政府监管部门必须遵守的行为准则。
五花八门的科研不端案例屡被曝光
近年来,随着学术出版机构、科研管理机构等相关部门进一步加大了科研诚信的查处力度,各种科研不端案例不断被曝光:在2021年教育部高校硕博士学位论文的回溯抽检工作中发现,有4.74%的论文相似比超过30%;2022年,国家自然科学基金委先后通报四批查处的学术不端行为案件处理结果;2023年3月,广东省科技厅公示了已终止的283个涉及严重科研失信的项目。科研不端行为的蔓延趋势引起了科技界和社会的广泛关注,成为社会焦点问题之一。仅从论文撤稿角度而言,当前学术不端行为的乱象也可见一斑:基于万方数据科研诚信监测大数据的统计,近5年来论文撤稿持续高位增长,年均撤稿超4800余篇。截至2023年10月,过去15年中全球范围内撤稿论文57000余篇,其中涉及学术不端的撤稿占62.62%,国人撤稿比例占“半壁江山”,高达45.7%。其中又以抄袭剽窃、图片重复、虚假同行评议、伪造或篡改等不端行为比较突出,占整体比例约为90%。
数据来源:万方数据科研诚信监测大数据,2023年10月
数据来源:万方数据科研诚信监测大数据,2023年10月
数据来源:万方数据科研诚信监测大数据,2023年10月
学术论文中的图像造假问题尤为突出
图像造假(包括不当图片重复使用)是科技期刊论文造假的重灾区。根据相关研究推测,PMC上现有收录的科技期刊文献中1.5%的论文包含可疑图像,0.6%的论文存在图像造假情况。早在2020年初,中国生物医药领域近600篇发表在知名期刊上的论文被追溯到由论文工厂产出,这些论文中各种显微照片、流式细胞仪图及个别蛋白质印迹图均由代笔者从图形库中截取拼凑。针对图像造假问题,国际上的科技出版发行机构最先作出反应,明确图像篡改以及复用属于不端行为,并成立相关工作组,如:2020年,Elsevier, Wiley, SN和T&F出版巨头合作成立“跨出版商工作组”,为查核论文图像软件制定标准。此外还有以Pubpeer为代表的发表后论文同行评议论坛、专注于学术打假的Bik团队等。在国内,为加大对论文造假的查处力度,科技部建立了主动发现机制,开发了智能工具,对近年发表的学术论文开展监测分析,及时发现论文中的学术不端问题线索,特别是论文图像问题,并交相关主管部门和单位依规调查处理。
AIGC的应用对科研领域带来新型挑战
2023年初,AI技术的崛起及AIGC的应用在学术科研界引发了一系列涉及原创性、学术诚信、伦理法律问题等方面的争议和讨论。截至2023年9月1日,Retraction Watch已收录1010篇因“随机生成的内容”原因被撤稿的论文,其中,仅2023年7月即有23篇相关撤稿记录。
针对AIGC在学术过程中被滥用的现状,国内外出版机构与学术共同体纷纷采取措施应对。2023年9月20日,中国科学技术信息研究所与爱思唯尔(Elsevier)、施普林格·自然(Springer Nature)、约翰威立国际出版集团(Wiley)三家国际出版集团共同完成的《学术出版中AIGC使用边界指南》正式发布。此前,国家互联网信息办公室、国家发展和改革委员会、教育部、科学技术部等也已联合发布《生成式人工智能服务管理暂行办法》。今年8月提交审议的学位法草案对AI代写论文同样提出了规制。
文本查重服务存在一定的局限性
在过去的十余年中,科技信息服务领域构建了以科技论文文本内容为检测对象的文字相似性检测工具,用以支撑投稿、学位论文提交等环节的查处工作。但随着学术论文不端问题的日益复杂与隐蔽,诚信风险早已不仅仅只是文本上的抄袭,在期刊论文发表阶段的一稿多发、虚假同行评议乃至论文工厂,作者不当署名,失信惩戒,基金资助的虚假标注,图像的重复使用,篡改造假,参考文献虚假标注或引用问题论文等都需要认真甄别、仔细核对,避免可能存在较大的失信风险。
万方文察论文科研诚信风险综合筛查服务新时期,围绕着科研失信行为的各类表现,构建多样化、立体化的软件工具支撑查处尤为重要。在此背景下,面向论文学术不端治理需求,万方数据公司基于文本相似性检测、图像检测等核心技术及科研诚信大数据资源基础,研发推出了科技论文科研诚信风险综合筛查服务——万方文察,通过一站式综合服务,实现对论文文本相似性、图像复用、AIGC风险、引文及作者等多要素的一次提交,多维检测,帮助教育、科研、出版、管理等诚信监管机构及早发现风险线索并采取相应的措施。
A 高效、准确、专业的文本、图像检测技术万方数据自主研发的“句子级正交基软聚类倒排”专利检测算法,支持高准确性、高效率的文本检测;AIGC文本识别深度学习模型,则利用神经网络的强大表达能力,判断人机生成文本之间的差异,可识别目前较为通用的AI写作模型;基于图像特征点的检测匹配算法,针对论文内的条带图、造影图、染色图等多类型图片进行复用情况检测,并将图像之间的相同区域通过连线的方式输出匹配结果;科研诚信风险大数据监测与核查技术,通过大数据深度分析和挖掘,实现对科研实体风险监测预警与核查鉴证服务。B 业界领先的大数据资源底座一方面依托公司收录的授权期刊论文、学位论文、会议论文、报纸、专利、标准等资源建设体系,构建形成了权威的比对资源库;另一方面,围绕着论文图像、科学数据、风险信息等,构建学术论文图像比对库、科学数据库、科研诚信风险大数据资源池,形成了种类齐全、信息完备、支撑有力的数据资源底座。C 便捷的操作使用流程万方文察操作简单,用户只需填写基础信息后,将论文提交至系统中即可, 系统会自动对论文各项数据进行分析和比对,察验风险问题,并提供详实的察验报告。
D 综合性展示察验结果以指标形式展示论文文本相似比、AI生成文本比、图片复用情况、作者风险情况、基金风险情况、参考文献风险情况等多维度结果指标,以及论文本身撤稿、学术质疑等情况。
万方文察综合性察验报告万方文察服务入口:https://cx.wanfangdata.com.cn/verification
CNRIS
万方数据科研诚信服务:
科研诚信服务平台 · 科研失信风险监测预警 · 万方文察 · 万方检测 · 科研诚信学习系统 · 科研诚信培训系统
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。