“翟天临”克星?哥本哈根大学开发反“枪手”AI,识别作业代写准确率接近90%

  • 时间:
  • 浏览:14
  • 来源:陌离博客 - 专注共享伍零博客分享

大数据文摘出品

编译:曹培信、周家乐

随着毕业季的邻近,翟天临又一次被日本女网民 们骂上了微博热搜。

翟的论文抄袭事件并且 ,或多或少高校都加强了论文评审标准,更有严格的院校连非毕业生的论文结课与非 查重。

或多或少午夜改论文的学生于是结伴来到微博@翟天临:你睡什么并且?你为社 睡得着?我还在改论文!你配睡觉吗!

图片来自微博

翟天临所大家将会也这么想到,竟然阴差阳错对中国高校教育做出了卓越的贡献。

然而,与非 差生表示,并且 查重这么严,抄袭是不将会了,能并能并能 找人代写了。

早有媒体曝光过学术圈“论文代写”的产业链。据第一财经报道,相关淘宝搜索的本科文科论文每千字200元左右。

不过,这条“学术歪路”也要被AI堵死了。近日,哥本哈根大学的研究人员的最新研究称,并且 开发出一款“反枪手代写”的AI系统。

这款系统意图通过智能写作分析技术,来检测论文作弊。能并能根据你的写作习惯,选泽论文究竟那个她 所大家写的作业还是由他人代写。

根据对13万份书面作业的分析,科学家们能并能以近90%的准确率检测出学生究竟是所大家写的作业,还是由代笔撰写。

基本都还可以并能达到“代写”作业一抓并且准的结果了。

高中代写成风,哥本哈根大学的神操作

这套针对学生论文作弊行为的研究,将会在哥本哈根大学计算机科学系(DIKU)进行了几年了,最初,这款研究是针对丹麦的高中生进行的。

在丹麦,高中目前主要使用的作业查重平台叫做Lectio,能并能用来检查学生的作业中与非 有段落是直接复制先前提交的作业的。

然而,随着各类线上服务平台的盛行,在丹麦高中生中,找人代写作业变得越发容易。

面对这种请况,学校总是严重不足有效的检测手段。

学习轨迹项目或“SRP”(丹麦语的“Studie Retnings Projekt”)是丹麦高中毕业生的必修跨学科课程,也是一项非常重要的书面作业。在这种项目中的作弊大难题尤其引人注目。

将会SRP对于毕业十分重要,什么都有有学生们在丹麦竞拍网站Den Bla Avis上发布大伙的写作任务来找人代写。

和中国的老师和大多数查重系统一样,Lectio能并能并能 查重,这么判断一份作业与非 找人代写的。

哥本哈根大学的或多或少院系总是和什么都有有高蕴含着SRP项目的相互相互合作,深受代写作弊行为之害,总是在探究处理之道。

这所大学的计算机科学系DABAI项目组决定教教哪此偷懒的高中生们“做人”。

DABAI(丹麦大数据分析驱动创新中心)是并且成立于2016年的丹麦国家研究中心。除了研究机器学习的高效算法,这种研究小组并且就对学生教育不为社 关注。并且 ,大伙曾研究了“优化学生的个性化学习”、“提高教师洞察力”等教育项目。

叫石“枪手”的反枪手神器

这种防作弊进程被叫做Ghostwriter(枪手),它本质上属于某种基于机器学习和神经网络技术的一款文本分析进程。

项目组成员Stephan Lorenzen博士称,这款进程能并能比较该学生最近提交和并且 提交的文章来识别写作风格的差异。

“进程会关注单词长度、语录社会形态以及单词的使用法律土妙招等诸多社会形态。类式,它会察觉‘for example’被写成了‘ex’,还是‘e.g.,’。”

其数据集来自为丹麦高中提供Lectio平台的MaCom公司,该公司覆盖了丹麦90%以上的高中,大伙为GhostWriter项目的研究人员提供了13万份不同高中学生书面作业。

这种研究组认为,这款产品非常具有实际效用,什么都有有学校对于找出“论文究竟是谁写的”这种大难题有着这么高的技术需求。

但Stephan Lorenzen博士也认为,“在此并且 ,还并能 认真讨论一下应用这项技术所面临的伦理大难题。大伙能并能 把这种进程得到的结论作为判别与非 作弊的唯一标准,更应该把它看作一份辅助性的证据。”

Ghostwriter是为社 工作的?

Ghostwriter进程使用Siamese 神经网络来区分不同文本的写作风格:通过一定量数据的训练,学习不同写作风格的外在表现(representation),怎样让进行比对。

这种项目分两步来处理作者身份验证大难题。首先是处理了计算并且文本之间写作风格类式性的大难题,主要通过使用Siamese网络学习类式度函数s:T×T→[0,1]。其次是再处理作者A的验证大难题,通过比对未知作者文本X和已知是作者A的文本T之间的类式性。

在网络方面,大伙考虑使用不同的输入通道考虑几种不同的体系社会形态(类式,char,word,POS-tags),最终选泽了某种表现最佳的网络架构:

Best performing network

编码次责包括并且字符嵌入(Embd),怎样让是并且不会的卷积层,每个卷积层上边与非 并且全局最大池化层(GMP)。

在比较次责,大伙首先计算合并层中的编码之间的绝对差值,怎样让,应用并且密集层,每层有2000个神经元,最后使用具有并且输出的softmax层来进行归一化。

大伙将数据集分为三份,T-train用于训练,T-val用于训练提前停止和selecting Cs,T-test仅用于估测试模型。

经过训练,模型的准确率达到了87.5%。

最后实现的功能并且,当学生提交作业时,该网络会将其与并且 的作业进行比较。对于每个作业,神经网络与非 计算出并且百分数,用于表示新旧作业的类式性。怎样让,通过综合考虑新旧作业类式性、交作业时间等多种因素计算出并且加权平均值。这种最终值就能并能用来表示新作业和学生写作风格之间的类式性。

这种研究将会被发表在一篇名为《识别高中代写“枪手”》的论文中。

论文链接:

https://www.science.ku.dk/presse/nyhedsarkiv/2019/fristet-til-at-snyde-med-eksamensopgaven-kunstig-intelligens-opdager-dig-med-90-procent-sikkerhed/Detecting_Ghostwriters_in_High_Schools.pdf

除了论文,还能与警方相互相互合作筛查伪造文本

除了代写作业,Ghostwriter的技术并能并能应用于社会的或多或少地方。

类式,该进程可辅助警方的文档审查员执行各类文件的真伪分析任务,比如一份商业合同与非 伪造的;将会并且离奇的自杀案中,死者留下了一封遗书,这封遗书与非 死者所大家写的等等。

“与警方相互相互合作将是一件有趣的事情。警方现有的法律土妙招是聘用文件审查员来定性的比较文本之间的类式性和差异。而大伙的法律土妙招则适用于大数据并自动找到其中潜藏的模式。我认为结合两者将助于警察开展工作。”Lorenzen说,他强调这里也同样并能 讨论其面临的伦理大难题。

这项利用人工智能来检测作业中作弊行为的技术,具有广泛的应用前景。

目前,它还被用来分析Twitter文本,以选泽文本内容是由真实用户撰写的,还是由水军或机器人编写的。也并且说,淘宝店铺雇佣水军好评,很有将会并能被识别出来。

相关报道:

https://www.sciencedaily.com/releases/2019/05/1905291420048.htm

本文由

大数据文摘

发布在

ITPUB

,转载此文请保持文章完整版性,并请附上文章来源(ITPUB)及本页链接。

原文链接:http://www.itpub.net/2019/06/06/2095/