ChatGPT,很火!ChatGPT/生成语言模型为数字通信带来了实质性的进步,同时也引起了人们对人工智能生成内容可能被滥用的担忧。因此,人类开发出许多AI/GPT检测器来区分人工智能和人类生成的内容,但这些检测器的性能未得到充分探索。
近期有研究表明:常用的AI/GPT检测器对非英语母语作者表现出偏见!
a: 纵坐标:7款AI检测器;横坐标是AI的误判率
样本是: 91 human-authored TOEFL essays(非母语作者,来自中国)和88 US 8-th grade essays(母语作者,美国八年级学生写的)
结果显示:
7个检测器中,母语作者的作文被误判的概率最高才12%,还有两个0误判的GPT。但是,非母语作者的论文误判率基本全部过半,平均值为61.22%,最高误判概率可达76%。
b: 一致被错误分类为人工智能生成的论文比其他论文的复杂度低,这表明GPT检测器可能会惩罚语言表达有限的作者
c: 使用ChatGPT s (Prompt: “Enhance the word choices to sound more like that of a native speaker.”)改进托福作文后,发现误判率降低。相反,应用ChatGPT来简化美国八年级作文中的单词选择(Prompt: “Simplify word choices as of written by a non-native speaker.”),发现会显著增加人工智能生成文本的错误分类。
d:简化后,文本复杂度降低。
……其他数据也间接证实:
非母语者写的东西不地道,复杂度低,容易被错判。这也在提示学术科研界 OR 学术期刊出版商,应谨慎对待非母语作者的学术论文,需考核ChatGPT内容检测器的性能。
改写自:新智元和文章本身