欢迎访问官品查
百度360必应搜狗淘宝本站头条
当前位置:网站首页 > 随笔杂谈 > 正文

论文投Nature先问问GPT-4!斯坦福实测5000篇

admin 2023-10-08 202 浏览 0 评论

GPT-4有能力做论文评审吗?

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章,让它生成评审意见(包括修改建议啥的),然后与人类给的意见进行比较。

结果发现:

GPT-4提出的超50%观点与至少一名人类评审员一致;

以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

那么,这项研究究竟能给我们带来何种启示?

结论是:

高质量的人类反馈仍然不可替代;但GPT-4可以帮助作者在正式同行评审前改进初稿。

斯坦福论文网__斯坦福大学论文

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力,研究人员首先用GPT-4创建了一个自动pipeline。

它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。

然后让GPT-4提供评审意见。

其中,意见和各顶会的标准一样,共包含四个部分:

研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

_斯坦福大学论文_斯坦福论文网

具体实验从两方面展开。

首先是定量实验:

读已有论文,生成反馈,然后与真实人类观点系统地比较出重叠部分。

在此,团队从Nature正刊和各大子刊挑选了3096篇文章,从ICLR机器学习会议(包含去年和今年)挑选了1709篇,共计4805篇。

其中,Nature论文共涉及8745条人类评审意见;ICLR会议涉及6506条。

斯坦福大学论文__斯坦福论文网

GPT-4给出意见之后,pipeline就在match环节分别提取人类和GPT-4的论点,然后进行语义文本匹配,找到重叠的论点,以此来衡量GPT-4意见的有效性和可靠度。

结果是:

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。

斯坦福论文网__斯坦福大学论文

再进一步仔细比较GPT-4与每一位评审员的意见之后,团队又发现:

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%,在ICLR上降为39.23%。

但这与两位人类审稿人之间的重叠率相当:

人类在Nature论文上的平均重叠率为28.58%;在ICLR上为35.25%。

斯坦福大学论文__斯坦福论文网

此外,他们还通过分析论文的等级水平(oral、spotlight、或是直接被拒绝的)发现:

对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高,可以从上面的30%多升到近50%。

这说明,GPT-4对水平较差的论文的鉴别能力很高。

作者也因此表示,那些需要更实质性修改才能被接收的论文有福了,大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

相关推荐

复旦教授:不要听信躺平的鬼话,不要拒斥社会提出的道德要求
复旦教授:不要听信躺平的鬼话,不要拒斥社会提出的道德要求

复旦大学哲学学院教授杨泽波不要听信躺平的鬼话,不要拒斥社会提出的道德要求,不要轻忽自己以及他人的生命。各位老师,各位同学,大家下午好:现在在毕业典礼上讲...

6个月前 (07-06) admin

国家杰青被撤稿23篇文章,主要原因图片重复使用等
国家杰青被撤稿23篇文章,主要原因图片重复使用等

潜在的有毒金属和染料通常共存于工业废水中,对公众健康和环境构成严重威胁,并使处理更具挑战性。2015年12月23日,华北电力大学/中国科学院等离子体物理研究所...

6个月前 (07-05) admin

变天了!硕士学历停止发放生活及租房补贴
变天了!硕士学历停止发放生活及租房补贴

一直以来,高学历人才的福利都羡煞旁人,很多城市为了抢人才,都制定了各种各样的人才补贴,但是悄然之间,却有很多省市取消了很多福利,我们一起来看看!PART.1...

6个月前 (07-05) admin

985官宣:行政人员,末位淘汰!
985官宣:行政人员,末位淘汰!

行政人员也开始“末位淘汰”了!据某西部985高校管理学院网站消息,学院领导在今年春季学期行政人员大会上提到,将面向行政人员实行末位淘汰制。每当谈及当前在高校实...

6个月前 (07-05) admin

取消回复欢迎 发表评论: