当前位置：网站首页 > 随笔杂谈 > 正文

论文投Nature先问问GPT-4！斯坦福实测5000篇

admin 2023-10-08 10:10 491 浏览 0 评论

GPT-4有能力做论文评审吗？

来自斯坦福等大学的研究人员还真测试了一把。

他们丢给GPT-4数千篇来自Nature、ICLR等顶会的文章，让它生成评审意见（包括修改建议啥的），然后与人类给的意见进行比较。

结果发现：

GPT-4提出的超50%观点与至少一名人类评审员一致；

以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

那么，这项研究究竟能给我们带来何种启示？

结论是：

高质量的人类反馈仍然不可替代；但GPT-4可以帮助作者在正式同行评审前改进初稿。

斯坦福论文网__斯坦福大学论文

具体来看。

实测GPT-4论文评审水平

为了证明GPT-4的潜力，研究人员首先用GPT-4创建了一个自动pipeline。

它可以解析一整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容来构建提示语。

然后让GPT-4提供评审意见。

其中，意见和各顶会的标准一样，共包含四个部分：

研究的重要性和新颖性、可以被接受的潜在原因或被拒绝的理由以及改进建议。

_斯坦福大学论文_斯坦福论文网

具体实验从两方面展开。

首先是定量实验：

读已有论文，生成反馈，然后与真实人类观点系统地比较出重叠部分。

在此，团队从Nature正刊和各大子刊挑选了3096篇文章，从ICLR机器学习会议（包含去年和今年）挑选了1709篇，共计4805篇。

其中，Nature论文共涉及8745条人类评审意见；ICLR会议涉及6506条。

斯坦福大学论文__斯坦福论文网

GPT-4给出意见之后，pipeline就在match环节分别提取人类和GPT-4的论点，然后进行语义文本匹配，找到重叠的论点，以此来衡量GPT-4意见的有效性和可靠度。

结果是：

1、GPT-4意见与人类评审员真实意见显著重叠

整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。

斯坦福论文网__斯坦福大学论文

再进一步仔细比较GPT-4与每一位评审员的意见之后，团队又发现：

GPT-4在Nature论文上和人类评审员的重叠率下降为30.85%，在ICLR上降为39.23%。

但这与两位人类审稿人之间的重叠率相当：

人类在Nature论文上的平均重叠率为28.58%；在ICLR上为35.25%。

斯坦福大学论文__斯坦福论文网

此外，他们还通过分析论文的等级水平（oral、spotlight、或是直接被拒绝的）发现：

对于水平较弱的论文来说，GPT-4和人类审稿人之间的重叠率更高，可以从上面的30%多升到近50%。

这说明，GPT-4对水平较差的论文的鉴别能力很高。

作者也因此表示，那些需要更实质性修改才能被接收的论文有福了，大伙儿可以在正式提交前多试试GPT-4给出的修改意见。

论文投Nature先问问GPT-4！斯坦福实测5000篇

相关推荐

取消回复欢迎你发表评论:

秒提短剧app赚钱是真的吗?分享1天靠谱体验！

金玉满门赚钱游戏是真的吗？金玉满门赚钱能提现吗？

真香大饭店赚钱是真的吗?300元能提现吗？

钱途满满赚钱游戏是真的吗?打款能提现吗？

《笼中局》与妖同局赌阳寿~

2025京东双十一红包活动攻略奉上~

超级外链SEO工具源码PHP，两款手机自适应源码下载

郭宇欣啊！要不你就别再演短剧了

圆球大作战游戏赚钱是真的吗？圆球大作战游戏能提现吗？

北京地铁上，又有这样的让乘客扫码支持她们的人了！

论文投Nature先问问GPT-4！斯坦福实测5000篇

相关推荐

取消回复欢迎 你 发表评论:

秒提短剧app赚钱是真的吗?分享1天靠谱体验！

金玉满门赚钱游戏是真的吗？金玉满门赚钱能提现吗？

真香大饭店赚钱是真的吗?300元能提现吗？

钱途满满赚钱游戏是真的吗?打款能提现吗？

《笼中局》与妖同局赌阳寿~

2025京东双十一红包活动攻略奉上~

超级外链SEO工具源码PHP，两款手机自适应源码下载

郭宇欣啊！要不你就别再演短剧了

圆球大作战游戏赚钱是真的吗？圆球大作战游戏能提现吗？

北京地铁上，又有这样的让乘客扫码支持她们的人了！

取消回复欢迎你发表评论: