2023-09-07 美国 来源:其他 作者:刘纪铖 领域:信息
关键词:
据品玩网9月6日消息,美国谷歌公司研究团队提出了基于AI反馈的强化学习(RLAIF)。RLAIF技术可以产生人类水平的性能,为解决基于人类反馈的强化学习(RLHF)的可扩展性限制提供了一种潜在的解决方案。实验表明,RLAIF用AI来代替RLHF中的人类,在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上,RLAIF的表现还要优于RLHF。相关研究发表在预印本网站arXiv上。