美国谷歌公司提出基于AI反馈的强化学习技术

2023-09-07  美国 来源:其他 作者:刘纪铖 领域:信息

关键词:

据品玩网9月6日消息,美国谷歌公司研究团队提出了基于AI反馈的强化学习(RLAIF)。RLAIF技术可以产生人类水平的性能,为解决基于人类反馈的强化学习(RLHF)的可扩展性限制提供了一种潜在的解决方案。实验表明,RLAIF用AI来代替RLHF中的人类,在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上,RLAIF的表现还要优于RLHF。相关研究发表在预印本网站arXiv上。

消息来源:https://www.pingwest.com/a/287884