全球技术地图

全球

欧盟

英国

中国

美国

印度

以色列

日本

其他

美国谷歌公司提出基于AI反馈的强化学习技术

2023-09-07 美国来源：其他作者：刘纪铖领域：信息

关键词：

据品玩网9月6日消息，美国谷歌公司研究团队提出了基于AI反馈的强化学习（RLAIF）。RLAIF技术可以产生人类水平的性能，为解决基于人类反馈的强化学习（RLHF）的可扩展性限制提供了一种潜在的解决方案。实验表明，RLAIF用AI来代替RLHF中的人类，在训练后的人类评价中，人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别。甚至在一些细节上，RLAIF的表现还要优于RLHF。相关研究发表在预印本网站arXiv上。

消息来源：https://www.pingwest.com/a/287884