人类反馈强化学习(RLHF)的背景、理论基础与算法
Speaker
张乔生,上海人工智能实验室青年研究员

Time
2025-05-29 10:00:00 ~ 2025-05-29 11:40:00
Location
东下院205
Host
李帅
Abstract
人类反馈强化学习(RLHF)是一种结合人类偏好与强化学习方法的技术,旨在将大模型的输出与人类价值观对齐。本报告将介绍RLHF的发展背景,阐述其理论基础,包括人类反馈建模、奖励模型训练与策略优化过程;并简要介绍相关的代表性算法。
Bio
张乔生,上海人工智能实验室青年研究员,上海创智学院全时导师,担任上海交通大学/复旦大学兼职博导。于香港中文大学获得学士和博士学位,曾在新加坡国立大学和佐治亚理工学院分别担任博士后研究员和访问学者。研究兴趣为信息论、强化学习、大模型推理等。获2024年中国信息论学会青年学者,入选国家级和上海市青年人才计划。