应bat365中国在线平台官方网站礼欣老师邀请,国家级青年人才、天津大学智能与计算学部郝建业老师于2024年11月5日与我院进行了学术交流,并作题为“大模型时代下的强化学习”的学术报告。
报告由bat365中国在线平台官方网站礼欣老师主持,bat365中国在线平台官方网站语言智能与社会计算研究所相关研究方向的部分师生参加了此次报告。
郝建业老师首先回顾了传统的强化学习范式,即在线强化学习和离线强化学习,并探讨了在当前大模型时代下,传统的强化学习范式仍扮演着重要角色,在决策领域演化出“离线预训练”和“在线微调”的新型范式。立足于上述两种强化学习范式,郝老师分别从智能体与环境交互构建马尔可夫决策过程(MDP)的角度出发,讨论了在线强化学习如何利用策略表征、世界模型、数据增强和高效的探索策略采样高质量样本数据;以及基于Transformer和扩散模型等主干网络使智能体通过离线强化学习获得泛化性更好的策略。同时展示了其团队最新设计的包含5种人类反馈类型和30多种仿真环境、用于提升离线强化学习效率的通用平台——Uni-RLHF。此外,郝建业老师还探讨了如何将离线和在线强化学习技术结合,应用于具身智能、自动驾驶和芯片设计等实际工业场景,并分享了其团队成果在现实环境下的多个应用,例如部署在会议室中用于物品布置的机器人、部署在智能驾驶车辆中用于变道决策的多智能体、以及部署在芯片设计中用于元器件布局的优化工程。最后,郝老师总结了本次报告的内容,并结合切身体会向大家传授了在科研路途上的一些经验,在引发全场强烈共鸣的同时给予了大家深远的启示。
报告中,多位老师和同学从理论推理、实验表征及应用场景等多个角度与郝老师展开互动,郝老师认真细致地回答了提出的问题,并进一步对相关方面进行了拓展与延伸。
通过本次学术报告,师生们对大模型时代下的强化学习技术有了更加深入的理解,同时,师生们也表示,期待郝老师在不久的将来再次开展报告,与我校师生分享研究成果与研究经验。
报告人简介:
郝建业,博士,国家级青年人才,华为诺亚决策推理实验室主任,天津大学智算学部副教授。主要研究方向为深度强化学习、多智能体系统。发表人工智能领域CCF-A类国际会议和期刊论文100余篇,专著2部。获得国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果荣获国际会议最佳论文奖3次,NeurIPS20-22大会竞赛冠军4次。相关成果在国产工业基础软件智能化、自动驾驶、游戏 AI、广告及推荐、5G优化、物流调度等领域落地应用。