本期为TechBeat人工智能社区第747期线上Talk。
北京时间2月26日(周四) 20:00,香港中文大学(深圳)博士生李子牛的Talk将准时在TechBeat人工智能社区开播!
他与大家分享的主题是:针对大语言模型的强化学习,如何考虑探索与利用?介时他将从初始化、利用与探索三个核心问题出发,系统介绍三项工作:GEM 通过保持输出多样性实现高效冷启动;ReMax 基于文本生成的确定性结构实现高效、稳定且简洁的策略优化;Knapsack RL 通过自适应算力分配机制提升数据效率与模型性能。
Talk·信息
▼
主题:针对大语言模型的强化学习,如何考虑探索与利用?
嘉宾:香港中文大学(深圳) · 博士生 - 李子牛
时间:北京时间 2月26日(周四) 20:00
地点:TechBeat人工智能社区
http://www.techbeat.net/

Talk·介绍▼
强化学习是实现大模型对齐的关键技术,但其在实际应用中面临着计算成本高昂和训练过程不稳定等挑战。本报告将从初始化、利用与探索三个核心问题出发,系统介绍三项工作:GEM 通过保持输出多样性实现高效的冷启动训练;ReMax 利用文本生成的确定性结构,消除价值网络,实现高效、稳定、简洁的策略优化;Knapsack RL 通过自适应算力分配机制,提升数据收集效率和模型性能。
Talk大纲
1. 背景介绍
2. GEM:考虑多样性的监督微调
3. ReMax:没有值网络的强化学习算法
4. Knapsack RL:自适应的探索算力分配框架
Talk·预习资料
▼

论文链接:
https://arxiv.org/abs/2310.10505

论文链接:
https://arxiv.org/abs/2408.16673

论文链接:
https://arxiv.org/abs/2509.25849
Talk·提问交流
▼
在Talk界面下的 【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍
▼

李子牛
香港中文大学(深圳) · 博士生
李子牛是香港中文大学(深圳)的博士,师从罗智泉教授。他的研究方向包括强化学习算法的设计与理论,及其在大模型后训练中的应用。他在ICML、NeurIPS、ICLR等顶级会议以及TPAMI、TSP、JASA等权威期刊发表论文十余篇。其中,他的成果率先将REINFORCE系列算法在"LLM+RL"领域进行大规模应用探索,相关研究曾获得NeurIPS FITML Workshop Best Paper Runner-up、NeurIPS Spotlight、UAI Oral等荣誉。此外,他曾在腾讯AI实验室和字节跳动Seed团队从事工业界研究实习。
个人主页:
https://www.techbeat.net/grzytrkj?id=18378
长按识别二维码,一键预约TALK!
-The End-

如果你也想成为讲者
▼
自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流
多种方式任你选择!
推荐讲者成功也有奖励哦~
关于TechBeat人工智能社区
▼TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。
我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。
期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!
更多详细介绍>>
更新时间:2026-02-26
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight All Rights Reserved.
Powered By 61893.com 闽ICP备11008920号
闽公网安备35020302034844号