Talk预告 | 港中文(深圳)李子牛：针对大语言模型的强化学习，如何考虑探索与利用？

本期为TechBeat人工智能社区第747期线上Talk。

北京时间2月26日(周四) 20:00，香港中文大学(深圳)博士生李子牛的Talk将准时在TechBeat人工智能社区开播！

他与大家分享的主题是：针对大语言模型的强化学习，如何考虑探索与利用？介时他将从初始化、利用与探索三个核心问题出发，系统介绍三项工作：GEM 通过保持输出多样性实现高效冷启动；ReMax 基于文本生成的确定性结构实现高效、稳定且简洁的策略优化；Knapsack RL 通过自适应算力分配机制提升数据效率与模型性能。

Talk·信息

▼

主题：针对大语言模型的强化学习，如何考虑探索与利用？

嘉宾：香港中文大学(深圳) · 博士生 - 李子牛

时间：北京时间 2月26日(周四) 20:00

地点：TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍▼

强化学习是实现大模型对齐的关键技术，但其在实际应用中面临着计算成本高昂和训练过程不稳定等挑战。本报告将从初始化、利用与探索三个核心问题出发，系统介绍三项工作：GEM 通过保持输出多样性实现高效的冷启动训练；ReMax 利用文本生成的确定性结构，消除价值网络，实现高效、稳定、简洁的策略优化；Knapsack RL 通过自适应算力分配机制，提升数据收集效率和模型性能。

Talk大纲

1. 背景介绍

2. GEM：考虑多样性的监督微调

3. ReMax：没有值网络的强化学习算法

4. Knapsack RL：自适应的探索算力分配框架

Talk·预习资料

▼

论文链接：
https://arxiv.org/abs/2310.10505

论文链接：
https://arxiv.org/abs/2408.16673

论文链接：
https://arxiv.org/abs/2509.25849

Talk·提问交流

▼

在Talk界面下的 【交流区】参与互动！留下你的打call和问题，和更多小伙伴们共同讨论，被讲者直接翻牌解答！

你的每一次贡献，我们都会给予你相应的i豆积分，还会有惊喜奖励哦！

Talk·嘉宾介绍

▼

李子牛

香港中文大学（深圳） · 博士生

‍‍‍李子牛是香港中文大学（深圳）的博士，师从罗智泉教授。他的研究方向包括强化学习算法的设计与理论，及其在大模型后训练中的应用。他在ICML、NeurIPS、ICLR等顶级会议以及TPAMI、TSP、JASA等权威期刊发表论文十余篇。其中，他的成果率先将REINFORCE系列算法在"LLM+RL"领域进行大规模应用探索，相关研究曾获得NeurIPS FITML Workshop Best Paper Runner-up、NeurIPS Spotlight、UAI Oral等荣誉。此外，他曾在腾讯AI实验室和字节跳动Seed团队从事工业界研究实习。

个人主页:
https://www.techbeat.net/grzytrkj?id=18378

长按识别二维码，一键预约TALK！

-The End-

如果你也想成为讲者

▼

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择！

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

▼TechBeat(www.techbeat.net)隶属于将门创投，是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验，加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地，分享自己最新工作的沃土，在AI进阶之路上的升级打怪的根据地！

更多详细介绍>>

展开阅读全文

更新时间：2026-02-26

标签：科技李子深圳中文预告模型语言高效人工智能多样性香港中文博士生社区算法

1 2 3 4 5

Talk预告 | 港中文(深圳)李子牛：针对大语言模型的强化学习，如何考虑探索与利用？

三星Galaxy S26全系长效电池，明日发布

华为8800亿营收！鸿蒙智行狂飙58.9万辆，成科技巨头最强增长极

职场人的噩梦：加了锁的邮件，竟被AI助手背着你“大声广播”？

中微半导2025年双增长，比2021年行业大繁荣时如何？

谷歌地图将南海改名，中国南海“划给”菲律宾，我外交部反将一军

宇树科技发布四足机器人Unitree As2，人形占比更高的机器人ETF易方达(159530)连续11日“吸金”12.31亿元

南大光电：宁波子公司ArF光刻胶现有产能为50吨/年，未建设新产能

白宫经济学家：Citrini的AI风险报告是“科幻小说”

“草易达”牧草标准化大模型落地和林格尔新区孵化基地-以AI重构牧草交易新生态

AI叙事迎分水岭：Anthropic用“合作”取代“颠覆”，软件股终于喘了口气

经开区企业快讯｜西煤机公司自研智能采煤机刷新进口装备行业纪录

比套间还便宜！柳州市一栋4层高的自建房被拍卖，40万就成交

潮汕85后女掌门,左手矿产,右手存储芯片,带企业从瓶颈逆袭！

香港重磅发布：2025年经济增长3.5%！楼市回暖，住宅房价租金齐涨；股市大涨，日均成交额增加九成！预计2026年经济增长2.5%至3.5%

不对劲！A股要见证新高？周四，大盘走势分析

华为8800亿营收！鸿蒙智行狂飙58.9万辆，成科技巨头最强增

宇树科技发布四足机器人Unitree As2，人形占比更高的机

“草易达”牧草标准化大模型落地和林格尔新区孵化基地

去了深圳才发现：没人穿运动裤、打底裤了，满大街都是这3

广汽集团等成立新科技公司含多项机器人业务

20260226基于进球预期模型和机构数据的欧冠杯模拟

济南人才认定再扩容：机器人、人工智能等6领域纳入覆盖

张建华：广州工信将以80%以上发展资金支持“人工智能+制

川股快讯：涉通威股份、羽玺新材、富临精工、四川黄金、

2月24日南向资金追踪：南方恒生科技、美团－Ｗ、小米集团－Ｗ净