7B羊驼战胜540B“谷歌版GPT”，MIT用博弈论调教大模型，无需训练

阅读此文前，麻烦您点击一下“关注”，既方便您进行讨论与分享，还能为您带来不一样的参与感，感谢您的支持。

大数据时代,人工智能技术飞速发展,自然语言处理已经成为人工智能领域最为活跃的前沿方向之一。近日,麻省理工学院(MIT)研究员提出一种全新的大模型优化策略——均衡排名,该方法利用博弈论将大模型的语言解码过程转化为“正则化不完全信息博弈”。

通过“博弈”的方式不断优化大模型生成的答案,使其更加符合事实,从而在多个测试数据集上超越其他优化方式和模型。均衡排名方法的核心在于设计生成器和判别器两个模块,它们掌握不同的信息,扮演不同的角色。生成器根据环境随机生成答案,判别器则只负责判断答案是否正确。

如果判别器的判断与环境一致,两者都得到1分,否则都不得分。在重复的生成和判别中,模型的目标是达到纳什均衡,即任何一方单独改变策略都不会提高自身收益。初始化后,两者进行多轮博弈,更新策略,直至迭代结束。每轮结束计算“后悔值”,即与最优策略的差值,迭代至后悔值收敛,达纳什均衡。

均衡后,生成器和判别器评分一致,否则答案剔除。为避免同时出错,引入正则化纠正机制。首先向生成器和判别器输入客观事实的先验策略,引导策略优化方向。然后计算新策略与初始策略的KL散度,描述两者相关性,值越大相关性越低。KL散度加入生成新策略函数,避免结果偏离事实。

当结果一致但不符合事实,不会得到高分,不成最终答案。利用该策略,MIT研究员让7B参数的Llama超越540B的“谷歌版GPT”,在多个数据集取得优异成绩,部分超过“谷歌版GPT”。Llama在常识推理、阅读理解、数学和对话任务表现出色。

选择题Llama经均衡排名在MMLU等数据集名列前茅。问答题方面,13B Llama在TruthfulQA数据集最佳,7B版本与第一名差无几。数学方面,7B Llama在GSM8K测试最好。均衡排名不仅是Llama优化方法佼佼者,也超过其他模型。

综上,均衡排名通过“博弈”不断优化大模型生成的答案,使其更符合事实。设计生成器和判别器,达到纳什均衡,引入正则化纠正,避免同时出错。该方法让MIT 7B Llama在多个数据集超越其他模型,部分超过540B“谷歌版GPT”。

但是,人工智能发展仍面临诸多困难,实现人工智能“常识世界”理解还需不断探索。人工智能是否能够真正达到与人类同等的“智慧”,仍是一个值得思考的问题。人工智能的发展日新月异,计算机视觉与自然语言处理的提高让机器人在各个领域都取得了长足进步。

近日,一项最新研究发布了全新的语言模型Llama-7B,在著名数据集ARC和RACE的高难度数据集上,其准确率分别达到58.3%和56.4%,明显超过了原有顶级模型PaLM-540B的表现。语言模型是自然语言处理的基石,它通过学习大量文本数据来建立语言的统计模型,进而产生新的文本。

Llama-7B训练了70亿个参数,相比PaLM-540B多出了10倍之多,这也使其在复杂语言任务上的表现大幅提高。

在ARC数据集中,Llama-7B的准确率提高了5个百分点,RACE数据集中提高了7个百分点,这些数据集专注测试机器在理解长文本与推理上的能力,Llama-7B的优异表现说明其在这些方面已达到人类水平。然而,Llama-7B的训练过程需要消耗大量计算资源,这也限制了其应用场景。

一些研究者指出,这类超大模型的效果并不一定随着参数的增加而线性提高。模型设计、训练技巧以及数据集的选择同样对最终效果有重大影响。未来,研究者们需要在模型设计与数据集两方面下功夫,开发出更高效且广泛应用的语言模型。机器语言能力的提高为人工智能的发展带来新的机遇与挑战。

在各行各业,人工智能系统需要理解人类语言并作出恰当回应,这需要机器具备强大的语言理解与生成能力。Llama-7B的出色表现预示着人工智能在这一领域的发展方向,但我们还需要解决其中的技术困难,让其真正应用到现实生活中。那么,人工智能在理解人类语言方面还需要解决哪些难题这也是未来研究的方向。

当您跟我有更多互动的时候，才会被认定为铁粉。如果您喜欢我的文章，可以点个“关注”，成为铁粉后能第一时间收到文章推送。本文仅在今日头条首发，请勿搬运。

页面更新：2024-03-12

上海：前瞻布局6G技术研发试验设施