获红杉、今日资本等投资,Moonshot AI的大模型“长文本”征途

21世纪经济报道记者 申俊涵 北京报道

作为中国版OpenAI的强有力竞争者,杨植麟创办的Moonshot AI近日在北京正式公开亮相。

同为清华系大模型创业者,杨植麟的公众知名度虽然比不上王小川、王慧文等在科技领域富有影响力的大咖,其在AI界早已是赫赫有名。据了解,杨植麟清华求学时期,师从清华大学计算机系知识工程实验室(KEG)带头人,智源研究院学术副院长、悟道项目负责人唐杰教授。最终,他以满分成绩通过所有程序设计课程,并以年级第一的成绩毕业。

2015年,杨植麟进入美国卡内基梅隆大学(CMU)语言技术研究所(LTI),跟随苹果公司AI负责人Ruslan Salakhutdinov和Google AI智能首席科学家William W. Cohen攻读博士位。

杨植麟先后以一作身份,发表 Transformer-XL 和 XLNet 两项工作,谷歌学术被引次数近两万。其在过去五年内的NLP领域华人学者引用排名中位居前10,并在40岁以下排名第一。

正如杨植麟在此次媒体沟通会上所说,“我们最主要的特色是高人才密度”。在Moonshot AI大概50人的公司团队中,除了学术背景深厚的杨植麟,还有许多成员都有训练超大模型的经验。其创始团队核心成员参与了 Google Gemini、Google Bard、盘古NLP、悟道等多个大模型的研发,多项核心技术被Google PaLM、Meta LLaMa、Stable Diffusion等主流产品采用。

而除了拥有大量技术人才,Moonshot AI也吸纳了不少产品人才,这些成员中有人具备从0到1 的产品经验,有人运营过几亿DUA的产品。“我们希望把技术和产品结合,在C端让大模型落地产生更大的价值。”杨植麟说。

杨植麟带领的Moonshot AI也迅速获得投资机构的认可,公司自今年三月成立以来,已获得来自红杉资本、今日资本、砺思资本等投资机构近20亿元的投资。

同时,公司在成立半年后,已经在“长文本”领域实现突破。公司在10月9日正式推出首个支持输入20万汉字的智能助手产品Kimi Chat,这是目前全球市场上能够产品化使用的大模型服务中,所能支持的最长上下文输入长度。

直面核心技术挑战,打造长文本大模型

今年以来,ChatGPT的火爆出圈正引领新一波的AI浪潮。各大科技巨头、初创公司纷纷加入这场AI大模型军备赛,热闹程度堪称“百模大战”。

但需要注意的是,当前大模型输入长度普遍较低的现状,对其技术落地产生了极大制约。比如在使用大模型作为工作助理完成任务的过程中,几乎每个深度用户都遇到过输入长度超出限制的情况。尤其是律师、分析师、咨询师等职业的用户,由于常常需要分析处理较长的文本内容,使用大模型时受挫的情况发生频率极高;对于大模型开发者来说,输入prompt长度的限制约束了大模型应用的场景和能力的发挥。

拥有超长上下文输入后的大模型,让这些问题迎刃而解,从而使得大模型的应用可以覆盖更多使用场景。比如通过多篇财报进行市场分析、处理超长的法务合同、快速梳理多篇文章或多个网页的关键信息、基于长篇小说设定进行角色扮演等等,都可以在超长文本技术的加持下,成为人们工作和生活的一部分。

值得注意的是,长文本技术的开发,存在一些对效果损害很大的“捷径”。比如“金鱼”模型,特点是容易“健忘”。通过滑动窗口等方式主动抛弃上文,只保留对最新输入的注意力机制。模型无法对全文进行完整理解,无法处理跨文档的比较和长文本的综合理解。

“蜜蜂”模型,特点是只关注局部,忽略整体。通过对上下文的降采样或者RAG(检索增强的生成),只保留对部分输入的注意力机制,模型同样无法对全文进行完整理解。“蝌蚪”模型,特点是模型能力尚未发育完整。通过减少参数量来提升上下文长度,这种方法会降低模型本身的能力,虽然能支持更长上下文,但是大量任务无法胜任。

“不管是‘金鱼’模型、‘蜜蜂’模型,还是‘蝌蚪’模型,都没有办法真正达到产品化的效果。只有真正去面对核心技术挑战、正面解决问题,才有可能真正达到产品化的效果。所以我们做了非常多算法和工程的优化,在存储、算力、带宽等各方面,去实现真正可用、可产品化的长文本大模型。”杨植麟说。

基于此,Moonshot AI推出智能助手产品Kimi Chat。相比当前市面上以英文为基础训练的大模型服务,Kimi Chat具备较强的多语言能力。例如,Kimi Chat在中文上具备显著优势,实际使用效果能够支持约20万汉字的上下文,2.5倍于Anthropic公司的Claude-100k(实测约8万字),8倍于OpenAI公司的GPT-4-32k(实测约2.5万字)。

“当然,更长的上下文长度只是Moonshot AI在下一代大模型技术上迈出的第一步,未来团队将持续加速大模型技术的创新和应用落地。”杨植麟说。

清华系大模型同台竞技,笃定2C阵营会有Super APP出现

虽成立只有半年时间,Moonshot AI已经获得来自红杉资本、今日资本、砺思资本等投资机构的追捧。

“眼下,美国硅谷的OpenAI和Anthropic等公司获得了多方关注,实际上在国内,拥有足够多技术储备的Moonshot AI也正成长为全球领先的AGI初创公司。”作为Moonshot AI首轮融资的三家投资机构之一,砺思资本创始合伙人曹曦说。

在曹曦看来,多模态大模型是各家AI厂商竞争的关键领域,其中长文本输入技术更是其核心技术之一,Moonshot AI团队最新发布的大模型和Kimi Chat在这方面实现了重要突破,并已应用于多个实际场景。

毋庸置疑,AI天才杨植麟是清华系大模型创业者中的闪耀新星。事实上,清华系创业者已经撑起大模型创业的半壁江山。百川智能、生数科技、面壁智能、深言科技、智谱AI、一流科技等大模型创业公司,均拥有清华背景的创始团队。

在这场清华系创业公司的同台竞技中,杨植麟坦言,这更多的是大家共同在大模型领域产生贡献。这里面的空间非常大,很难有一家公司就可以把所有的事情都做了。大家的侧重点各有不同,有些专注C端有些专注B端,技术路线也会有所不同,每个人都能够产生独一无二的价值。

“我们会坚定站在2C阵营发展,在这个阵营中,一定会有Super APP出现。”杨植麟说,“这些Super APP会基于自研模型做出来,因为你需要在用户体验上能够有差异化。但同时我们会觉得可能出现很长尾的各种各样应用,有可能是基于开源模型去做,然后发挥数据或者场景产品化的优势。”

面对有更多生态资源和资金优势的大厂,Moonshot AI在2C阵营中的竞争优势如何体现?“我认为通过AI native的产品,会有很多新的流量入口出现。比如美国现在有很多新的流量入口,没有一个是大厂做出来的。如果瞄准新的流量入口,肯定是有创业公司的机会的。”杨植麟告诉21世纪经济报道。

比如以前没有Midjourney这样的产品,它就是新的流量入口,因为以前做不了这样的需求。再比如可交互的直播等,会有很多新的想象空间、新的app出现,所以创业公司肯定是有机会的。

更多内容请下载21财经APP

展开阅读全文

页面更新:2024-03-07

标签:模型   文本   资本   红杉   上下文   清华   阵营   征途   长度   今日   产品   技术   公司

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top