ChatGPT大规模封号后,国产ChatGPT崛起?

早上好!Freemen又和大家见面咯!

靠谱的高薪工作已经帮您筛选完毕,

FreemenIT行业求职招聘app诚挚邀请您前来参与。

参与入口 「链接」

ChatGPT类产品提升生产效率的潜力,已经被不断验证。

但与此同时,前有 ChatGPT 大规模封号、亚洲成重灾区,后有 OpenAI 因算力问题停售 ChatGPT Plus…

国内推出自己的模型迫在眉睫,看得出国内的玩家们都在持续发力准备冲刺了。

今天Freemen为大家汇总了近日阿里上线的ChatGPT产品通义千问的实测情况。

明天为大家介绍另一款近期上线的国产ChatGPT产品,敬请期待!


通义千问(阿里版 ChatGPT)

阿里正式加入ChatGPT战局!通义千问由达摩院开发,目前只上线了内测版本,我们来看一看它的实测结果。

代码生成

ChatGPT 能成为程序员的“辅助神器”,并成功“出圈”的最主要原因之一就是其出色的代码生成能力。因而,本次对「通义千问」的测评我们也先从这方面开始。

先来个简单的:用 Python 实现冒泡排序。

提问:请写代码解决"把 abcd...s 共 19 个字母组成的序列重复拼接 106 次,得到长度为 2014 的串。

再提问:请写一个使用逻辑回归模型判断用户更喜欢通义千问还是 ChatGPT 的训练代码。

继续:请用 C 语言,使用动态分配内存的方式,模拟 C++ 中 Vector 容器,实现动态数组的构建。

英文提问:“Using Python to Define a class named Vector to simulate the C++ Vector container and implement dynamic array construction using dynamic memory allocation.”

对于以上「通义千问」生成的代码, CSDN-AI 团队研发总监如此评价:

“阿里云的模型对于随机抽取的常见代码片需求,基本能理解需求,生成合适的代码。能区分生成代码对指定语言的需求。能区分中英文问题输入。简单的冒泡排序和领域特定的逻辑回归代码,都能生成合适的代码,总体表现不错。在理解代码需求的推理能力上,则还有待加强。”

古怪问题大PK

考考通义千问一些难倒老外的「汉语十级」考题。

请听题:您是要几等座?你们一共有几等座?特等一等二等等等,二等要多等一等。我看一下,等一等啊。别等了,再等一等就没了。那不等了,就这个吧。请问顾客最终买了几等座?

通义千问的表现非常优异,给出了正确答案——一等座,并作了详细的分析。

文心一言被绕迷糊了,说是二等座。

而在汉语十级难题面前,语言能力强大的GPT-4竟然也缴械投降了,直称自己无解。

那么,作为一个母语是汉语的人,你觉得是几等座呢?

「豆腐两块一块,请问豆腐怎么卖?」

通义千问给出一种解「豆腐2元一块」,还贴心地还原出了交易过程。

而聪明的文心一言直接上升到经济学,分析了市场行情,认为2块豆腐一块钱更合理。

再问「女朋友对男朋友说,我都和你说了200次了,你也不长记性,又乱买东西。请问女生和男朋友说了多少次?」

通义千问显然是个「直男」,直接建议男生去问问女朋友,好好回顾下之前的聊天记录。

而对比之下,文心一言的EQ就显得很高了。

它说,「她可能已经和你说了很多次」,并给出了暖心建议,认真考虑你们关系是否健康,以及是否真正理解女朋友的需求和想法。

再问问「我的手机蓝牙坏了,请问去哪里修?」

整体来看问题不大,就是「通义千问」推荐的这个维修点,多少有点儿远——「iFixYouri」这个地址,直接跑美国区了。(文中的iFixYouriPhone应该是拼错了)

而前段时间,文心一言对这个问题,曾给出送到莆田医院的答案,这次看起来靠谱了许多。

问问「通义千问」,Fred Rickerson是谁?(这个人其实不存在)

开始,它会坚持真理,称找不到这个人。

但是再问一次,它立马动摇了。给这个人火速安了一个身份,还给它编了两部作品。

文心一言开始诚实地表示无法回答,第二次发问,它也开始胡诌了,说这个人是演员和导演。而到了第三次,它直接说这是个计算机。

GPT-4自始至终都对正确答案非常坚定。

问问它们麻辣螺丝钉该怎么做,通义千问看出来了这是在开玩笑,还猜出大概我们是想问麻辣螺狮粉。

文心一言则是一板一眼,很认真地给出了做法。

代码分析能力

可以看到,第一次测试的解释有大问题。

这可能是因为上文中生成了Powershell代码,模型的记忆能力似乎有问题,受上下文信息影响严重,直接解释了自己之前生成的代码,而非新提问的代码。

重新开了一个聊天,这下正常不少。

和 GPT-4 的回答来比较一下

可以看到,分析能力还是有差距的。

GPT-4 明显详细很多,代码分解能力很强,而且直接给出结论“通常用于恶意软件或恶意脚本,试图逃避安全系统检测”。

「百宝袋」:情书诗歌彩虹屁,样样拿手

另外,通义千问还整了一个针对不同场景小应用集合「百宝袋」,可以写提纲,给出放飞的菜谱,甚至还生成彩虹屁。

彩虹屁专家

不得不说,通义千问专门上线的彩虹屁专家功能,夸起人来确实很6。

比如“我真厉害”四个字,它能给你发散成一整段让你听完头晕的彩虹屁。

但如果不使用这个功能,通义千问就很不通风情,说可以夸你有魅力、受欢迎,但就是不能夸你美貌。

小学生作文

在小学生作文功能中,我们让它以林黛玉倒拔垂杨柳,续写一段话。

通义千问能够模仿出小学生的语气,并在结尾升华到「这种精神很值得我们学习」,就,真的很小学生了。

而不进入功能窗时,通义千问续写的内容就比较普适了,而且人物形象刻画更加生动饱满,故事细节更加丰富。

写情书

给新垣结衣写一封情书,通义千问的文字里都是满满的爱意。

会放飞的菜谱

如果从百宝袋里问它如何做一盘麻辣螺丝钉,通义千问就会意了。

它会知道你就是想搞事情,所以不会纠正你这个东西有多不科学。

为你写诗

输入大模型、微调、参数三个词,让通义千问写一首诗。

「微调不是放纵,而是一种克制……」 被这句背后的哲理震惊到了。

写提纲

最后以「分析OpenAI新发布的GPT-4模型结尾」列个提纲。

通义千问生成的提纲把GPT-4的原理、前景、局限都覆盖到了,相当全面。

文章来源&作者:量子位 对白的算法屋 新智元

大语言模型国内赛进入白热化阶段,看来继疯狂三月之后,大家可以期待一个国内版AI填充的的疯狂四月!

Freemen持续为大家带来有用的IT和职场知识,记得关注我~

今天的分享就到这里,我们下期再见!

下面是今天的岗位推荐,记得来Freemen app查看更多高薪IT岗位。

今日推荐:

JAVA开发工程师

1.精通java编程、设计模式和组件技术,熟悉关系型数据库、通讯协议等。

2.熟练掌握sping、springboot、dubbo、zookeeper、rabbitmq. elasticsearch等相关技术。

3.对数据库的基本理论和内部实现机制有深刻的理解,熟练应用 mysql/nosql,有大数据和高并发的设计经验。

4.熟悉gitflow。

5.熟悉linux常用命令。

6.熟悉缓存技术,网站优化,服务器优化,集群技术处理、网站负载均衡、系统性能调优等软件编程的高级技术。

7.对分布式事务、并发、熔断等问题有自己的见解。

工作地点:深圳

展开阅读全文

页面更新:2024-03-20

标签:汉语   彩虹   阿里   封号   提纲   豆腐   模型   需求   能力   代码   技术

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top