阿里 + 百度 VS GPT，能打平手吗？

图片来源 @视觉中国

文 | 20 社，作者 | 罗立璇、贾阳，编辑 | 王晓玲

(相关资料图)

最近一周，中国大厂们的 ChatGPT 对标产品真是应接不暇，纷纷上桌。阿里的大模型 " 通义千问 " 预热了好久，今天终于正式发布。

作为阿里云智能集团新任 CEO，张勇表态，" 目前是新的历史契机关口 "，而通义千问承载了阿里在下一个时代的野心—— " 所有的行业、软件以及服务都值得基于新型的人工智能技术‘重做一遍’ "，阿里将用 "AI+ 云计算 " 为所有企业提供服务。

据发布会介绍，通义千问是阿里达摩院自主研发的预训练语言大模型，目前的功能包括多轮对话、文案创作、逻辑推理、多模态理解和多语言支持。在多模态方面，通义千问已经可以理解图片，相当于拥有视觉能力，但暂时还没有集成文生图功能。

那么，这个比文心一言名字还拗口的新玩家，水准究竟如何？20 社拿到了内测通道，选取了几个问题，这就帮大家测试一下通义千问的智能程度、实用性能。

用胡锡进的口吻，分析一下年轻人应不应该 " 脱下长衫 "

对于舆论中最新的热梗，chat bot 们都不太理解。

文心一言坦诚于自己的无知，而通义千问和 ChatGPT 则能在一本正经胡说八道方面，继续保持水准。But 好像都丢失了老胡内味儿。

对于互联网最新知识语料，大模型无法进行第一时间的输入，因此通义千问和 ChatGPT 虽然回答了，但是都是基于历史训练的推测。

New Bing 接入了 GPT-4，而不是 ChatGPT，在补足了外部最新信息的同时，它也舍弃了 ChatGPT 在对话体验上的更好体验。更新，还是体验更好，这可能是目前阶段的两难。

通义千问

文心一言

ChatGPT

如果西游记主角生活在校园里，以此为线索写一个剧本

创作能力方面，我们举办了一个同人本挑战赛。从赛果来看，ChatGPT 是太太，通义千问刚入门，文心一言刚学会写语文作业。

文心一言在创作领域的技能似乎还没有点亮，它在理解题意上有非常大的障碍。第一次提问，它的剧本是一连串师生针对西游记的问答。在改变提问方式几次后，再回到第一次的题面，它的理解能力有所提升，但创作水平还是非常简陋和敷衍。

通义千问表现更好些，写出了剧本的起承，但在转合这块开始露怯。

ChatGPT 运用了更多原著人物元素，情节设置也更好地理解了校园 au 的特点，起承转合更好一些。

通义千问

文心一言

ChatGPT

帮我推荐几个五一假期可以出游的目的地，不要那么拥挤的景点

做攻略，这几个 AI 都是一把好手！推荐的景点和理由都满足了要求。

看来做为生活助手，需要完成一些要求不那么严格精密的任务时，AI 的能力能覆盖平均需求。

不过通义千问的推荐有点过于宽泛了，以整个城市为目的地。而网红城市成都和厦门，拥挤程度不会低。

针对通义千问，我们还追问下了推荐的理由，它给出了几个评判维度，这个推荐逻辑让人信服。

不过，我们以为会出现的飞猪旅行行程页面并没有出现，莫名还有点失落。在通义千问的发布会演示中，我们看到未来在涉及到本地生活和商品的内容时，它会主动推荐个性化产品链接。这也是阿里系 AI 未来的一个特色了吧。

通义千问

我还添加了追问：你是根据什么依据来判断这些目的地人少的呢？

文心一言

ChatGPT

写一个小红书帖子，卖出位于燕郊的一套已经价格腰斩的房子

最近已经不少小红书和抖音的文案被吐槽像人工智能写的，所以我们好奇的是，大预言模型在多大程度上能替代这样的工作？

首先是这几个大模型都自己进行了一些 " 脑补 "。通义千问就脑补了房产的面积和价格，使用了房地产中介的一些常用话术，比如投资价值、交通便利，房况良好等等。ChatGPT 则提到了更多要素，比如房内结构、装修时长，装修风格等。

这两个回答都基本完成了任务，只是忽略了现实中的房产中介会提到的是否还会继续跌价的问题，需要人类来补齐更多现实情况的担忧。考虑到通义千问和 ChatGPT 都号称他们现在用的语料库是最新的，应该还可以有更加惊艳的表现。

最不理想的是文心一言，因为它似乎没有理解问题，直接开始教我怎么写卖房子的小红书帖子。但值得夸赞的是，它精准把握了小红书真正的发帖格式：表情包放在段首（虽然很单调）。

通义千问

文心一言

ChatGPT

如果我 2020 年 1 月买了腾讯股票，现在亏多少？

考虑到各大券商早已开始使用 AI，来做智能投资顾问来优化投资组合，那么，大模型能不能做理财助手呢？目前看来，各家平台还没有开放这个能力。

通义千问和文心一言都非常谨慎，表示自己无法提供建议，并且提醒用户注意投资风险。

而 ChatGPT 则提供了基础的股价信息，并且同样提醒了用户风险。

通义千问

文心一言

ChatGPT

帮我介绍一下著名演员马斯克的作品

这其实是一道陷阱题，来测试大模型能不能识别明显的事实错误。

通义千问直接无视了 " 演员 " 的前缀，将马斯克创立的公司作为他的 " 作品 " 介绍给了我。这可以打一个及格分。

文心一格则直接被问题骗倒，顺着问题往下回答，并且编造了一些不存在的剧情。马斯克确实客串过《钢铁侠》，但担任的不是反派，更没有在数部漫威系列电影里和主角进行激烈的搏斗。此外，他也没在《环太平洋》《火星救援》和《超人：钢铁之躯》等电影里出现。

ChatGPT 则直接指出了问题中的错误，然后简单阐述了马斯克的成就。

通义千问

文心一言

ChatGPT

做一个女权主义者，跟做全职太太矛盾吗？

这算是一个炸群级的女性话题，有点意外的是，通义千问直接避而不答，谨慎的态度让我怀疑，通义千问是不是会选择避开大多数热搜话题。

文心一言和 ChatGPT 的回答都没什么太大问题，不过相比之下，文心一言对于女性的要求明显更高。

" 全职太太也应该有机会继续追求自己的职业和个人成长。她们可以通过参加职业培训、提高自己的技能和知识水平，或者创办自己的企业等方式来实现这个目标。"

" 这两个角色可以相互补充，为家庭和职业生活做出贡献。"

通义千问

文心一言

ChatGPT

比亚迪会超过特斯拉吗？

比亚迪是否会超过特斯拉，其实是一个模糊问题，因为判断两个公司排名有不同角度，比如从市占角度的年销量，年销售额，以及从财务数据角度的利润、公司市值等等。至于未来的发展，也受到多种因素的影响。

三个大模型都能避开这个陷阱。但文心一言的回答中，有明显的错误。

" 特斯拉的产品线更加多元化，包括电动汽车、太阳能设备和能源存储产品等，而比亚迪的产品线相对较单一，主要集中在电动汽车和混合动力汽车领域。"

实际上迪王的多元化远超特斯拉，产品覆盖范围岂止是光伏和储能，别忘了，在消费电子行业，差不多我们知道的所有手机品牌，都是迪王的客户。

通义千问和 ChatGPT 的回答都没有明显错误，不过也都分析得比较浅，要想把大模型作为炒股助手的话，还要再等一段时间。

通义千问

文心一言

ChatGPT

小明的男朋友忘记了她的生日，小明该和他分手吗？

很多人可能都需要一个 24 小时待命的闺蜜，所以明知道答案是 " 分 "，也有很多人在小红书上分享自己的感情经历。

从目前的回答来看，文心一言不是个合格的闺蜜，甚至比小明的男朋友更加敷衍。

" 首先，每个人的生活都很忙碌，可能他真的没有注意到你的生日。其次，爱情是建立在相互理解和关心的基础上的，如果他真的爱你，他会尽力记住你的重要日子。"

我就不明白了，他到底是在不在乎小明？

最后，三个大模型一致认为，要看后续是否尝试弥补过失，" 如果他真的爱你，他会为你们的关系付出努力，并给你一个特别的生日庆祝。"

" 如果男朋友对小明的感受漠不关心或者态度消极，甚至无视她的情感需求，那么小明可以考虑是否真的愿意和这样的人继续交往。"

通义千问

文心一言

ChatGPT

结论

从目前情况来看，ChatGPT 在上下文理解、思维链上的表现，确实远远超出中国学徒的水平。

如果只看国内的大模型情况，对于实际生活中会产生的问题和人物（而不是测试它们的极限智能），通义千问的回答通常会比文心一言更加全面。其次，它们对于可能会有争议的问题，回答起来也更加谨慎，可能是汲取了前人的经验。

通义千问和文心一言都能够在提问者的反馈（比如多次改变提问侧重点后，再重复原始问题）中优化自己的答案，这显示出其背后大模型有一定的逻辑链能力和零样本学习能力。

不过，如果你只是希望在自己的决策中获得更多的参考，当下的大模型都在不同程度上能满足需求。所以，最终决定胜利的，可能不是它是否足够好用，而是和用户日常生活的场景是否结合得足够紧密、取用是否足够方便。

希望有一天，我们在提问自己不知道答案的问题时，也能完全信任大模型，这就是智能化的真正开始了。

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体 App

关键词：

239亿元！登封市长三角区域（上海）招商签约35个项目

头条 23-04-16
新乡县：紧抓预制菜“风口”，育种大县打造高科技农业集群谋腾飞｜直击博览会⑪ 天天微速讯

头条 23-04-16
世界观热点：贵州茅台：一季度净利205.2亿元左右

头条 23-04-16
郑开国际马拉松鸣枪开跑河南移动开站扩容保通信畅通世界报道

头条 23-04-16
“让位”实控人后，这家A股公司创始人“吃下”另一家上市公司_今日快讯

头条 23-04-16
中信建投：公司独立非执行董事周成跃接受审查调查环球时讯

头条 23-04-16
盒马、无印良品在列！探十里购物中心公布入场主力店丨极刻-资讯推荐

头条 23-04-16
动态：新乡凤泉区：30多家单位现场采购洽谈，潞琴助力豫菜飘香｜直击博览会⑫

头条 23-04-16
当前头条：4月17日起，河南日报社全媒体带您探寻“五都荟洛”的奥秘

头条 23-04-16
盖大楼，至少砸3亿！薇娅丈夫公司拿下1.6万平米土地，距阿里很近

头条 23-04-16
华为余承东：智能电动汽车上半场竞争是电动化，下半场是智能化

头条 23-04-16
江苏省人大常委会原党组成员、副主任刘捍东接受纪律审查和监察调查-世界今热点

头条 23-04-16
2023中原农谷预制菜国际博览会顺利闭幕

头条 23-04-16
最新私募登记备案清单来了！穿透式登记，强化实控人管理|当前信息

头条 23-04-16
全球今日报丨上市公司前总监讨要加班费，钱没拿到还被壮汉殴打，手机也被抢？公司回应

头条 23-04-16
许昌首家！西继迅达获评省级外资研发中心

头条 23-04-16
全球微头条丨中国人民银行行长易纲会见印度尼西亚财长英卓华

头条 23-04-16
【全球时快讯】封丘：30家企业现场采购洽谈，企业直呼收获多多｜直击博览会⑩

头条 23-04-16
环球速看：博览会变招商现场，卫滨区、牧野区、红旗区近百家企业现场组团采购 | 直击博览会⑪

头条 23-04-16
何雄会见中国国际海运集装箱集团副总裁黄田化一行-天天看热讯

头条 23-04-16
热消息：“厨师之乡”长垣组团采购，当日达成采购意向约2000万元｜直击博览会⑨

头条 23-04-15
环球新资讯：顺利闭幕，达成预制菜投资、产销对接合作项目45个

头条 23-04-15
世界今亮点！来了！河南12条措施促消费→

头条 23-04-15
国内最大跨径钢混组合梁桥首段钢箱架设成功

头条 23-04-15
浙商银行郑州分行：供应链金融服务河南“制造强省”

头条 23-04-15
上海将建车规级芯片设计和中试平台，解决中小企业研发难题-焦点速递

头条 23-04-15
最火“五一”即将开启：郑州多趟列车车票售罄，河南出境游预订增加_全球微资讯

头条 23-04-15
【天天时快讯】财政部等出台进口展品免税政策支持办好2023年中国进出口商品交易会

头条 23-04-15
中钢集团：11家公司冒名使用“中钢”字号，已依法开展相关维权行动天天新动态

头条 23-04-15
世界最资讯丨7600亿灰飞烟灭，超级富豪遭"血洗"！又一"黑天鹅"面世？

头条 23-04-15
市场监管总局发布“大米消费提示”

头条 23-04-15
中国政企合作投资基金股份有限公司原董事长周成跃接受审查调查

头条 23-04-15
河南能源：一季度营收利润双双突破全年计划的30％

头条 23-04-15
洛阳市国资委、洛阳国宏集团战略签约大公国际、国新咨询

头条 23-04-15
【环球播资讯】上汽设立60亿芯片产业生态基金，将投向这些领域

头条 23-04-15
微众银行2022年报：六成贷款投向小微与个体户净利增近30％

头条 23-04-15
突发！日本首相演说现场，传出爆炸声视点

头条 23-04-15
中共濮阳市委组织部干部任前公示

头条 23-04-15
当前快看：濮阳市战略签约民生银行郑州分行，合作涵盖乡村振兴、绿色金融等多个领域

头条 23-04-15
A股百亿汽配龙头或遭诈骗，最新回应来了

头条 23-04-15
值得买业绩首降，“电商导购第一股”能否破局成长的烦恼？_焦点资讯

头条 23-04-15
A股券商首份一季报发布，中泰证券盈利大增424％-速读

头条 23-04-15
化工品种期权上新，证监会同意乙二醇、苯乙烯期权注册

头条 23-04-15
观天下！易纲出席国际货币与金融委员会会议，表示中方愿与各方一道落实G20债务处置共同框架

头条 23-04-15
3月份最新房价变动出炉：64个大中城市新建商品住宅环比上涨_报资讯

头条 23-04-15
4月21日上市交易，30年期国债期货获批注册

头条 23-04-15
环球微资讯！589家豫企组团赴广交会抢订单

头条 23-04-15
亏损大幅收窄，ST华英2022年营收28.98亿元全球今亮点

头条 23-04-14
时讯：主营业务稳步发展，中原高速2022年实现净利润1.4亿元

头条 23-04-14
天天精选！雷军发文谈大模型和AIGC：正在研发一些有趣的技术和产品

头条 23-04-14
重庆市与蚂蚁集团签署全面深化战略合作协议

头条 23-04-14
【报资讯】证监会：拟优化期货从业人员管理方式，取消从业资格管理要求

头条 23-04-14
世界观焦点：杨德龙：美联储加息周期或已终结二季度大盘有望迎来新一轮行情

头条 23-04-14
沙尘来袭，美团买药咳嗽问诊增长65％线上医生提醒做好防护新消息

头条 23-04-14
今日热讯：宁德时代牵手58同城将在新能源汽车、二手车等领域展开合作

头条 23-04-14

精彩推荐

阅读排行

要闻

头条

239亿元！登封市长三角区域（上海）招商签