作为近年来自然语言处理 (NLP) 技术的集大成者,「ChatGPT」 一经推出就引起了巨大的轰动,很多人甚至将其视为真正的人工智能。「ChatGPT」 表现出了非常惊艳的语言理解、生成、知识推理能力,它可以很好地理解用户意图,做到有效的多轮沟通,并且回答内容完整、重点清晰、有概括、有逻辑、有条理。目前「ChatGPT」 使用的语言模型是 GPT-3.5。
「ChatGPT Plus」 版本的用户可以试用 GPT-4.0。GPT-4.0 是一个大型多模态模型(接受图像和文本输入,提供文本输出)。相较 GPT-3.5主要实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限制提升至 2.5 万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。OpenAI 称,“虽然这两个版本在随意的谈话中看起来很相似,但当任务的复杂性达到足够的阈值时,差异就会出现“—GPT-4.0更可靠、更有创意,并且能够处理更细微的指令。
(资料图片仅供参考)
和「ChatGPT」一样,百度的「文心一言」是一个多模态大模型,包括文学创作、商业文案创作、数理逻辑推算等能力。
那么,这个“中国版的ChatGPT“到底实力如何?九方科技团队对「文心一言」和「ChatGPT」进行了实测,对比一下「文心一言」 VS 「ChatGPT」谁更强。
事件发展
以下为ChatGPT、GPT-4.0、文心一言等推出、逐步进化的事件发展始末,主要帮助读者梳理、了解整个发展脉络。
2022年11月30日,OpenAI推出「ChatGPT」
2022年12月4日,「ChatGPT」已有超过一百万用户。
2023年1月,「ChatGPT」的用户数超过1亿,成为该时间段内增长最快的消费者应用程序。
2023年3月14日,OpenAI 宣布正式发布「GPT-4.0」。
2023年3月16日,百度宣布正式推出基于百度新一代大语言模型的生成式AI产品「文心一言」。
2023年3月17日,申请内测用户开始逐渐收到百度「文心一言」邀请码,用户开始测评。
实际测评
本文选择文心一言、ChatGPT进行测评,对比仅挑选几个AIGC常见业务应用场景的例子,主要展示文心一言与ChatGPT在各方面的差异,大家感兴趣可以去官网申请试用,官网地址附在文末。
1. 文字创作
本次测评分别使用文心一言和ChatGPT来为给定文章生成相对应的评论。
「文心一言」
文心一言:
1)内容更像总结
2)存在字数小于20的情况
3)生成大于5条评论
4)结果输出格式排序混乱,存在重复
「ChatGPT」
ChatGPT:
1)内容更像评论
2)字数均大于20
3)生成5条评论
4)结果输出格式整齐统一
从结果来看,ChatGPT给出的结果更符合九方科技团队的预期,文心一言关于文字创作方面稍逊一筹,输出结果不可控。
2. 文章改写
本次测评分别使用文心一言和ChatGPT来对给定文章进行分段、合并、去版权、改写等。
「文心一言」
「ChatGPT」
可以看出,ChatGPT准确给出了文章改写结果,并按照指定json格式返回。文心一言返回内容显然有误,不及预期。
3. 关键信息抽取
本次测评分别使用文心一言和ChatGPT来为给定文章生成内容标题、关键词等。
「文心一言」
从结果看来,文心一言对输出格式、字数的控制及关键词的质量把握存在不稳定性,ChatGPT返回结果更加准确、结构清晰、稳定性更高。
4. 输出格式控制
本次测评分别使用文心一言和ChatGPT来指定输出结果的格式。
「文心一言」
「ChatGPT」
关于返回结果输出格式,ChatGPT比文心一言稳定性更高,并且更符合标准格式。如果输出结果格式不稳定,会导致结果后处理很难统一。
5. 多模态作图
「文心一言」
文心一言自带文生图的功能,基本能给出较为符合预期的图像,但质量无法保证,结果并不可控。
「ChatGPT」
ChatGPT目前只能测试到GPT-3.5,GPT-4.0具备多模态作图能力,但目前无法测试,九方科技团队暂时采用plus版本的网友测试反馈来进行对比展示,后续开放之后,进行测试。
在这个示例中,用户提问:下面这张图搞笑在哪里?请逐一进行回答。
GPT-4.0可以按顺序描述出每一格的内容,并总结出笑点:用巨大的过时VGA接口给小巧的现代智能手机充电。
除此之外,GPT-4.0还具备阅读论文、根据草稿画网页、理解漫画等图表理解能力,可见GPT-4.0的多模态能力已经非常强大。
优、缺点对比
「文心一言」
优点:
1. 中文场景表现较为优秀。
2. 问题生成响应时间较快。
3. 具备基本写作能力。
4. 自带文生图功能。
缺点:
1. 生成文字不一定具备事实性。
2. 上下文理解能力弱,长提示有可能记忆失效或细节失效。
3. 不能对输出格式做细致调整。
4. 作画采用文心一格模型,但可控性较差,质量无法保证。
「ChatGPT」
优点:
1. 对大部分事实回答能保证正确性,具备一定的逻辑推理能力。
2. 具备很强的写作能力。
3. 上下文理解能力强,能记忆较长提示信息的细节内容。
4. 能对输出格式做细致调整。
5. 支持多语种。
缺点:
1. 对仅在中文环境下熟知的事实缺乏准确性。
2. 生成时间较长。
3. 不支持方言及国内网络环境下的新生词汇。
4. 只能处理文生文场景。
总结
总的来说,文心一言的整体使用效果要逊色于ChatGPT。无论从提示问题的理解程度、返回结果的质量,还是到细节的处理上,ChatGPT都要看起来更加“聪明”。
在国内,百度NLP确实处于技术领先地位,这么多年来,一直持续做着AI相关技术的积累和跟进,从深度学习框架到大模型以及相关的应用,都有布局。能在这么短时间推出类ChatGPT产品,值得尊敬,这毫无疑问与之前的持续积累有关。
但根据实际评测结果来看,文心一言整体效果上和ChatGPT的差距还是有的,加上GPT4.0的出现,依然有很长一段路要走。但九方科技团队相信,这只是时间问题。
1. 百度「文心一言」目前只开放了部分内测账号,只提供了页面试用的方式,API开放时间未知。
2. OpenAI「ChatGPT」GPT-4.0由于需要国外付费账号,暂时无法测试和使用,本篇实测仅针对GPT-3.5。
关于九方科技
九方科技自成立以来,一直专注于服务金融客户,以用户需求为基石驱动产品技术升级,致力于打造更多满足用户需求的金融大数据产品。目前,九方科技拥有多项核心技术,如大数据处理和分析技术、基于机器学习的数据可视化技术、大数据云计算技术等,在金融领域积累了深厚的技术经验和专业知识,能够为金融客户提供全方位的大数据解决方案。