一号热搜榜,为您提供最新的热搜资讯,热搜榜信息!

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

国内热搜 作者:新浪 热度:374

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

近期,《华尔街日报》开展了一项全面的盲测,对比评估了当下五大AI聊天机器人:ChatGPT、Claude、Copilot、Gemini和Perplexity。这些机器人在解决实际问题和执行日常任务的能力上接受了检验,以此反映它们在实际应用场景中的性能。测试不仅考察了它们的准确性、实用价值,还有整体回答质量,通过一系列精心设计的提示词覆盖了诸如编程挑战、健康咨询和财务规划等多种常见需求。值得注意的是,这项测试特别采用了高级功能,包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro,以期全面展现它们的潜力。

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

结果显示,Perplexity在综合评比中位居第一,ChatGPT紧跟其后,而微软的Copilot表现最不理想。Perplexity尤其在总结、编程问题及时事资讯上展现出了卓越的能力,几乎在所有单项测试中都进入了前三。这款由Perplexity AI公司开发的工具,因其在生成式AI搜索领域的革新,被誉为“谷歌杀手”,并且用户量已突破1000万,团队规模却保持精简。

五大AI聊天机器人盲测,ChatGPT未能夺冠,最终赢家竟来自这家“小公司”

尽管ChatGPT更新后被寄予厚望,但它并未能在所有测试中领先,反而是较为冷门的Perplexity在多项测试中拔得头筹。Anthropic的Claude在写作任务上表现出色,但由于访问限制和响应速度慢,总排名下滑至第四。Copilot和Gemini则在测试中表现平平,尤其是Copilot在多个测试中垫底,经常忽视关键信息。

在具体分类测试中,如健康建议、财务管理、烹饪指导、职场写作、创意写作、内容总结、时事追踪及代码编写等方面,各AI机器人表现各异。例如,Perplexity在总结和时事类问题上展现了强大的信息处理能力,而Copilot虽然在职场写作中表现不佳,却在创意写作上找回了场子。Gemini在理财建议上给出了实用的指导,但面对健康问题时给出的意见略显模糊。

测试还揭示了各机器人在速度上的差异,其中ChatGPT借助最新升级,响应迅速,而Claude和Perplexity则显得较为迟缓。

综观整个测试,虽然ChatGPT作为热门产品并未占据绝对领先地位,但Perplexity的脱颖而出证明了专注于特定领域优化同样能带来优异成果,展示了AI聊天机器人领域内多样化的竞争格局与不断进步的技术水平。

标签: AI     盲测     ChatGPT