五大AI聊天机器人盲测，ChatGPT未能夺冠，最终赢家竟来自这家“小公司”

2024-05-29 10:00:10 国内热搜作者：新浪热度：374

近期，《华尔街日报》开展了一项全面的盲测，对比评估了当下五大AI聊天机器人：ChatGPT、Claude、Copilot、Gemini和Perplexity。这些机器人在解决实际问题和执行日常任务的能力上接受了检验，以此反映它们在实际应用场景中的性能。测试不仅考察了它们的准确性、实用价值，还有整体回答质量，通过一系列精心设计的提示词覆盖了诸如编程挑战、健康咨询和财务规划等多种常见需求。值得注意的是，这项测试特别采用了高级功能，包括OpenAI的ChatGPT GPT-4o模型和谷歌的Gemini 1.5 Pro，以期全面展现它们的潜力。

结果显示，Perplexity在综合评比中位居第一，ChatGPT紧跟其后，而微软的Copilot表现最不理想。Perplexity尤其在总结、编程问题及时事资讯上展现出了卓越的能力，几乎在所有单项测试中都进入了前三。这款由Perplexity AI公司开发的工具，因其在生成式AI搜索领域的革新，被誉为“谷歌杀手”，并且用户量已突破1000万，团队规模却保持精简。

尽管ChatGPT更新后被寄予厚望，但它并未能在所有测试中领先，反而是较为冷门的Perplexity在多项测试中拔得头筹。Anthropic的Claude在写作任务上表现出色，但由于访问限制和响应速度慢，总排名下滑至第四。Copilot和Gemini则在测试中表现平平，尤其是Copilot在多个测试中垫底，经常忽视关键信息。

在具体分类测试中，如健康建议、财务管理、烹饪指导、职场写作、创意写作、内容总结、时事追踪及代码编写等方面，各AI机器人表现各异。例如，Perplexity在总结和时事类问题上展现了强大的信息处理能力，而Copilot虽然在职场写作中表现不佳，却在创意写作上找回了场子。Gemini在理财建议上给出了实用的指导，但面对健康问题时给出的意见略显模糊。

测试还揭示了各机器人在速度上的差异，其中ChatGPT借助最新升级，响应迅速，而Claude和Perplexity则显得较为迟缓。

综观整个测试，虽然ChatGPT作为热门产品并未占据绝对领先地位，但Perplexity的脱颖而出证明了专注于特定领域优化同样能带来优异成果，展示了AI聊天机器人领域内多样化的竞争格局与不断进步的技术水平。