首页 / 科技 / 正文

我放了免费版的Perplexity通过我的编码测试,结果是这样的

放大字体  缩小字体 2024-07-21 09:18  浏览次数:0 来源:本站编辑    

我已经为ZDNET测试了许多生成式AI工具的编码能力——这次轮到Perplexity.ai了。

Perplexity感觉像是搜索引擎和人工智能聊天机器人的结合体。当我问Perplexity它与其他生成式人工智能工具有何不同时,它说它使用实时信息访问,每天对网络进行索引。用户可以通过询问Perplexity来缩小搜索范围,将重点放在来源或平台上。

免费版本的Perplexity相当有限。它使用OpenAI的GPT-3.5模型进行分析,每天只允许5个问题,虽然它支持文件上传,但每天上传的文件仅限于3个。

专业版的Perplexity是每月20美元。这个版本允许无限的“快速”搜索,每天600个Pro搜索,以及人工智能模型的选择。您可以选择gpt - 40,克劳德3,大型声纳(LLaMa 3)等。专业版还提供5美元/月的API积分。

我们决定放弃专业版,运行免费版,对Perplexity的编程能力进行初步测试。我对人工智能进行了这些编码测试,得到了不同的结果。如果你想跟着做,把你的浏览器指向“我如何测试一个人工智能聊天机器人的编码能力——你也可以”,它包含了我应用的所有标准测试,对它们如何工作的解释,以及在结果中寻找什么的细节。

现在让我们深入研究每个测试的结果,看看它们与之前使用Claude 3.5 Sonnet、Microsoft Copilot、meta AI、meta Code Llama、Google Gemini Advanced和ChatGPT的测试有什么不同。

1. 写一个WordPress插件

这个挑战要求做几件事。首先,它要求AI创建一个用户界面,以便随机输入行(但不能删除)。然后,测试要求AI创建一个按钮,该按钮不仅可以随机化列表,还可以确保出现任何重复的道具,这样它们就不会在结果列表中彼此相邻。

到目前为止,除了meta Code Llama,大多数ai都创建了相当合理的UI。有些人比其他人更有吸引力,但他们都完成了任务。

然而,只有ChatGPT(3.5、4和40)产生正确的随机输出。大多数其他ai只是呈现一个按钮,当点击时,它什么也不做。

困惑了。它生成了一个符合规格的UI, Randomize按钮工作并分离了重复的行。

以下是本次测试和之前测试的汇总结果:

  • 困惑:界面:不错,功能:不错
  • 十四行诗:界面:好,功能:失败
  • ChatGPT GPT-4o:界面:好,功能:好
  • 微软副驾驶:界面:足够,功能:失败
  • 我助教AI:界面:足够,功能:失败
  • 我代码羊驼:彻底的失败
  • Google Gemini Advanced:界面:好,功能:失败
  • ChatGPT 4:界面:好,功能:好
  • ChatGPT 3.5:界面:好,功能:好

2. 重写字符串函数

这个测试修复了一个检查美元和美分的验证函数。

我原来的代码是错误的,只允许整数美元,不允许美分。我是在用户提交bug报告时发现的。我最初将不正确的代码提供给ChatGPT,它很好地重写了函数,允许美元金额和小数点右边的两位数字。

困惑也通过了这个测试。

它生成的代码本来可以更紧凑,但它成功了。在用户提供的字符串只包含零的情况下,Perplexity的实现删除了所有内容。为了补偿,Perplexity首先检查是否为零。

这种方法是可行的,但是可以编写生成的正则表达式Perplexity来解释这种变化。这是一种简单的实现选择,许多合格的程序员会选择其中的任何一种,所以Perplexity的方法是可以接受的。

Perplexity的代码正确地测试了提交的数据,以确保它与美元和美分的格式匹配。然后代码将字符串转换为数字。它还检查所解析的数字是否有效且非负。

总的来说,Perplexity产生了可靠的代码。以下是本次测试和之前测试的汇总结果:

  • 困惑:成功
  • 十四行诗:失败的
  • ChatGPT GPT-4o:成功
  • 微软副驾驶:失败的
  • 我助教AI:失败的
  • 我代码羊驼:成功
  • Google Gemini Advanced:失败的
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

3. 寻找恼人的bug

我的代码中的一个错误使我感到困惑,所以我转向ChatGPT寻求帮助。事实证明,问题的根源在直觉上并不明显,这就是我错过它的原因。

传递错误参数需要了解WordPress框架的功能。我没有发现这个错误,因为PHP似乎暗示问题出在代码的一部分,而实际上,问题在于代码如何通过特定于wordpress的操作进行转换。

Perplexity发现了问题并正确诊断了修复方法。

以下是本次测试和之前测试的汇总结果:

  • 困惑:成功
  • 十四行诗:成功
  • ChatGPT GPT-4o:成功
  • 微软副驾驶:失败的
  • 我助教AI:成功
  • 我代码羊驼:失败的
  • Google Gemini Advanced:失败的
  • ChatGPT 4:成功
  • ChatGPT 3.5:成功

4. 写一个s图书馆的

最后的测试分析了人工智能知识库的广泛性。测试要求生成的代码需要了解Chrome文档对象模型、Applescript和一个名为Keyboard Maestro的第三方Mac脚本工具。

Perplexity似乎并不知道Keyboard Maestro,因此它没有编写对脚本语言的必要调用来检索变量的值。

Perplexity也犯了与Claude 3.5 Sonnet相同的错误,生成了一行Applescript代码,在运行时会导致语法错误消息。这个错误表明缺乏Applescript忽略大小写的知识,以及在比较两个值时考虑字符串的大小写。

以下是本次测试和之前测试的汇总结果:

  • 困惑:失败
  • 十四行诗:失败的
  • ChatGPT GPT-4o:成功但有所保留
  • 微软副驾驶:失败的
  • 我助教AI:失败的
  • 我代码羊驼:失败的
  • Google Gemini Advanced:成功
  • ChatGPT 4:成功
  • ChatGPT 3.5:失败的

整体结果

以下是四项测试的总体结果:

  • 困惑:3 / 4的人成功了
  • 十四行诗:四个人中有一个成功了
  • ChatGPT GPT-4o:4个中有4个成功了但是需要注意的是
  • 微软副驾驶:4人中0人成功
  • 我助教AI:四个人中有一个成功了
  • 我代码羊驼:四个人中有一个成功了
  • Google Gemini Advanced:四个人中有一个成功了
  • ChatGPT 4:4个中有4个成功了
  • ChatGPT 3.5:4个人中有3个人成功了

总的来说,Perplexity表现不错。我认为人工智能可能会在第四次测试中失败,因为ChatGPT 3.5确实失败了,而Perplexity的免费版本使用的是GPT-3.5模型。

我对这些结果感到惊讶,因为微软的Copilot也应该使用OpenAI的人工智能引擎,但Copilot几乎在所有方面都失败了。Perplexity反映了GPT-3.5的结果,这是有道理的,因为免费版本使用了GPT-3.5。

如果你想看看Perplexity Pro的表现,请告诉我。如果我收到了足够多的请求,我便会注册“Yet Another Monthly Fee”并进行一些测试。

你试过Perplexity的免费版还是专业版吗?请在下面的评论中告诉我们。

你可以在社交媒体上关注我每天的项目更新。一定要订阅我的每周更新时事通讯,并在Twitter/X @DavidGewirtz, Facebook Facebook.com/DavidGewirtz, Instagram Instagram.com/DavidGewirtz和YouTube YouTube.com/DavidGewirtzTV上关注我。

声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知,立即做删除处理。
违法不良信息举报邮箱:
粤ICP备15111988号