马斯克的Grok API编程能力令人惊叹，远超业界期待！

Sentdex最新测评结果令人意外！

马斯克的Grok API 编程能力大超预期！

技术大牛Harrison Kinsley（@Sentdex）刚刚完成了对XAI的Grok-beta模型的基准测试，测试结果远超预期。

在修改过的内部Bigcodebench测试中，Grok-beta展现出了惊人的实力。这个基准测试包含了1140个编程提示，相当全面。

马斯克的Grok API 编程能力大超预期！

Sidney VanNess(@sidneyvanness) 对此评价：

这让我想起十多年前开始使用AWS服务的时候。当时有些服务看起来真的很贵，把业务建立在AWS平台上感觉风险很大。但我们赌的是他们的服务单位成本会比我们消耗的速度下降得更快。这个赌注总体来说是对的，现在看来历史可能会重演。

在定价方面，Grok-beta的收费为：

这比Sonnet 3.5（$3/$15）略贵，也比GPT4o（$2.5/$10）贵不少。整个基准测试的成本约为5美元。

但Harrison表示，尽管价格较高，他仍会选择使用Grok。原因很简单：Grok在即时审核和模型对齐方面都更加开放。相比之下，o1-mini在处理基准测试中的普通问题时，有10%的拒绝率。

Lil Gradient(@lil_gradient)关心性能问题：

API性能如何（每秒token数和首个token响应时间）？

Harrison回应说这些指标很难公平比较，因为不同服务商的性能会随负载变化而波动。

在与OctoDB的讨论中，Harrison补充说明：

在bigcodebench测试中GPT-4o确实比claude-3.5表现更好。但这个结论需要限定条件，因为深入的编程基准测试并不多。虽然Bigcode是目前最好的编程基准测试，但它并不能完全代表编程能力。

马斯克的Grok API 编程能力大超预期！

对于这些模型的定价争议，Harrison表示：「考虑到这些模型能带来的价值，当前的价格其实都很便宜。」

Sidney分享了一个真实案例：他最近在起草一份复杂领域的专利，通过使用这些模型，法律费用可能降低了90%，因为他可以在交给律师审核之前完成大部分工作。

这个测试结果不仅展示了Grok-beta的实力，也让我们看到了AI编程助手的快速进步。

Harrison最后说到：

「他们才刚刚开始。」