claude 文爱别称高中生创建AI测试网站，能和模子在《我的天下》进行确立比赛

发布日期：2025-03-25 05:43 点击次数：197

跟着传统的 AI 基准测试被讲明注解存在不及之处claude 文爱，AI 开采者们正在转向更具创意的门径来评估生成式 AI 模子的才能。对于 12 年齿的阿迪·辛格（Adi Singh）来说，这个门径是《》（Minecraft），一款微软旗下的沙盒确立游戏。

Minecraft Benchmark（下称“MC-Bench”）网站是辛格和他东说念主合营开采的，成见是让 AI 模子在挑战中相互竞争，应答指示的模式则是径直用《我的天下》完成创作。用户不错投票选出哪个模子作念得更好，只好在投票后才能看到每个《我的天下》作品齐是由哪个 AI 完成的。

《我的天下》的价值并不在于游戏自身，而在于东说念主们对它的熟练经由。毕竟，它是有史以来最畅销的电子游戏之一。

情色综合网

辛格示意，《我的天下》让东说念主们能更粗野地看到 AI 发展的进展。东说念主们熟练《我的天下》，也习尚了它的画面立场和举座氛围。

MC-Bench 网站受骗今列出了几位孝顺者。确认 MC-Bench 网站的信息，Anthropic、、OpenAI 和阿里巴巴已资助该技俩使用它们的产物来启动基准测试指示，但这些公司并未以其他模式参与该技俩。

辛格示意，当今他仅仅在进行一些简便的构建，以反想 AI 界限从 GPT-3 时间以来所取得的跨越，但他翌日可能会筹议膨胀到更始终的技俩，以偏执他以成见为导向的任务。其示意，游戏可能仅仅一种测试代理推理的前言，它比实践糊口更安全，也更容易适度以用于测试成见。

其他游戏比如《精灵宝可梦红》《街头霸王》和《你画我猜》也被用作 AI 的实验基准，这在一定经由上是因为对 AI 进行基准测试这门“艺术”向来极为毒手。

商议东说念主员每每在要领化评估中对 AI 模子进行测试，但好多此类测试会让 AI 具有自然上风。由于西宾模式的原因，这些模子天生擅所长分某些特定界限的困难，尤其是那些需要死记硬背或简便推理的问题。

简而言之，咱们看到 OpenAI 的 GPT-4 不错在法学院入学历练中取得 88% 的收获，但却无法准确说出“strawberry”这个词中有若干个“r”。Anthropic 的 Claude 3.7 Sonnet 在要领化软件工程基准测试中的分数为 62.3%，但它在玩《宝可梦》游戏时的发扬却比大广漠五岁儿童还要差。

从时期上讲，MC-Bench 是一个编程基准测试，因为模子被条目编写代码（完成构建）来恢复指示，举例创造“雪东说念主 Frosty”或“原始沙滩上迷东说念主的热带海滩小屋”。

但对于大广漠 MC-Bench 评判者来说，评估一个雪东说念主看起来是否更好，比久了商议代码要容易得多，这使得该技俩具有更粗鄙的劝诱力，并因此有可能得到更多对于哪些模子握续得分更高的数据。

诚然，这些分数是否对 AI 的实用性有要紧影响还有待商榷。不外，辛格笃信这是一个浓烈的信号。

其告诉媒体，当今 MC-Bench 的测试效果名次榜颠倒接近于他我方使用这些模子的警告，这与好多纯文本基准测试是不同的，因此也许 MC Bench 对于关连公司是有效的，不错匡助这些公司了解我方是否正执政着正确的方上前进。

参考费力：

https://mcbench.ai/

https://x.com/_mcbench

https://github.com/mc-bench

运营/排版：何晨龙

claude 文爱别称高中生创建AI测试网站，能和模子在《我的天下》进行确立比赛

热点资讯

相关资讯

claude 文爱 别称高中生创建AI测试网站，能和模子在《我的天下》进行确立比赛

热点资讯

相关资讯

claude 文爱别称高中生创建AI测试网站，能和模子在《我的天下》进行确立比赛