悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

2024-06-20 阅读 40 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

让GPT编写海量程序

Ryan挑战的测试集名为ARC-AGI，题目带有色块的网格阵列，大模型需要观察每道题目中3个输入/输出示例，然后根据规律填充新的空白网格。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

当然，实际测试中的问题，会比上面的例子复杂得多。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

首先，Ryan根据网格大小是否发生变化，把测试集中的问题细分成了两类。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

对于每个问题，Ryan都会把网格以图像和ASCII字符两种方式输入给GPT-4o。

其中，ASCII字符包括以下内容：

每个位置的颜色和坐标

每种颜色出现的所有位置坐标，并按连通分量分组

将连通分量（形状）按其左上角位置归一化到原点后的表示

输入输出网格之间不同颜色的变化及其位置

对于后面需要修正的程序，还会把实际输出与期望输出的的差异（ASCII字符形式）一并输入给模型。

根据前面不同的分类，Ryan会用不同的少样本提示词指示GPT-4o，提示词中包含这三项指令：

分步推理和解释每个例子中的转换规则

思考如何将推理得到的规则实现为代码

实际编写对应的Python代码

对每个问题，Ryan会从GPT-4o的回答中采样约5000个完成结果，对程序进行筛选与修正。

采样得到的完成结果首先会被转化为Python程序并在测试用例上运行，然后选出在所有例子上都正确的程序。

接着，在剩余的程序中，Ryan设计了一个汉明距离度量方式，并据此从中选出最有希望的12个。

对这12个程序，Ryan会让GPT-4o尝试修正其中的错误，首先用少样本提示词要求模型获取实际输出与期望输出差异，然后对每个待修正的程序再采样约3000个完成结果。

最后，Ryan会选择经过筛选和修正后能正确解决所有例子的3个程序，如果符合要求的程序少于3个，则会使用一些启发式规则选出剩余的程序。

实际操作中，Ryan使用了多个不同的少样本提示词分别进行了上述过程，获得了多组候选程序，并在所有组的正确程序中进行多数投票，选出出现频率最高的3个作为最终结果。

此外，Ryan还使用了一些额外的策略，比如在训练集和测试集的不相交子集上进行迭代优化，通过局部搜索等方法寻找更好的提示词等

同时，他还引入了一些额外的规则，比如拒绝输出与输入完全相同的解，从而更好地筛选出有用的程序。

最终，Ryan的方法在ARC-AGI公开测试集上达到了50%的准确率，成为了新的SOTA，此前的SOTA为34%，而在训练集（难度低于测试集）的一个子集上，该方法达到了72%的准确率。

不过Ryan同时指出，GPT-4o的视觉能力依然有待提高，同时还存在编程、长上下文和指令遵循能力不足，以及缓存空间不够等问题，如果这些问题能够被解决，将显著提高Ryan所用方法的效果。

那么，ARC Prize究竟是一项怎样的挑战？

85%准确率可瓜分360万奖金

这项ARC Prize，由零代码SaaS平台Zapier联创Mike Knoop和谷歌资深工程师François Chollet发起并出资。

项目顾问则包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross，以及瑞士企业家Pascal Kaufmann。

官方指出，现有的大多数AI基准测试都在衡量模型的“技能”，但“技能”并不等于“智力”，并表示“智力”指的是有效获取新技能的能力。他们认为，“智力”型的任务对人类很简单，但对于AI来说很难实现。

为此，活动方选择了一套测试数据集，也就是Ryan挑战的ARC-AGI，旨在评判大模型的“智力”，或者说“AGI能力”，并激发人们对于新算法和架构的探索，而不是单纯增加数据规模。

该数据集出现的时间是在2019年，去年有300个团队进行了尝试，今年的挑战则于6月11日开启。

按照规则，参赛者需要在这个数据集上取得更高的准确率，同时提交者必须将自己编写的代码完全开源，使用的第三方工具也至少要有允许共享的开源许可。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

在Ryan之前，已经提交的方案中最高的准确率为34%，而官方设置的“成功”标准，也是他们预估的人类水平，为85%。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

大赛一共设置了110万美元的奖金，目前已公布标准的奖项共计60万美元，还有50万美元的评奖方式等待官宣。

在已公布的60万美元中，有50万美元（约360万人民币）的大奖，获奖队伍不超过五个，奖给最先在ARC-AGI上达到85%准确率的团队。

还有高分奖五名，将获得5000-25000美元不等的奖励，共计5万美元。

此外还有一项论文奖，会颁发给能够帮助人们了解如何在ARC-AGI上实现更好表现的团队，冠亚军奖分别获得45000和5000美元。

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

按照官方赛程，提交的截止日期为11月10日，获奖名单则会在12月3日公布，对这项挑战感兴趣的话，不妨试一试。

参考链接：

[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt

[2]https://arcprize.org/

[3]https://x.com/liron/status/1800643034263990432

文章来自于微信公众号 “量子位”，作者 “克雷西”

Hinton官宣加盟AI初创公司：用AI探索新材料，机器学习大牛担任联创

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

让GPT编写海量程序

85%准确率可瓜分360万奖金

Hinton官宣加盟AI初创公司：用AI探索新材料，机器学习大牛担任联创

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

悬赏800万的超难测试集，被GPT-4o实现新SOTA，准确率已达50%

让GPT编写海量程序

85%准确率可瓜分360万奖金

Hinton官宣加盟AI初创公司：用AI探索新材料，机器学习大牛担任联创

340B险胜70B，Kimi机器人贴脸“嘲讽”英伟达新开源模型

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿