4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

2024-07-05 阅读 62 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

热门

AI奥林匹克数学大奖的最终结果，终于公布了！

今天，数学大神陶哲轩的一篇帖子引起了大家的关注。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

他表示，Kaggle上的第一届AI数学奥林匹克竞赛中，第一名模型居然在全部50道题中答对了29道，有点出乎意料。

陶哲轩所说的，是Kaggle社区中一个从4月开始的挑战赛，奖金池有1000万美元，旨在推动提高AI模型的数学推理能力。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

比赛地址：https://www.kaggle.com/competitions/ai-mathematical-olympiad-prize/overview

总的来看，这次比赛共有5个团队胜出，第一名是Numina，第二名是CMU_MATH，第三名是after exams，第四名是codeinter，第五名是Conor #2。

这些团队成员至多有5人，最少有1人。

值得一提的是，仅凭借1人拿下比赛第二名的华人学者，竟是来自CMU博士。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

虽然有GSM8K等流行的基准测试，但不可避免的数据泄露问题会影响评估的准确性。

AI参赛破纪录，50题做对29道

而这次挑战赛采取了Kaggle一贯的私有测试集模式。主办方共准备了110道题，包括训练集10道、公共测试集50道以及私有测试集50道。

这些题目涵盖了简单算术、代数、集合推理等多方面的题目，难度略高于AMC 12（美国数学竞赛），略低于AIME（美国数学邀请赛），需要使用高中水平的数学知识。

你可能觉得美国高中的数学题应该不难，但竞赛官网上有这样一句话，「AIME旨在挑战聪明的学生，以选择代表美国参加IMO（国际数学奥赛）的学生。」

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

比如训练集中的这样一道题：

在三位数111至999中，每个数字都被染成蓝色或黄色，使得任意两个（不一定不同）黄色数字的和等于一个蓝色数字。最多可能有多少个黄色数字？

答案是250（取模1000后的结果），不知道你觉得难度如何。

主办方出完题之后，也把题目拿给Gemma 7B做了基准测试，正确率只有3/50。

而排名第一的Numina，居然能达到29/50的正确率，已经逼近AMC 12晋级AIME所需要的正确率。

成绩公布后，Numina项目的众多参与者也高兴得纷纷发推庆祝。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

但遗憾的是，他们口中的Numina Math 7B模型尚未发布。从推文信息来看，模型并非从头搭建，而是微调了开源的LLM从而提升数学推理能力，并将在未来公开一系列信息——包括模型、数据集以及构建方法！

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

获奖团队成员介绍

从总排行榜中，我们可以看到，拿到排行榜第一名的团队一共有4人，分别来自不同的机构。

Jia Li

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

Jia Li目前是一家初创公司Numina的联合创始人，这次参与比赛的模型便是基于此微调而来的。

Lewis Tunstall

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

Lewis Tunstall是Hugging Face的一名机器学习研究员，目前专注于研究人类反馈进行强化学习（RLHF）的工具和方法。

Edward Beeching

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

Edward Beeching本人也来自Hugging Face，研究重点是RLHF、嵌入式学习和LLM工具的使用。在此之前，他曾是INSA Lyon/INRIA的博士生。作为INRIA CHROMA团队的一员，还曾研究了基于结构化记忆的深度强化学习方法，用于规划和导航。

Edward曾获得物理学学士学位，并在地球物理学领域的图像处理和信号处理方面，拥有6年的行业经验。之后又获得了机器学习和数据挖掘硕士学位。

斩获一等奖的最后一位成员是Hélène Evain。

值得一提的是，第二名获得者是CMU博士Zhiqing Sun（孙之清）。在这场比赛中，他训出的AI答对了22道题目。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

孙之清目前是CMU LTI即将毕业的博士生，导师是Yiming Yang教授。他曾在北大学获得了计算机科学学士学位。

他的个人研究曾获得了谷歌自然语言处理博士奖学金（2023年），以及OpenAI Superalignment Fast Grants（2024年）的奖励。

孙之清本人对机器学习和人工智能领的研究感兴趣，并且最近的研究主要集中在基础模型的可扩展对齐上。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

百万大奖

关于这次参赛整体情况，共有1401个参与者，参与的团队有1161个，最终提交模型结果有1831份。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

这次大赛将最终根据排名，分别给出不同的奖励：

进步奖（Progress Prize）：$1,048,576

排名前列的团队将获得以下奖金：

第一名：$131,072

第二名：$65,536

第三名：$32,768

第四名：$16,384

第五名：$8,192

如果前五名中的任一团队在公开和私有测试集上的得分都未能超过Gemma 7B的3/50基准，奖金将减少到原来的四分之一，具体数额如下：

第一名：$32,768

第二名：$16,384

第三名：$8,192

第四名：$4,096

第五名：$2,048

综合进步奖（Overall Progress Prize）：将授予在公开及私有测试集上至少获得47/50分的最高排名团队。在为排名前五的团队颁发奖金后，总奖金的剩余部分将颁发给综合进步奖获得者。

如果本次比赛产生了获胜者，其奖金不低于$794,624。如果没有团队获得该奖，剩余的奖金将转入下一届比赛，采用相同的奖金分配方式。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

另外，这次AI｜MO大赛的顾问委员会包括两位菲尔兹奖得主陶哲轩（Terence Tao）和Timothy Gowers，还有Dan Roberts、Geoff Smith和Po-Shen Loh。

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

文章来源于“新智元”，作者“新智元”

AI生成引领设计软件“范式革新”，AI设计工具Motiff妙多亮相世界人工智能大会

关联网址

关联标签

#AI #AI模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

AI生成引领设计软件“范式革新”，AI设计工具Motiff妙多亮相世界人工智能大会

英伟达已成大模型行业的“苹果”，无问芯穹要做一种更兼容的“安卓”

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3661 用户在看

AI写作网站自动的生成文章可以用吗？

261 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

184 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

155 用户在看

4人团队斩获首届AI奥数竞赛百万大奖！AI破解29题陶哲轩惊呆，CMU华人博士荣登第二

AI生成引领设计软件“范式革新”，AI设计工具Motiff妙多亮相世界人工智能大会

英伟达已成大模型行业的“苹果”，无问芯穹要做一种更兼容的“安卓”

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿