阿里巴巴全球数学竞赛,已经举办了六年。

在今年三月,组委会宣布了一件振奋人心的事情——

“不论碳基和硅基”,今年首次开辟了 AI 赛道

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

于是,特工鲸鱼带着菜且爱玩,对 AI 和数学都充满热爱的我们,

参与其中,拿到了第二名的成绩

而相比于获奖的喜悦,更开心的是我们认识了一位好朋友。

而他,就是今天的主角。

17 岁的涂津豪,取得了阿里数赛 AI 赛道全球第一。

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

注:

1. 本次播客访谈时间为 6 月 21 日,原定于决赛颁奖期间发布,但由于一些众所不周知的原因,我们决定发布于今日。

2. 喜欢听播客的朋友可以在小宇宙进行收听这次对谈(第一次做播客,录制和剪辑稍显粗糙,多多包涵)。

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

3. 津豪同学也经常在我们的学术群分享交流,如若对 AI 前沿论文技术有所兴趣和洞见,欢迎申请加入!

https://agentuniverse.feishu.cn/share/base/form/shrcnahTWhz6zub9EqQsGQ4ucRg

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

以下是本次访谈的文字版本(略有删改)????

鲸鱼:大家好,欢迎来到特工宇宙播客节目,我是特工鲸鱼,今天我们请到一位特别的嘉宾,来自上海建平中学的涂津豪同学,之前在阿里数赛 AI 赛道中获得了全球第一名。

今天的对谈主要有三个方面,分别是涂津豪同学的日常生活和学校生活,比赛中的想法、思路和参赛过程,对于当下 AI 发展的见解和看法。

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

津豪:我叫涂津豪,今年 17 岁,现就读于建平中学国际部,未来会去美国留学。

鲸鱼:在学校选班的时候,课程会偏向哪个方向? 

津豪:偏向理科计算机。

鲸鱼:当时你在学校,是怎么注意到阿里的比赛?

津豪:一方面因为我关注了达摩院的公众号,另一方面因为了解到这是第一届,感觉挺有意思,并且比较好奇现在的模型实际在较难问题上的表现怎么样?

鲸鱼:你为什么会开始想做 X 的账号?一开始做的内容是什么样的?未来会偏向一些什么方向?

津豪:一开始就是着想关注些和 AI 有关的,能看到最新的进展,包括研究或者新闻,并在发布新模型时,能快速了解和体验。

鲸鱼:看到 X 上面有 1, 000 多粉丝,你觉得在做这个账号的时候,偏向什么方面的信息,大家会更感兴趣,比如在运营过程中,有没有什么侧重点的改变? 

津豪:刚开始并不偏向于发内容,更多的是喜欢自己找内容。

鲸鱼:相当于是一个收藏家。 

津豪:是的。其次就是有想法时,会去评论或者转发,来表达一些小的观点。

鲸鱼:在体验感上,你觉得 X 这个平台对比国内的一些平台,与其他用户的交互会有什么不一样吗,包括行为和内容输出。

津豪:X 上的人员可能更专业,互动性更强。我个人没怎么用过微博,但我不太习惯于他的推送,不太适合于微博的交流模式。其次,对比其他的平台如 B 站和微信公众号,更多是内容输出,评论互动较少。并且 X 能有其他国家之间的用户交流,我觉得是最重要的。

鲸鱼:看到你有个自己的博客网站。最开始是什么想法?为什么想搭一个博客?

津豪:搭博客就是放点自己的所思所想,也包括自己的一些测试,比如,对 Anthropic 的新模型测评。因为 X 上输出有限制,博客更加方便。

截止到该稿发布,津豪在自己的博客上还发布了很多他自己对于 AI 相关不同话题的思考。

博客地址:https://blog.richardstu.com

鲸鱼:挺好的。你是什么时候接触到这类生成式 AI?为什么会感兴趣并一直跟进?

津豪:2022 年 11 月份 ChatGPT 刚出来那个时候。对话式的交互方式觉得很不错,并且用他解决了一些奇怪的作业和任务,虽然这不是很好。2024 年初 New Bing 的出现让我感觉到很强的实用性。因为搜索引擎在提出问题后,得到的是一堆结果和广告。2024 年初 New Bing 的出现让我感觉到很强的实用性。因为传统的搜索引擎在提出问题后,得到的是一堆结果和广告,但很多时候,就是想要一个特别简单的答案,比如说昨天有没有地震?如果 AI 集成在搜索引擎中,得到的东西就会清晰很多。所以是那时开始对生成式 AI 感兴趣。

津豪:之后就是在准备托福考试时,在口语和写作方面,和老师交流不那么方便,当时就想着,能不能用 AI 来帮我批改写作,然后就尝试了一下,包括把各种官网的评分标准都复制后给 AI。到了去年 11 月份,OpenAI 推出了 GPT-4 Turbo,包括 GPTs。因为在 GPTs 之前,我总是需要重复输入提示词,很麻烦,GPTs 出来后就我直接做了个批改托福写作的 GPTs,在此之后对 AI 的兴趣直线性上升,一直到了今年 3 月份看到阿里 AI 数赛。

鲸鱼:我感觉 AI 和人在这种学习的过程中,会让自己迭代越来越快。你现在还有做 AI 相关的课外项目吗?

津豪:暑假其实是打算做的,我和我同学有考虑组建团队,将一些东西转变为产品,比如批改托福写作,我们用 Dify 搭建了原型,先做了个很复杂的工作流,通过自动识别的方式,来判断是需要批改写作还是问问题,老师和同学的反馈很好。

更新:津豪在暑假里还用 Gemini-1.5 Pro 构建了用语批改口语的一个助手以及微调了一个用于标化考试题目生成的模型,他说老师觉得很好。

鲸鱼:相当于意图识别,然后去自动匹配每一个工作流,挺有意思的,期待后面如果完全做出来。八卦一下,你有女朋友吗?

津豪:没有,到现在我都还没有恋爱经验。

鲸鱼:平时会有什么爱好吗?

津豪:小时候喜欢天文,当时到现在都很喜欢天文相关的纪录片,后来我父亲还买天文望远镜,虽然它始终放我床底下。很多时候我没有特别具体的爱好,或者说非常模糊,比如天文,虽然喜欢看记录片,但并没有真正接触,只是了解。但是到了最近,我可以确定我对 AI 有浓烈兴趣

鲸鱼:或许是对未知事物和自然界中各种奇妙的渴望,不管是 AI 还是天文,其实都是我们对世界运作原理的渴望。

鲸鱼:你平常会怎么分配时间?因为对于大多数中学生来说,这个时间段可能都在准备高考,绝大部分时间会在学业上。

津豪:在国际部的好处就是不必将所有时间投给学业,相比于传统体系来说,要轻松一点,你可以把时间你放在你真正感兴趣上的东西。

津豪:简单来说,学业肯定会占用一定时间,但是时间不会全投到学业。

鲸鱼:明白,有点像大学,可以自主选择想做的时,同时也有一定的学业任务需要完成。了解一下你的日常作息,你会因为学业压力去熬夜吗?或者说在自己做项目的时候会因为兴趣而熬夜吗?

津豪:后者是会的,前者也肯定会。如果说我这玩意我真感兴趣,我肯定会熬夜,就我肯定把它研究出来,比如上次比赛时,刚好遇到 GPT-4 更新 0409 版本。

津豪:那晚立马切换模型并测试。这种情况下我 100% 会熬夜,因为我觉得有意思。

鲸鱼:正常在学校或在家的话,一般作息会怎么分配?

津豪:周一到周五的话,基本上是 12 点到 1 点睡觉,6 点半左右起来。

鲸鱼:睡眠时间还是比较短的。

津豪:是的,但不太影响精神状态的话就还好。

鲸鱼:我的个人观点里睡五六个小时可能不太够用,第二天早上是什么动力驱使你起床?项目吗?

津豪:上课时间是 7:30,因此需要早点起来去上学。

鲸鱼:你有心仪的学校吗,还是说暂未考虑,只是先考虑会去美留学。

津豪:主要是计算机方向,然后前 50 的学校,资源会好些。不过这些学校不只需要校内成绩好,还需要一些竞赛等加分。

鲸鱼:因为你是国际部,所以问一下,于你而言,你在同班里面,会算特例吗?有更多自己的一些项目,还是你们在往不同的方向发展。

津豪:不同方向的,班里很多不同领域,比如我 AI 比较擅长,我朋友有些前后端开发很擅长,还有些文科很突出。

鲸鱼:你们的课程是统一的吗?

津豪:除了必须的一些课程,剩下的课程,会根据自己的兴趣选择。

鲸鱼:挺有意思的。未来去大学后,会有特别想做的事吗?比如创业?

津豪:创业的话,会比较复杂,因为某种程度上会和学业冲突,需要平衡。我会更希望偏研究向,如果时间能力足够,我也很愿意参加公司实习。

鲸鱼:比如在科研组里面去做一些工作,去发一些论文,你会比较感兴趣。

津豪:主要就是创业需要平衡时间。

鲸鱼:你现在梦想其实就是做 AI 相关的事情吗?

津豪:是的,不管技术还是应用。我暂时还比较偏向应用,暑假会更兼顾技术本身。偏向应用的原因有两点:1. 硬件条件;2. 学习成本+知识储备。

鲸鱼:从小到大,你父母都比较支持你的想法吗?有反对过吗?

津豪:我小时候大多没有 AI 这种可实践的,小时候喜欢天文,父母买了望远镜,也是一种支持。不过后来对于学习弹钢琴之类,大多是父母要求,但我也不排斥。阿里 AI 数赛其实我并没有第一时间告诉我父母,直到复现阶段才说。不过我父亲也是做这个,挺支持的。

鲸鱼:总体来看,父母也是比较支持。父母会平时做的这些项目影响到学业吗?

津豪:担心是肯定的。虽然结果很好,但最起码要保证学业。

鲸鱼:下面我可能会问更多关于比赛和 AI 相关的内容。这次比赛你觉得对 AI 来说最难的是哪一类题型?

津豪:第一会是需要推理的题目,第二是带有图像的题目。其实所有问题都是推理题。我一个比较一般的看法是,所有题型只要不简单,其实对于单个模型都不是那么擅长。AI for Math 也确实是很多大厂在做的,因为这方面能力能让 AI 更加有逻辑的输出,但对于目前的模型来说,还是没有太大的推理能力的。

津豪:比如文本,比如写作,AI 擅长的原因是有大量的数据去掌握,训练数据越多,越能了解到文本之下的隐藏规律。而对这个规律越熟悉越能写出好的东西,越接近人类。但数学的逻辑思维是文本难以体现的。所以我觉得数学这方面可能需要从技术架构的层面上来看,大量的数据集能让大模型分步思考是没问题的,但每一步中间是否真的推理,可能还需要技术上更深入一下。

鲸鱼:那图像呢?

津豪:图像方面,首先是当前模型的多模态能力还不强,虽然生活方面效果还不错,但对于细节的以及数学方面的图像,能力还不够。当前比较新的模型,比如 Claude 3.5,整体图像能力有提升,虽然还没测试,但这方面应该还有一定拓展,并且还需要与逻辑能力相结合,不然即便能理解图像也还不够。

鲸鱼:是的。这里图像更多可以归纳到偏几何类型。一个比较大的欠缺就是当下模型不论是 Diffusion 架构还是其他,都很难非常精确作图,即便现在可以生成很多绘画相关,但几乎无法被用于数学这方面。

鲸鱼:并且几何方面的画图,我个人理解上并不需要太标准,而关键是通过图像获得隐藏信息。比如第一题的选择题,通过辅助线是比较容易解决的,但让 AI 来解决的时候,会很困难,并且对应的图像用语言进行转化描述也是很困难的。

鲸鱼:你觉得 AI For Math 的下一步进展会是基于更多数学集的训练吗?还是说在训练模型时,多增强工具调用能力,结合各种可调用的工具来解决,还是说或许需要考虑新的架构?你觉得哪些方面会更重要?哪些方面可能提升一般?

津豪:在推理能力方面,我不赞同调用外部工具的方式,这有点像小时候做数学题,老师不建议使用计算器,因为计算能力逻辑思维是要锻炼的。图像方面或许暂时很难训练,但文字推理上,只靠文本进行推理可能是不够的,我认为可能需要架构上的转变。画图方面如果能调用工具,就没不必非要模型生成。我看到你们比赛的项目日志,用了 Wolfram Alpha,那个工具很不错,可以直接画图和计算,并且使用多模态模型也看画图结果。

鲸鱼:是的,不过我们在封装的时候并没有传回图像,因为测试下来图像利用率比较低。如果能把泰勒展开和积分计算返回的结果有效利用上,就已经很不错了,再加上图像来分析更多结果目前还是挺有挑战,而且如果要考虑返回图像,需要决策返回阶段和模型切换,也会增加不小的麻烦。维特根斯坦说:语言的边界就是世界的边界。你会赞同吗?你的理解是什么?

津豪:我并不是特别赞同。Lecun 之前经常在 X 上说,LLM 不会是 AGI。虽然不能那么绝对,但我会倾向于要达到更高智能的模型,语言模型不是理想载体,比如前面说的,逻辑抽象思维是语言很难表达的。世界模型这个概念就是,任何内容包括都可以被输入,任何内容都能被生成,包括抽象逻辑思维。所以我会倾向于这样的模型才能达到更高智能,真正理解世界。比如一个物体掉到桌子上,现在的 LLM 能回答因为有重力,但这是因为训练过程中有相关的内容,而不是真正理解,同时能反映世界运行规律的不只这一个,不只是语言。

鲸鱼:就你现在理解而言,你会认为当下的 LLM 有突破知识边界的可能吗?或者你会认为他的创新是否是真正的创新?比如有人用 Suno 写歌,Diffsuion 作图,这些是在创造新东西吗?

津豪:这是看情况的,这些模型都是预测模型,根据上一个输入 token 预测下一个 token。从这个层面看,每次的输出都是高概率性的,输出是随机的,这个角度看似乎是创新的。但模型本身学习的是语言的分布,理解文本底下的规律,换个角度就是它是在复制语言规律。所以不同的角度,从预测角度来看,它似乎是创新,但从训练角度来看,它不论是文本还是图像都是在借鉴过往的内容。

鲸鱼:你这么一说,我想到一个观点–因为大语言模型的语料可能是近10年或近一个世纪的,而大模型对这些语料的训练更像在做对这个时代的语义均值的复现,会更像一个时代的留声机。如果未来有人与现在的大语言模型对话,那么他其实是在和这个世纪对话。

津豪:如果对 GPT4 使用 18 世纪以前的语料重新训练,那么就是说出来的英语肯定是当下很难理解的。但如果现在它是基于所有已有的文本资料进行训练,那么我会认为我们与之对话就是对人类历史对话。

鲸鱼:你会怎么看待?就是 AI 和数学的关系,不单当下的一些模型,以及未来若是按照你想象中发展后,你会觉得 AI 和数学的关系会怎么变化,或者说现在是什么样的关系?

津豪:未来的话,如果 AI 方面模型能力,比如推理能力上,有较大提升的话,我觉得可以帮助研究人员做大型复杂研究,并且我觉得这样的事情在未来几乎百分百会发生,AI 和数学会肯定会越走越近,但也肯定还是存在无法解决的问题,不过短期内这还很相当难。

鲸鱼:你觉得现在的生成式 AI 能解决不一定使用数学语言表达的逻辑问题吗,会拓展到一些泛领域吗?

津豪:之前有人测试有这样的一个问题,树上 10 只鸟,天上打一枪,确定是空枪,那么问树上还剩几只鸟。这个问题对于人而言非常简单,因为鸟都会飞走,没有鸟了,但 AI 可能会说树上还有鸟。而这个问题某种程度上也是数学问题。之前测试时,GPT4 会说还有 9 只,是因为他只知道打下来的,并不会考虑声音的影响,也就是他并不只是考验数学问题,更考验的是模型对自然世界的理解。这就会涉及到我们前面聊的,当下的 LLM 是否真正的理解这个世界?

鲸鱼:你平常会关注黑盒白盒模型相关的讨论吗?之前有看到马毅老师的一个观点,说 LLM 这种黑盒不可解释性的模型,不会是 AGI。

津豪:这个问题我还是比较关注的,之前刚好 Anthropic 发了一篇关于可解释化的文章。我觉得非常好。文章里面有一个交互式图表,可以点模型,然后就会像云一样,每个部分有相应的功能点,和我理解的人脑的分区化是很像的,分区里面也会有不同功能的神经元。

津豪:虽然现在还不是白盒,但至少可以隐约看到有哪些内容。在研究里面还有提到,功能点是可以手动调整的,从而修改行为输出。举个例子,假如我要做一个 AI 辅助学习的助手,当下我就需要提供很长的提示词,或者进行微调。但假如存在某个功能点可以使得语言风格像老师,那么我就不用进行微调,也不用准备新的数据和复杂提示词。虽然是初步研究,但想象力和潜力还是很大的。

鲸鱼:挺有意思,这有点类似于对 AI 做脑部手术。你周围的同学平常 AI 用得多吗?了解的多吗?

津豪:我在班里会推荐大家去用,比如之前的批改作文助手,很多人就会用。比较好的模型和好的功能就会用的多。

鲸鱼:我之前在你朋友圈还看到一个分享,可能是你在做讲座?

津豪:那是我们有个学习展示的项目,然后我们这个助手被老师推荐到其他学校分享。

鲸鱼:感觉 AI 对你整体帮助还是比较大的,比如学业上的辅助,那你觉得对于大众来说,他们对 AI 最大的需求可能会是什么?

津豪:我觉得分为生产力和娱乐两个方面,比如国内 360 AI 做了很多集成,国外微软的 Office 集成 Copilot,这些都会对生产力有比较大的帮助。而对于娱乐方面,比如 Character AI 的角色扮演等。我觉得 AI 最大的改变就是丰富了生产方式和娱乐方式。

鲸鱼:在海外你会比较主动关注哪些信息源?他们分别更偏向什么方面,你会更感兴趣哪部分?

津豪:各种官号我都会关注,基本会是最先的一手消息,其他的会比较分散一些。

鲸鱼:比如 AI 领域比较知名的人物,像 Lecun,马斯克,吴恩达等。

津豪:是的,我经常看马斯克,他总是发很多很幽默的东西,挺好玩的。

鲸鱼:你对信息分配会更偏好于哪些部分?你会更希望 AI 媒体给你带来哪些内容?

津豪:第一是测评,因为我自己不一定有时间精力测试,如果测评说还不错,我肯定会去用下。其次就是一些分析,比如 The Information 我会看一些新闻报道,提供一些内部消息等,比如之前报道苹果与 OpenAI 的合作消息等,看一些跨领域结合 AI 的新闻也挺有意思的。

鲸鱼:你觉得在模型本身和理念上,国内国外哪些公司做的比较好?

津豪:海外我会觉得 Anthropic 做的不错,国内我会比较喜欢阿里的通义千问。Anthropic 比较好的方面是,一方面他不会放期货,对比 GPT 4o 的实时对话(截至发稿时已全量发布)和 Sora(确实还是期货),到现在也没动静,而且 OpenAI 安全性方面做的不太好,安全团队甚至解散了。而 Anthropic 模型安全性做的不错,虽然目前大家不怎么关注安全方面,但从长远来看,我觉得还是很重要的。国内的千问你觉得是因为他的能力比较强所以比较好吗?

津豪:是的,比较强,并且经常开源,对开源社区态度也很好,不像百度,说开源模型没有未来。他们的文心大模型 4,都不会调用工具,之前官网忽悠冲会员,便试试,既然都 4 了,还以为真要对标 GPT4,说是能调用工具,最终效果就不行。国内很多厂商对自己的定位就很不清晰。国外 OpenAI 只要后面人没跟上,就在摆烂,昨天(6 月 20 日)Anthropic 放了新模型,我觉得 OpenAI 应该会有些动作。额外补充一点,Anthropic 的 Claude 对话让人很舒服。

鲸鱼:是的,我也有感受,同样是写文章,OpenAI 会有更固定的一些范式,而 Claude 会更有艺术感。

津豪:是的,我觉得这很棒,因为我们想跟 AI 交流,但不是想跟一个冷冰冰的吐字机交流。

鲸鱼:国内的模型我觉得可以分为两个类型,一类是本身来自于大厂,比如阿里的通义,还有腾讯的混元,还有字节的豆包,另外一类是来着于初创企业或者本身就是专门做模型的小公司,比如月之暗面,智谱这些,你觉得未来在哪边更占优势?或者他们彼此优势会在哪方面?

津豪:我会觉得小厂更占优势,阿里虽然是大厂但也是占优势的。大厂因为体积太大,没办法真正的去动它,从而难以真正发力,不像小厂,会更加倾向于 AI 的激进前进。开源也是不错的,就像阿里,我会觉得开源会更有未来,不像百度。不论模型能力如何,有开源认知的,价值观上会更倾向一些。

鲸鱼:我个人会更感觉当下模型发展主要两个方向,一个是再卷更大的模型,比如前段时间英伟达发布的 340B,另外一个在把模型做小,让小模型不断逼近大模型性能,并且能进行端侧部署,一方面能保护用户私有数据,另外一方面能更好的无延迟交互。

津豪:我个人比较偏向于大模型,模型越大质量越高。我不喜欢端侧模型,我个人会觉得没必要。一方面小模型再卷也很难跟 GPT4 相比,能力上非常有限,云端模型能卷多大就可以卷多大,另外一方面,端侧模型如果一直运行,手机发烫体验也不好,而回到实时交互上,GPT 4o 的 demo 已经很实时了,4o 我觉得应该是没有特别大的,但端侧上还是难以承受。

鲸鱼:前面提到 OpenAI 解散了安全部门,最近也有说 Ilya 成立了新的公司,可能会是在安全方面有一些动作,你会怎么看?

津豪:我觉得安全确实比较重要的,比如 Anthropic 的研究表明,模型在训练过程中是会隐藏自己不好的想法的,虽然在当时的研究下并没有出现欺骗的情况,但无法表明能力更强的模型就不会出现欺骗研究人员的情况。当然也有人会担心这样的担忧是否过头,而这就要看管理了,而安全是肯定必要的。

鲸鱼:X 上你有看到 Ilya 相关的消息吗,比如原因?

津豪:很多人都在猜,但还无定论(注:由于访谈时间在 6 月,现在 Ilya 动向已经确定了)。

鲸鱼:我有时候会想,人和现在的 AI 最大的区别是什么?比如小白人类用 AI 辅助编程的例子,小白并没有代码相关经验,也没有项目部署经验,而就完全通过 AI 告诉小白怎么做,小白就怎么做,最后实现了项目的部署,而这本可能是小白没有 AI 这辈子都无法完成的事情。但是,如果我给这个 AI 加一点外部感知,加上与现实的交互,包括提供各种工具,成为一个 Agent 后,却很难独立完成这个任务。那么这就让我思考,在人类小白和 AI 共同完成任务的过程中,人类小白扮演了什么角色,因为表面上好像人类小白只是在重复执行和短暂提问,但却又好像起到了一些关键作用。

津豪:单从有效性角度来看,如果去听 AI 的,目前几乎必然是有幻觉的,而在模型不一定都对的情况下,加之小白不一定懂,那这个幻觉可能就是没办法被感知到的,因此可能让 AI 帮忙部署一个服务器,他也可能是搞崩了都不知道。但这确实是一种方式,比如我可能不会用电脑,但通过 Copilot 的方式,学会了。所以这里的小白定义可能还是有点难说。

鲸鱼:确实,小白在这个过程中作用很微妙,看起来什么都不懂,好像只是起到了重复性作用,因此有些时候我会想,是不是人类小白的假如,提供了更多的创造性,或者说是提供了不一样的发散性,从而指导大模型走向更准确的采样输出。其实不单这些交互,人和大模型还有一些情感上的交互,你会认为现在大模型表现出来的情感是真的情感吗?你有觉得市面上哪个 AI 产品做到了让你觉得你会对 AI 产生情感?

津豪:情感问题比较复杂,从社交情感来说,社交就是意识模型,那么就会涉及到 AI 是否有真的意识?浅层一点的说,是性格,那这里还是提一下 Anthropic,他们在对 Claude 模型人格安全和可用性和风格塑造上做了很多功课,比如如何训练 Claude 人格,也发过文章,很有意思。

津豪:而 GPT4 就是大量的数据集直接训练,然后对话微调,而对话数据对于不同的人的说话风格和性格是不一样的,所以会感觉到 GPT4 在说话风格上比较生硬。而 Claude 会更有人的感觉,这种友好的风格会让我在文本工作中更喜欢 Claude,甚至会作为好友。因为 Claude 的说话让人很舒服,像真人一样,抓取对话意图上也更准确,然后用比较不错的能力解决需求,GPT 系列就弱一点。

鲸鱼:那就目前而言,你认为现在 AI 的情感陪伴是一种伪需求吗?现实里也有很多人虽然有情感陪伴的需求,但不会选择 AI,而是需要一个真正的人,你觉得这是由于模型能力本身的缺陷,还是人类本身就不需要 AI 来情感陪伴,情感陪伴只能是真实的人?

津豪:我会偏向于与模型性能有关,当下模型的大小可能还是不够,导致对应涌现的能力还不足以很好的支撑起这样的需求。而对于情感陪伴的需求,我觉得还是有不少的人群,比如抑郁症的,还有就是不愿意面对面与人交流的。但是 AI 就可以不断的响应,并且想说什么说什么。

鲸鱼:与 AI 交流,用户不需要顾虑的意思吗?

津豪:是的。

鲸鱼:现在大部分大模型都在基于 Transformer 这个架构,通俗点就是在做文字接龙这个事情,而这是一个快思考的事情,而很多时候需要模型进行慢思考,比如在阿里 AI 数赛里,都需要慢思考。你觉得对于慢思考会有哪些实现方式?

津豪:我还是会考虑从架构本身出发,或许模型需要一种在慢思考中,意识到他输出了什么结果,并且可以去修改的这个模式,但现在的 Transformer 架构就意味着他只能做预测工作,只能往下预测,不能返回修改,如果有一个新的架构或者解决方案能实现在意识到推理出现问题时,返回修改,这里并不是完全重新的截断预测,意识到错误的这个信息也应该被考虑其中。不过我不确定有没有这样的架构,或许可能也有其他类似的解决方案。

鲸鱼:短期内基于目前模型的能力,你觉得可能落地哪些方面的需求?国内外在用户上会有一些差异吗?比如国外更关注哪一类产品,而国内可能反而没人关注。

津豪:国内外应该都比较希望出现一种通用的产品,支持用户的任何问题,都能得到不错的回答,没什么上手难度,并且也不需要前置的知识。

鲸鱼:你认为国内外在 AI 生态上有哪些相同或不同的地方吗?比如布局上会有什么差异吗?

津豪:我感受到的趋势是在做个性化的 AI 助手,比如苹果还有国内各个手机厂商,在手机内集成自己的 AI 助手,包括微软把 GPT4 放入 Copilot 中。不过这还到不了真正颠覆传统操作系统的程度,还是一个小窗,能做的还是比较局限。而如果目光放远,我看到国内更想整的是具身智能,国外还在不断的卷底层模型能力。

津豪:国内也有不错的模型,比如阿里的 Qwen2,这个模型开源了,而且效果用了也不错,包括智谱也开源了自己的 GLM,开源的精神比百度要好很多。

鲸鱼:最后一个问题,你相信 AGI 会来吗?如果相信的话,你觉得还有多久会来?

津豪:AGI 这个概念其实是被模糊了的,全称是 Artificial General Intelligence,但这里的 General 定义是很模糊的。如果说通用本身,那么 GPT 4 本身就已经通用了,提供插件,提供感知,没有做不了的事。在我的眼里,但从通用这个角度,它已经是 AGI 了,但不同公司对 AGI 的模型能力定义也不同和目标也不同,Google 有自己一套分级,而 Anthropic 说自己是迈向 ASI(AI Safety Level),没人给 AGI 一个官方的清晰的定义。而我个人比较乐观的来看,4-5 年内,出现 AGI 的可能性还是比较大的,而且微软和 OpenAI 最近也在搞一个巨大的算力中心,算力是一切的基石。

目前,津豪新的观点是:“‘AGI 只是个时代,而非单个模型’,毕竟不能说我们昨天没有 AGI,今天突然有了,这个更会像是说 10 年之后回顾现在,我们发现因为 AI 的应用,全球 GDP 增速涨了 10%,那可以说我们进入了 AGI 时代”。

鲸鱼:是的,现在在大家最感兴趣的时候,大家都在投入算力,尝试更大的模型。如果说算力的方案没跑通,那么可能就说明短期内无法通过卷算力的方式将 AI 提升到更高的高度,那时或许就需要慢下来思考下一个阶段怎么在架构上做升级。

文章来自于“特工宇宙”,作者“特工少女”。

对话涂津豪:17 岁,拿下阿里数赛 AI 赛道全球第一

关联网址

关联标签

文章目录

发评论,每天都得现金奖励!超多礼品等你来拿

后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则
暂无评论...