比GPT-4强20倍,获测试最高分
8月14日消息,AI生成式企业Cosine获得250万美元种子轮融资,本轮融资由UpHonest Capital和SOMA Capital领投,Lakestar、Focal等企业参投。
“Cosine不仅仅是在提供AI能力,他们还从根本上教AI如何学会推理,为公司提供了一个真正的AI同事。”领投方UpHonest Capital的合伙人Ellen Ma说。
Ben’s Bites的创始人Ben Tossell同样给出很高的评价,“我见过成千上万的AI初创公司,没有人能够像Cosine那样专注在人类推理。Genie证明了他们的愿景、战略和团队是正确的,让我们更接近于人工通用智能(AGI)。”
Cosine希望未来打算扩大Genie的模型组合,包括用于简单任务的小型模型和能够处理更复杂挑战的大型模型。
01 拿下最高得分,自主AI工程师Genie会15种编程语言
最近,Genie在SWE-Bench测试平台上拿到了30.08%最高分,断崖式领先其它工具。SWE-Bench是一个专门评估语言模型是否能够自动解决真实世界的GitHub问题的评估框架。这也意味着Genie在SWE-Bench编码基准测试中独立解决了30%的GitHub开源项目问题。
Genie的成绩已经超越了AWS的Amazon Q Developer和Cognition的Devin这样的竞争对手,它们在同一基准测试中的得分均低于20%。这个成绩比此前自主AI工程师Devin展现出的13.8%成绩更好,也是OpenAI的GPT4的表现(1.31%)的22倍。
图源:Cosine
为此,Cosine花了近一年的时间整理了一个来自真实工程师软件开发的数据集。
目前,Genie可以通过JavaScript、Python、Java、C++等15种语言编写程序。Genie生成的代码将存储在用户的GitHub存储库中,这意味着Cosine不会保留副本,也不会有任何相关的安全风险。
目前,Cosine的软件平台已经集成了Slack和系统通知,它可以像优秀的人类同事一样向用户提醒其状态、提出问题或标记问题,甚至还能对同事提出的问题做出回复。
技术报告链接:https://cosine.sh/blog/genie-technical-report
02 让AI来当同事,Cosine获OpenAI资源支持
目前,Cosine计划从两种方式对Genie早期定价。
第一种是Genie的定价约为20美元,但是会有一些功能和使用限制,并且仅为个人以及小型团队提供功能。
第二种则是Genie作为企业级产品,使用几乎不受限制,为企业提供完美的AI同事,定价更高。
Cosine希望Genie改变工程资源的分配方式,使团队能够专注于更具战略性的计划。“能够深入未知代码库并在比人类快几个数量级的时间内解决未知问题的人工智能同事的价值是不言而喻的,并且对世界具有巨大的影响。”Pullen提到。
图源:Cosine
“我们正在改变开发者的开放方式。我们研发Genie的时间和资金投入是其他同类产品的一小部分,但我们的产品能够在完成复杂软件任务方面击败OpenAI和其他公司。”Cosine的COO Yang Li说。
Cosine的CIO Sam Stenner也提到团队将正在打造的Genie视为自己的同事,而并非是助手。“我们已经明白如何利用生成可以编码人类推理的数据集,并用其训练大语言模型。”他说,“我们将和OpenAI微调团队合作,获得OpenAI长上下文窗口的权限。我们相信未来可以持续超越自己的最佳成果。”
目前,Genie已经向部分用户推出,但普通用户使用仍需要提交申请。(申请链接:https://cosine.sh/register)Cosine计划根据客户反馈定期更新Genie的功能。
“SWE-Bench的最新提交要求中提到要将AI 模型的完整工作流程披露,这可能对我们来说是一个挑战。目前我们对这些内部流程保密,但将会Genie的成果公开,放在GitHub上独立验证。”Pullen在其博客上提到。
03 软件工程只是Genie最直观的起点
Cosine创办于2022年,入选Y Combinator加速器。Cosine将自己定义为人类推理的实验室,专注于让大语言模型模仿人类软件工程师的行为,从而执行复杂的编码任务。
Cosine目标是打造真正有韧性的AI工程师,可以解决各个领域的难题。“我们一直在追逐一个梦想,那就是打造一个真正能够自动执行端到端编程任务且无需干预、可靠性极高的AI同事。Genie正是实现这一目标的第一步。”Pullen提到。
目前公司共有三位联合创始人,分别为首席执行官Alistair Pullen、首席信息官Sam Stenner以及首席运营官Yang Li。
从左到右依次为Alistair Pullen、Sam Stenner以及Yang Li|图源:UTKN
其中,Alistair Pullen自小就对编程感兴趣,在他9岁时就发布了并商业化了他的第一个软件应用程序。
另一位联合创始人Yang Li则毕业于牛津大学社会学系,在其长达六年的工作时间里经历了1次IPO、2次收购以及3家独角兽的成长。
目前,Cosine还在发展初期,团队一共仅有5人,在伦敦和旧金山均设立办公地点。他们也正在向任何寻找AI开发者加入他们团队的公司,共同打造世界上最像人类的自主AI软件开发者。(招聘团队:https://app.dover.com/jobs/cosine)
“我们坚信我们能够将人类推理带入任何工作和行业,”Alistair Pullen在博客文章中表示。“软件工程只是最直观的起点,我们迫不及待地想向你展示我们正在研究的其他一切。”
文章来源微信公众号“硅兔赛跑”,作者来自”硅兔君“
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则