姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

2023-11-01 阅读 26 收藏 0 评论 0 限时评论得现金

零小柒

粉丝 0 文章 6432 收藏 0

嵌入模型SOTA

在ChatPDF等RAG应用中，嵌入模型（Embedding Model）负责将文本向量化的环节。

嵌入模型与生成式模型有一定相似之处，但更加侧重于语义理解，通过神经网络（通常是Transformer）架构来对语义上下文进行捕获和压缩。

难度上，训练嵌入模型和生成式模型一样困难——训练高质量的嵌入模型需要在架构、数据、损失函数等许多方面进行反复实验。

Voyage团队介绍，他们选择创业的一个重要原因是认为业界对嵌入模型的重视程度远远不够。

他们用了5年时间，收集了海量训练数据和预/后处理方法，最终打造出了这款SOTA的嵌入模型。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

测试成绩方面，Voyage在常用于测试嵌入模型的MTEB数据集中取得了SOTA的成绩，比OpenAI高了0.5个百分点。

在工业领域数据集上，Voyage相对OpenAI的优势就更加明显了。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

不过Voyage的通告中也说，MTEB这个数据集因为应用过于广泛，有时会被拿来专门训练。

在承诺没有在MTEB上“作弊”的同时，Voyage还提出了9个“真实世界”数据集，内容涵盖了技术文档、新闻，甚至是餐馆评价等多个方面。

结果在这9个数据集上，Voyage全部取得了最好成绩，其中还有几项取得了碾压式的结果。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

技术上，Voyage使用了全新的自监督损失函数，以及涉及多个领域、针对RAG和搜索量身定做的训练数据。

同时，Voyage还采用了新的微调技术，无需人类标注就能完成。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

使用方式上，可以通过API或者安装Python库来调用，窗口长度为4096token。

目前，Voyage推出了标准版和轻量版两个版本，未来还将推出XL规模以及代码和金融领域版本。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

价格方面，标准版和轻量版都是每100万token0.4美元，新用户可以免费体验5000次输入（查询或文档）。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

那么，Voyage的创始人兼CEO马腾宇是谁呢？

保送清华姚班，和陈丹琦同学

马腾宇现任斯坦福大学助理教授，研究方向包括机器学习、算法等多项内容。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

2008年，马腾宇被保送进入清华姚班，和陈丹琦是同班同学。

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

马腾宇博士就读于普林斯顿大学，导师是理论计算机科学家、两届哥德尔奖得主Sanjeev Arora教授。

读博期间，马腾宇获得了理论计算机方向的西蒙斯奖等诸多奖项，被导师夸赞“比自己还聪明”。

博士毕业后，MIT、哈佛、斯坦福等顶尖高校都给了他助理教授的Offer，马腾宇最终选择了斯坦福。

2021年，马腾宇获得了具有“诺奖风向标”之称的斯隆奖，成为继鬲融之后清华姚班又一名获此奖项的校友。

参考链接：

https://blog.voyageai.com/2023/10/29/voyage-embeddings/

文章来自微信公众号 “量子位”，作者克雷西

风投大佬给AI初创公司泼凉水：被高估严重，大多数无法实现盈利

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

嵌入模型SOTA

保送清华姚班，和陈丹琦同学

风投大佬给AI初创公司泼凉水：被高估严重，大多数无法实现盈利

《Pokemon Go》2024 年将融合 AI 和 AR 技术

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

姚班斯隆奖马腾宇创业：大模型+顾问李飞飞

嵌入模型SOTA

保送清华姚班，和陈丹琦同学

风投大佬给AI初创公司泼凉水：被高估严重，大多数无法实现盈利

《Pokemon Go》2024 年将融合 AI 和 AR 技术

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿