做语料交易平台，Cloudflare要为站长“主持公道”

2024-10-08 阅读 54 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

热门

这样一套组合拳打下去，AI厂商大概率就会乖乖向网站付费了。

大模型遭遇数据荒这件事，已经从遥遥领先的预言变成了一个所有AI厂商都不得不面对的难题。为了解决这个问题，谷歌前CEO埃里克・施密特更是曾语出惊人，表示AI创业公司可以先通过AI工具盗取知识产权，然后再雇佣律师来处理法律纠纷。但就在AI行业出现“语料危机”的兵荒马乱里，也有厂商发现了商机。

做语料交易平台，Cloudflare要为站长“主持公道”

日前，全球知名的内容分发网络（CDN）Cloudflare宣布将在明年推出交易市场，允许AI公司付费获取网站内容的抓取权限。据Cloudflare方面的描述，网站运营者可以将自己的网站放在这个市场中，如果有AI开发商愿意付费购买其内容，则可以向后者提供接口以供抓取网站的内容用于AI大模型的训练。

进入2024年之后，随着Common Crawl数据集、The Pile语料库等开源数据库的开发殆尽，AI厂商在获取语料数据这件事上也完全可以用“吃相难看”来形容。例如苹果、英伟达、OpenAI在训练大模型时使用了YouTube未经授权的数据，AI独角兽Anthropic更是直接分布式拒绝服务攻击（DDoS）小网站等让人大跌眼镜的操作，也开始堂而皇之的出现。

做语料交易平台，Cloudflare要为站长“主持公道”

当然，除了这些上不得台面的玩法之外，业界也在尝试用“合成数据”来训练大模型，试图用这种“左脚踩右脚上天”的模式来使得大模型摆脱对于语料数据的依赖。可惜随着一篇《Nature》上的论文问世，使用AI生成的数据集训练大模型会污染它们的输出，无法避免“模型崩溃”（model collapse）的缺陷，也让合成数据这条路径的未来蒙上了阴影。

如此一来，向内容方索取数据就又变成了AI厂商的唯一选项。现在的情况，是AI厂商对于数据的需求永无止境，但他们需要将有限的预算花在算力、电力、水资源等刚性需求的资源上，以至于“偷数据”就变成了一个降本增效的手段。同时，一般的网站虽然有数据、但也缺乏保护数据的能力。

做语料交易平台，Cloudflare要为站长“主持公道”

站在网站站长的角度，一方面自己网站的内容被AI厂商无偿抓取，另一方面AI厂商爬虫进行的高频次抓取已经与DDoS没区别了，导致自己还要付出更高的带宽和流量清洗成本。由此不愿付钱的AI厂商与想要将数据卖个好价钱的内容方之间，自然也就产生了不可调和的矛盾。

这时候，双方都需要一个类似Cloudflare这样的角色站出来当“裁判员”。作为CDN提供商，Cloudflare的竞争力来源于在全球拥有超过152个数据中心，这些数据中心战略性地分布在全球各地，以确保其业务覆盖所有主要地区，再加出色的网络技术，也使得全世界目前有20%的互联网流量都经过了该公司的网络代理。

做语料交易平台，Cloudflare要为站长“主持公道”

为了向用户提供高速网络服务，Cloudflare建设了一个专用的高容量光纤网络，用于在全球的数据中心之间传输流量，这也使得其能够完全控制内部和外部流量的路由，以便更有效地管理流量。而为全球中小网站提供一个低成本接入公开网络的能力，这就是Cloudflare的底气。

就如同谷歌提供了一个广告竞价平台，得以让全球的站长通过经营网站获得收入一样，Cloudflare现在就是打算复刻谷歌曾经的做法，建立一个内容拍卖平台，让AI厂商像广告主一样为他们感兴趣的内容付费。毕竟全球1/5的流量会经过Cloudflare的分发网络，所以也意味着后者确实也拥有类似谷歌搜索引擎的地位。

做语料交易平台，Cloudflare要为站长“主持公道”

与此同时，为了保证这个交易市场得以运行下去，Cloudflare还宣布为使用其服务的所有网站，包括免费托管在Cloudflare上的网站提供AI审计工具 (Cloudflare AI Audit) ，从而向网站站长报告AI厂商的爬虫何时访问网站、抓取数据的IP地址、抓取频次，以及其他相关数据。

借助AI审计工具，哪些AI厂商尝试抓取了网站的数据也就变得一目了然。并且为了配合这个交易市场，Cloudflare方面表示AI审计工具与目前为站长提供的一键屏蔽AI爬虫功能不同，其提供了更灵活的屏蔽策略。比如说，一旦某网站与OpenAI达成合作，站长就可以单独为OpenAI的GPTBot提供“绿色通道”。

做语料交易平台，Cloudflare要为站长“主持公道”

不得不说，作为业界知名的“赛博菩萨”，Cloudflare确实是想用户之所想、急用户之所急，这样一套组合拳打下去，AI厂商大概率就会乖乖地向网站站长付费了。

文章来自于“三易生活”，作者“三易菌”。

做语料交易平台，Cloudflare要为站长“主持公道”

潞晨Video Ocean震撼发布，打开了「任意角色、任意风格」的视频魔盒

关联网址

关联标签

#AI #AI工具 #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

做语料交易平台，Cloudflare要为站长“主持公道”

潞晨Video Ocean震撼发布，打开了「任意角色、任意风格」的视频魔盒

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3733 用户在看

AI写作网站自动的生成文章可以用吗？

300 用户在看

AI批改英语作文，质量和数量都完爆人类老师改卷

264 用户在看

科大讯飞AI会议记录，让你丢掉纸笔，开会再也不焦虑

236 用户在看

做语料交易平台，Cloudflare要为站长“主持公道”

潞晨Video Ocean震撼发布，打开了「任意角色、任意风格」的视频魔盒

微调大模型，AMD MI300X就够了！跟着这篇博客微调Llama 3.1 405B，效果媲美H100

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿