对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

2024-06-15 阅读 46 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

热门

本周五，一年一度的AI春晚“北京智源大会”正式开幕。本次大会AI明星浓度，放在全球范围内可能也是独一份：OpenAI Sora负责人Aditya Ramesh作为神秘嘉宾进行了分享，并接受了DiT作者谢赛宁的“拷问”、李开复与张亚勤炉边对话AGI、还集齐了国内大模型“四小龙”，百川智能CEO王小川、智谱AI CEO张鹏、月之暗面CEO杨植麟、面壁智能CEO李大海…… 这还只是第一天上午的开幕式。

为期两天的大会汇聚了图灵奖得主姚期智，以及来自OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等的200余位人工智能顶尖学者和产业专家，涵盖了超过20个不同主题的论坛。这背后的“凝聚力”，离不开智源研究院长期以来对全球大模型开源生态的贡献。

开源数据是其中一个重要的方面，OpenAI在2020年提出了大模型的Scaling Law，揭示了模型规模、训练数据和对应模型效果的关系，通过投入大量的计算资源和数据来训练模型，验证了大力的确可以出奇迹。

自此之后，几乎所有大模型的公司，都在沿着Scaling Law的路线演进，Scaling Law仍然有效也是本次大会嘉宾的一个共识。

智源研究院院长王仲远认为，按照大模型这一发展速度，未来其参数可能会赶上或超过人类大脑参数。随着模型不断迭代升级，对数据量的需求也水涨船高，“数据荒”可能成为制约大模型进一步突破的瓶颈。

根据非营利研究机构Epoch研究所的分析，到2026年，大模型可能会耗尽互联网上的所有高质量文本数据。Meta生成式AI副总裁Ahmad Al-Dahle也曾表示，为了开发出一个模型，他的团队几乎利用了网络上所有可找到的英文书籍、论文、诗歌和新闻文章。

作为一家聚焦AI前沿研究非营利研究机构，在本届大会上，智源除了公布了“大模型全家桶”、技术基座FlagOpen 2.0的相关进展，在数据方面，智源联合京能数产发布了“北京人工智能数据运营平台”，启动千万级指令微调数据集开源项目InfinityInstruct ，开源全球最大的多行业中英双语数据集IndustryCorpus 1.0，覆盖了18类行业的预训练数据集。

高质量的指令数据是大模型性能的“养料”，InfinityInstruct基于现有开源数据集进行了精确的领域分析和高质量筛选，还采用了数据合成方法来构造缺乏的领域和任务数据，提升了大模型的指令执行能力，使得用户能够基于这一数据集和自己的应用数据，对基础模型进行微调，快速获得专业的高质量中英双语对话模型。

而大模型在行业应用中的最大挑战之一是缺乏海量、高质量的行业特定数据集，IndustryCorpus 1.0则是目前全球最大的多行业中英双语数据集，数据集包含3.4TB的开源行业预训练数据，其中中文数据1TB，英文数据2.4TB，以及0.9TB的非开源定向申请数据。覆盖了18个行业类别，包括科技、法律、医学、金融、新闻等，未来计划扩展至30个行业。通过使用医疗行业数据集进行示范模型训练，智源展示了该数据集在提升模型行业能力方面的有效性，其中医疗模型的总体医疗能力提升了20.1%，主观评测的胜率达到了82.2%。

事实上，推动数据资源的开源开放一直是智源坚持的方向，早在2021年，智源就推出了全球最大语料库WuDaoCorpora，开放200GB高质量低风险中文语料，支撑全球大模型相关研究。此后陆续开源了可商用的指令数据集COIG、中英文文本对语义向量模型训练数据集MTP，以及高质量中文互联网语料库CCI 1.0等多个项目。

通过不断扩大和优化高质量的开源数据集，智源推动了人工智能技术的创新和发展，从这次大会围绕开源数据众多动作来看，智源是铁了心要把开源数据这件事“死磕”到底。

针对大模型研究及商业应用所面临的相关数据挑战：数据荒是否真实存在？中文数据面临哪些挑战？优质的数据在哪里？数据是否真的能交易流通？开源是不是解决的方法？如何处理数据的版权等问题？合成数据具备哪些潜力？硅星人也与智源研究院副院长兼总工程师林咏华进行了一次访谈，以下为对话实录，在不改变原意的前提下有所调整：

硅星人：智源在人工领域开源了许多研究成果，数据方面此前也发布了中文互联网语料库CCI 2，开源对大模型数据生态有多重要？

林咏华：Llama 2用了两万亿的tokens，Llama 3已经是15万亿。这么大的数据量，不可能单一企业通过自身的力量去爬取或收集所有的数据，所以开源数据集相当重要。

如果我们设想没有Common Crawl，可能整个大模型的发展都会延后。国内外的大模型，无一例外都会利用Common Crawl以及Common Crawl的变种，Common Crawl的出现使得我们有机会去训练大语言模型。

文图模型也是一样。如果没有跨模态文图开源数据集LAION-5B，把几十亿个图文对的数据进行开源出来。OpenCLIP、以及后来的多模态模型的发展都会延后很多。

更早可以回想如果没有李飞飞的ImageNet，也就没有计算机视觉2013、2014年那一波的发展高峰了，因为大家没有海量的数据去做验证。

硅星人：ImageNet背后是大量手工标注，做开源数据集是不是一件非常依靠人力的事情？

林咏华：历史长河上有一个不断的发展，ImageNet的确全靠人工，但计算机视觉过去十年的发展，实际上进入到了半自动标注的方式，可以训练一些特定的AI模型去辅助自动化标注。

有监督学习的数据集要开源，需要保证标注的准确性。通过AI加入的半自动标注，会逐步的使人的比例降低，但完全没有人是挺难的。

到大模型时代，尤其是预训练数据，因为是无监督学习，所以理论上不需要人工标注。为什么数据集还是离不开人的工作呢？因为我们需要对数据的质量进行把关。我们会训练一些质量分类模型，但还是需要通过人的抽检来保证质量。

硅星人：如何看待目前欠缺系统化、优质的中文语料的问题？这意味着什么？如何解决？

林咏华：首先我们要承认这是个客观现实，Common Crawl中文数据占比只有4.8%，它爬取的是全球互联网，所以这意味着全球用中文产出的互联网语料大概就这么多。LAION-5B里图文对的文字描述，中文大概是在4%到5%左右，也符合这个比例。除了互联网数据，文献、出版物、书籍等等高质量的数据，英文都具有天然优势，例如绝大部分的SCI期刊都是用英文发表的。

第二，中文数据最大的问题是数据孤岛。国外数据集，例如BookCorpus（由书籍内容组成的大型文本数据）、古腾堡工程（志愿者参与，致力于文本著作的电子化、归档以及发布），都积累了很多年，他们不是为大模型和积累的，国内很少有人做类似的事情。面对数据孤岛的情况，需要有一些方法让数据流动。

我们需要做的是尽可能把中文数据汇聚起来。除了互联网，书籍文献，还有很多行业的垂类的数据也存在这个问题。智源从2020年就开始启动中文数据的收集工作，但毕竟还是有限。

另外大模型其实是很“聪明”的，比如，当一个模型有70%的英文数据，30%中文数据，一起训练的时候，模型会形成跨语言的能力。这也就是为什么ChatGPT能够用中文很好的回答你的提问。

硅星人：所以语料是中文还是英文，对于提升模型能力并不是一个决定性的因素？

林咏华：尤其逻辑能力。但与传统文化、历史认知等是需要本土语言的，有一些知识只有在中文语境下才是正确的。这也是为什么此前有些文生图大模型不能精准画出麻婆豆腐，原因在于当时的中文语料图文对太少了，所以模型形成了英文思维，这也是非英语国家都需要面对的问题。

硅星人：如何看待爬取数据涉及的的版权等问题？

林咏华：根源在于AI企业的发展需要获取大量数据。过去这些年的版权立法，实际上并没有预估今天会让机器去学习这样一种新的方式。不是把这一本书二次传播，而是让神经网络去学一遍。

为了推动本国的人工智能的发展，日本出台了新的条例，放松了对数据版权限对制。但对于该如何定义使用权或版权，在全球几乎都是空白。企业又等不了，所以就会出现灰色地带，甚至是用钱去买数据，去爬取数据，里面有太多不同的因素和角度。

从我们的角度来看，的确需要尽快解决大模型时代出现的新型数据使用的方式的问题。智源也一直在跟不同的机构、部门去探讨，政府部门对此也相当的关注。

硅星人：相较于数据清洗、标注等环节，获取更多的数据是不是更重要的？

林咏华：从最终模型的训练来说，两者是同等重要，既要有量也要有质量。为什么听到很多声音说我们需要更多的数据，因为获取数据太难了，很难靠单一的公司通过完全合理合法的方式去解决，所以大家都在呼吁。只要获取到了数据，无论是更多的人去标注，去清洗，或者堆更多的算力，都是可以解决的。

硅星人：智源在数据领域的主要目标和思路是什么？

林咏华：智源的数据工作有两个重要的目标。第一是支撑智源引领大模型创新所需要的数据。第二是我们作为大模型领域一个重要的机构，需要打造好技术基座，来支撑产业的发展。

我们实际上推行的是“一个平台”，“三种使用方式”。“一个平台”是指需要有一个平台来汇聚数据。三种使用方式包括、开源数据、共建共享数据以及高价值但不出域的数据。

第一，开源数据集。通常我们会开源没有版权争议或版权诉求的高质量的数据。如果没有开源数据集，大量的高校科研机构都没无从下手，这是一个社会责任。我们也很高兴目前有数十个厂商愿意一起来建设开源数据集。目前已经开源了四十多个高质量数据集，大概是有2.4T，开源我们会持续做下去。

第二，共享数据。我们的工作组里有三四十个单位和机构，可以认为是一种联盟性质，遵循贡献、共享的原则，目的是寻求互助互补。我们打造了一个积分体系，例如一个企业贡献了100G的数据。我们会对数据进行质量评定，这个数据的质量系数乘以数据量，可以换算为积分了。企业使用积分可以换取数据。

第三是对版权的要求很严格的数据。我们构建了“数算一体”的使用方式。数据的存储、计算加工以及模型的训练都在一个安全域内。模型企业可以在域内使用数据进行二次的加工，以及模型的训练，但最后带走的只是模型数据。这是在国家现行司法体系下，减少数据提供方对数据安全顾虑的一种方式。

硅星人：对智源来说，如何解决“量”和“质”问题？

林咏华：“量”的问题其实今天大家没有很好的方法解决。因为司法体系等客观环境对谁都是公平的，我们也会面临同样的挑战。对智源来说，既要解决自己使用数据的问题，也要帮助产业里的大模型企业，解决能不能用好数据的问题。有些问题我们现在从法律角度还没能够解决，那我们先用技术手段。

拥有高质量版权数据的企业愿意给智源用，但也担心数据泄露，所以我们做了九鼎智算平台，通过数算一体，实现数据使用的不出域。一些大模型企业已经开始在这样的机制下使用相关数据。

“质”的问题，从网上爬取、收集的数据更像是原材料。需要从原材料里打捞出真正高价值的部分，传统是需要很多人工，包括质量的过滤和安全的过滤，尤其是中文语料，需要保障没有伦理、道德等问题。与此同时，我们实际上是需要通过人工智能的方法，来打造不同数据处理阶段所需要的模型，并且不断的迭代，尽可能提高效率，也尽量减少所需要的人力。

硅星人：关于数据交易的问题，现在国家也在上各种数据交易所，但目前交易的语料数据还是较少，怎么看待数据的交易问题？

林咏华：智源也一直跟交易所探讨各种可行性。从数据价值的角度来看，一种是交易使用权，比如刚才说的数算一体，一次训练的使用权是可以被定价的。但要做到数算一体，需要有平台的支撑，要有配套模型训练所需要的环境。另一种是数据交易所上的挂牌交易，卖License，可以带走数据。随着大模型的蓬勃的兴起，已经有交易所开始上大模型训练所需要的数据，尤其是行业数据，但这毕竟还是一个新事物，大家都在探索。

这里还有一个挑战，传统交易所上的结构化数据，是能够很清晰的知道数据质量的。但是大模型的预训练数据，采购方很难去过滤每一条数据的质量，顶多就抽检。我们的确也看到一些数据的质量参差不齐，所以这也是大家都在观望的一个原因。

硅星人：如何看待到2026年高质量训练数据将耗尽的观点？合成数据是不是未来高质量数据的一个重要来源？

林咏华：这种观点说的其实是互联网数据。模型的参数越大，需要的数据就越多，未来十万亿参数模型，可能需要十倍于今天的数据，有可能出现这个问题。

但模型的参数量提升十倍，是不是必然需要十倍或更多的训练数据？今天我们训练一个千亿参数模型，可能需要数千亿到数万亿token的数据。但这个数据量已经很大了，很多公司并没有把数据的质量精细化。当我们能够把数据质量精细化的时候，是否可以减少对数据量的依赖，而模型能够学到同样的能力？这其实是一个很重要的话题。

合成数据是一个重要的方向，许多大模型企业都会使用合成数据或增广数据。增广数据是基于人类的现有数据，用技术自动产生不同变种的数据。尤其是在指令微调阶段，因为需要有很多特殊格式、特殊任务，很难靠人工大批量产生。

我们确实需要很多合成数据，在自动驾驶这样的场景已经大量使用仿真合成数据。不过知识性的数据是一个新的话题。去年牛津、剑桥大学等机构的研究发表论文称，AI用AI生成的数据进行训练，会导致模型存在不可逆转的缺陷，最终走向模型崩溃。

硅星人：把数据质量精细化类似小参数模型做数据精选这样的思路？

林咏华：小模型为了达到跟大模型可对标，通常会加大数据量。scaling law意味着当模型参数更小的时候，你可以用更多的数据，到达同样的loss。这是小参数模型通常会做的一件事情。但模型的参数量小，能够学习到的逻辑能力其实是有限的，小模型应该有小模型的用法，试图要小模型跟大模型去PK一些复杂逻辑，没有必要。

硅星人：智源近期在数据领域的规划是怎样的？

林咏华：去年我们开源了大量文本类的数据，现在多模态和文生视频是一个很重要的趋势，我们也能够预见多模态会走入3D的时代，所以我们也会开始新的布局。

另外很重要的是垂类数据。国内有能力不断迭代通用基座大模型的企业还是少数，更大量的需求是怎么把大模型落地到行业。把通用大模型落地到行业进行持续微调训练，需要有行业的垂类数据，现在是比较缺乏的。智源希望能够比较快的时间让大家有重要的垂类的数据可以用，帮助大模型走进千行百业。

一方面我们会加大跟企业的合作，另一方面我们也在海量的通用数据里挖掘垂类的数据。希望能够和行业一起来构建新的业态，让数据流动起来，以一个合理的方式供给到国内大模型的研发和创新。

文章来源于“硅星人Pro”,作者“周一笑”

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

让鲁迅说绕口令、赫本玩嘻哈，又一视频模型火了，斯坦福华人博士创立

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

3633 用户在看

AI写作网站自动的生成文章可以用吗？

218 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

161 用户在看

清华孵出一家Chiplet黑马！连拿亿级融资，首款AI芯片已跑通，ZAKER对话创始人

132 用户在看

对话林咏华：刚在“AI春晚”上开源了3.4T数据集的智源，是如何死磕大模型数据难题的

仅存活三个月的Copilot GPTs，因无盈利希望，被微软强制「退休」

让鲁迅说绕口令、赫本玩嘻哈，又一视频模型火了，斯坦福华人博士创立

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿