整合海量公共数据，谷歌开源AI统计学专家DataGemma

2024-10-03 阅读 9 收藏 0 评论 0 限时评论得现金

粉丝 0 文章 6432 收藏 0

DataGemma

对于Data Commons这么庞大的数据源，想要被LLM正常使用，需要面对一些现实的挑战：

1. 与统计事实相关的用户查询可能涉及一系列逻辑、算术或比较运算。

比如「世界上排名前5的二氧化碳排放国是哪些国家？」；更复杂一点的比如「加利福尼亚州是世界上最大的经济体吗？」（这里面暗含了所比较的实体——加利福尼亚州与其他国家/地区相比，而不是美国各州）；或者「煤发电量高的美国各州，慢性阻塞性肺病发病率也很高吗？」（这涉及到实体和指标之间的比较）。

2. 公共统计数据包含多种模式和格式，通常需要相当多的背景上下文才能正确解释。

之前的工作利用了两种方法来缓解这些问题：使用工具和检索增强生成（RAG）。

前一种方法会调整LLM来生成一种标记语言，能够将自然文本与对外部工具的函数调用穿插在一起。为了对抗幻觉，工具可能会查询数据库或搜索引擎。

而在RAG中，辅助检索系统从大型语料库中识别与用户查询相关的背景知识，然后用这些知识来增强用户的查询。

本文作者以谷歌开源的Gemma和Gemma-2模型为基础，分别利用检索交错生成（RIG）和RAG微调出两个新的版本。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

开源模型：https://huggingface.co/collections/google/datagemma-release-66df7636084d2b150a4e6643

数据共享

Data Commons的数据共享涉及两项创新。

首先，研究人员花了数年时间访问大量公开可用的数据集，追踪数据背后的假设，并使用Schema.org（一种用于编码结构化数据的开放词汇表）对它们进行规范化，最终形成了一个包含所有数据的通用知识图谱。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

其次，研究人员使用LLM创建一个自然语言界面，允许用户用通用语言提出问题，并通过图表等方式来探索庞大的数据库。

需要明确的是，LLM只是将查询转换为Data Commons中的词汇表，不会与底层数据交互，也不会生成输出，因此不必担心出现幻觉之类的问题。

当前的方法是利用这个自然语言接口，教导LLM何时以及如何与Data Commons的接口进行通信。

对齐方面，作者采用LIMA（一种指令调整和强化学习方法），遵循少即是多的原则，利用数量少但质量很高的一组示例，使最终任务与用户偏好保持一致。

RIG 与 RAG

接下来介绍将LLM与Data Commons连接的两种不同方法：

RIG

检索交错生成 (RIG)，是一种受使用工具启发的方法，将LLM进行微调以生成自然语言数据共享查询，然后，多模型管道将此查询转换为结构化数据查询，用于从Data Commons数据库检索答案。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

如上图所示，这里扩展了RIG管道的步骤。首先是经过微调以生成自然语言查询的模型；接着是后处理器，将自然语言查询转换为结构化数据查询；最后一个组件是查询机制，从Data Commons检索统计答案并使用LLM生成。

当向LLM提出统计查询时，通常会生成包含数字答案的文本（如下图所示）。这时可以根据数字（LLM-SV）相关的上下文，在Data Commons数据库中匹配最相关的值（DC-SV），作为事实检查机制一起返回给用户。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

研究人员选择了大约700个用户查询（对应不同的统计问题）。

对于每个问题，都会从基本模型中选择带有统计数据的答案（约400个），然后将这些响应提供给功能更强大的LLM（Gemini 1.5 Pro），指示它围绕统计数据点引入自然语言数据共享调用。

所使用的提示包含三个示例作为指导，要求注释出统计值和单位，还要指示数据共享调用包括地名、指标和日期等。最后会进行人工审查，并手动重写不符合要求的数据共享调用。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

为了评估单个测试查询响应，这里需要子字符串级别的详细反馈。研究人员采用了上图所示的可视化工具。

人工评估人员能够浏览所有查询，并检查每个查询响应中的所有Data Commons调用，首先快速检查是否存在任何明显的事实不准确之处，然后对响应中存在的每项统计数据进行评估。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

上表显示了RIG方法的事实准确性指标（Data Commons中的统计数据与101个查询中的LLM响应进行比较的情况）。总体而言，RIG方法提高了真实性，从5-17%提高到约58%。

RAG

RAG管道同样包含多个组件。首先，用户查询被传递到一个小型的、经过微调的LLM，它会生成与用户查询相关的自然语言查询；然后，通过Data Commons的自然语言接口来获取相关的表；最后，将原始用户查询和检索到的表交给长上下文LLM（Gemini 1.5 Pro）。

原始用户查询以及结果表可能会相当长。例如，比较查询可能包括来自美国所有50个州或全球194个国家的多个表的多年数据。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

在综合查询集中，平均输入长度为38,000个token，最大输入长度为348,000个token。由于输入量很大，因此必须使用长上下文LLM，用户响应如上图所示。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

对于RAG方法，人类评估者评估LLM生成的细粒度问题及其相应的数据共享响应的质量。首先验证是否生成了足够且相关的问题来解决用户查询（上图）；然后评估每个单独问题的质量及其相应的数据共享响应（下图）。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

下表的结果表明，LLM在引用数字时通常是准确的 (99%)，当根据这些说法进行推论时，准确性会下降，在6-20%的时间内得出错误的推论。

整合海量公共数据，谷歌开源AI统计学专家DataGemma

参考资料：

https://venturebeat.com/AI/datagemma-googles-open-ai-models-mitigate-hallucination-on-statistical-queries/

文章来自于微信公众号“新智元”

全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU

关联网址

关联标签

#AI #大模型

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

后，在评论区留言并审核通过后，即可获得现金奖励，奖励规则可见：查看奖励规则

暂无评论...

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

134 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

整合海量公共数据，谷歌开源AI统计学专家DataGemma

DataGemma

数据共享

RIG 与 RAG

全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU

被指利用AI侵权，SHEIN海外IPO麻烦不断

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿

搜索

近期热门

10 款教育 AI 工具用例

2824 用户在看

AI写作网站自动的生成文章可以用吗？

134 用户在看

2023年你必须知道的顶级国产AI工具有哪些？全面解析！

74 用户在看

“如何选择最佳AI写作工具？这些秘诀一定要知道！”

63 用户在看

整合海量公共数据，谷歌开源AI统计学专家DataGemma

DataGemma

数据共享

RIG 与 RAG

全球首台Arm超算光荣退役！下一代已接任，配备384块英伟达Grace CPU

被指利用AI侵权，SHEIN海外IPO麻烦不断

关联网址

关联标签

文章目录

发评论，每天都得现金奖励！超多礼品等你来拿