人工智能 (AI) 基础模型基于 NASA 的 Harmonized Landsat Sentinel-2 (HLS) 数据,是人工智能在地球科学应用中的一个里程碑。
NASA 和 IBM 研究中心的公私合作伙伴关系促成了 NASA 首个用于地球观测数据的开源地理空间人工智能 (AI) 基础模型的发布。HLS 地理空间基础模型 (HLS Geospatial FM)使用 NASA 的 Harmonized Landsat Sentinel-2 ( HLS ) 数据集构建,是人工智能在地球科学应用中的一个里程碑。该模型具有广泛的潜在应用,包括跟踪土地利用变化、监测自然灾害和预测农作物产量。HLS Geospatial FM 可在Hugging Face上获取,Hugging Face 是开源机器学习模型的公共存储库。
NASA 的跨机构实施和先进概念团队 ( IMPACT ) 在这项工作中发挥了重要作用。IMPACT 位于阿拉巴马州亨茨维尔的 NASA 马歇尔太空飞行中心,是 NASA 地球科学数据系统 ( ESDS ) 计划的一部分,负责通过创新、合作和技术扩大 NASA 地球观测数据的使用,包括应用人工智能对这些数据进行处理。
马歇尔研究所 IMPACT 经理兼高级研究科学家 Rahul Ramachandran 博士表示:“用于地球观测的人工智能基础模型在解决复杂的科学问题和加速人工智能在不同应用中的更广泛部署方面具有巨大的潜力。” “我们呼吁地球科学和应用界评估这个初始 HLS 基础模型的各种用途,并就其优点和缺点分享反馈。”
与 NASA 和 IBM 研究中心一起,这项合作还包括克拉克大学地理空间分析中心、ESA(欧洲航天局)、USGS 和美国能源部橡树岭国家实验室。这项工作是 NASA 开源科学计划 ( OSSI ) 的一部分,该计划致力于在未来十年内建立一个包容、透明和协作的开放科学社区。HLS Geospatial FM 的开发于 2023 年 1 月开始,并于 2023 年 7 月发布。
基础模型应用于 HLS 图像,例如这张位于埃及开罗西北约 80 公里的萨达特市附近灌溉农田的真彩色合成图像。图片来源:HLS/NASA IMPACT。
基础模型的意义
基础模型(FM)是在大量无标记数据基础上训练出来的人工智能模型类型。它们可用于不同的任务,并能将一种情况的信息应用于另一种情况。NASA/IBM 这项工作的目标是为研究人员提供一种更简便的方法,以便从与地球过程有关的 NASA 大型数据集中进行分析并从中获得启示。
“NASA 首席科学数据官凯文-墨菲(Kevin Murphy)说:”我们相信,基础模型有可能改变观测数据的分析方式,帮助我们更好地了解我们的地球。”通过开源这些模型并将其提供给全世界,我们希望能够成倍地扩大它们的影响。”
人工智能调频有可能在了解我们星球的相互关联过程以及正在发生的自然和人为变化对气候的影响方面发挥关键作用。对地球观测数据进行预训练的人工智能调频器可以通过两种主要方式加快对海量数据的分析。
首先,调频装置不需要大型训练数据集,而创建大型训练数据集既费力又耗费资源。在小得多的数据集上训练调频技术可以节省时间和金钱。其次,FM 可以减少建立下游应用程序的冗余工作,这些应用程序使用 FM 输出来执行特定任务,例如跟踪土地使用的变化或监测自然灾害。
统一 Landsat Sentinel-2 数据收集
HLS 是 FM 工作所基于的逻辑数据集。HLS 项目提供来自 NASA/USGS Landsat 8 和 9 联合卫星上的操作陆地成像仪 ( OLI ) 以及欧盟哥白尼 Sentinel-2A 和 Sentinel-2B 卫星上的多光谱仪器 ( MSI ) 的一致表面反射率数据。组合传感器测量能够每 2 至 3 天以 30 米的空间分辨率进行全球陆地观测。
NASA IMPACT 在开发 HLS 处理架构以实现近乎全球的覆盖方面发挥了重要作用。HLS 图像可以使用NASA Worldview地球科学数据可视化工具进行交互式探索,并可以通过NASA Earthdata Search下载。
2023 年 7 月 11 日获取冰岛西北部的真彩色 HLS 图像。NASA IMPACT 开发了处理流,将 HLS 覆盖范围从地球的 28% 扩大到接近全球。在 NASA Worldview 中交互式探索此图像。图片来源:HLS/NASA IMPACT;美国宇航局世界观。
通往 HLS 地理空间调频的道路
随着用于训练这些模型的神经网络架构变得越来越复杂,人工智能调频所需的基础设施也在不断发展。人工智能模型通常在海量数据集上进行训练,这需要大量的计算能力。
作为 NASA/IBM 合作的一部分,IBM 研究院使用 IBM watsonx FM 栈在 IBM Cloud Vela 超级计算机上训练 HLS Geospatial FM,这是一个基于云的平台,用于训练和部署 FM。IBM watsonx FM 栈目前在 NASA 的科学管理云环境 (SMCE) 中运行。SMCE位于马里兰州格林贝尔特的NASA戈达德太空飞行中心,旨在通过快速访问云资源来加速NASA的科学研究,从而实现快速原型设计和开放式协作。
评估模型
美国国家航空航天局(NASA)、IBM 研究中心和克拉克大学的团队正在评估 HLS 地理空间调频模型在分类、对象检测、时间序列分割和相似性搜索等广泛下游应用中的效果。调频已被应用于洪水测绘,它利用较小的样本实现了最先进的性能。除洪水测绘外,调频还被应用于烧伤疤痕识别,这是主动火灾管理和火灾后恢复的关键组成部分。此外,利用时间序列数据,研究小组还展示了使用调频模型绘制美国毗连地区不同地域的土地覆被和作物类型图的优势。
微调模型
最近的一次研讨会展示了人工智能调频模型在地球科学应用方面的潜力。该研讨会由 IMPACT 与电气电子工程师协会地球科学与遥感学会(IEEE GRSS)地球科学信息学技术委员会(ESI TC)合作举办,内容包括利用 HLS 数据开发人工智能调频模型,以及利用 IBM 的 watsonx.ai 微调人工智能调频模型的实践练习。学员们还将模型应用于新的 HLS 数据,并成功微调了洪水检测和烧伤疤痕识别的 FM。
研讨会表明,有了正确的教程、平台和基础设施,就可以快速培训地球科学家将调频模型有效地用于下游应用。这是为地球科学发展人工智能迈出的重要一步,因为它为使用人工智能解决各种问题提供了可能性。
下一步工作
除了在 HLS 地理空间调频方面的工作,NASA 和 IBM 还在开发其他应用,以从地球观测中提取洞察力,包括基于地球科学文献的大型语言模型。根据 NASA 的开放科学指导方针和原则,这项合作工作所产生的模型和产品将向整个科学界开放和提供。
文章转载自earthdata,作者Josh Blumenfeld
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则