在当今瞬息万变的商业环境中,企业持续寻求创新途径以优化运营、简化决策过程,并构建独特的竞争优势。实现这些目标的关键在于有效利用海量数据资源。然而,这项任务并不轻松。数据的数量、复杂性和来源呈现出爆发性增长,同时从数据中提炼价值的技术也日新月异。
VMware Greenplum 在这个领域发挥着至关重要的作用。Greenplum 是一个统一分析和人工智能 (AI) 平台,旨在帮助企业充分利用其数据资源。无论是结构化数据、半结构化数据还是非结构化数据,Greenplum 都能提供一个统一的平台,作为无可争议的 “单一真相源”,而且通过对向量数据的并行处理支持,Greenplum可以与最新的大语言模型方法(LLM)集成。
集成的力量
VMware Greenplum 核心是以开源 PostgreSQL 项目为基础,其独特之处在于将商业智能(BI)和人工智能(AI)功能无缝集成在同一平台上。这种将各种工具和技术集成在一起的方式,使得企业能够高效快速地应对复杂的挑战。同时,所有的操作都可以通过用户熟悉的 SQL 数据库界面来实现。
试想一下,企业需要进行大量基于客户反馈文档的智能搜索,并将这些信息与详细的客户在线交易处理(OLTP)交易历史记录合并。在过去,这些任务需要涉及各种数据孤岛和不同的工具,而现在,这些都可以在 Greenplum 平台内无缝执行。这样就极大地提高了企业的运营效率,并增强了对客户需求的响应能力。
从商业智能到人工智能的无缝衔接
Greenplum 的一个显著特点是能够统一数据分析和人工智能需求,促进从商业智能到人工智能应用的平稳过渡。这种过渡可以在任何规模上进行,无论处理小型数据集还是PB级的庞大数据生态系统。
Greenplum 多功能性得益于其适应不断变化的数据格局的卓越能力。随着数据量和数据种类的不断增加以及新分析技术的不断涌现,VMware Greenplum 也在同步发展。这有助于使企业始终站在数据驱动决策的最前沿,不断发掘新的洞察力和机遇。
VMware Greenplum 7 彰显了我们对创建和演进一个内在安全、成熟和灵活的基于SQL的在线分析处理(OLAP)平台的承诺。这一创新平台引入了一系列增强和新加功能,重点是针对各种数据类型(无论是结构化、半结构化还是非结构化数据)的资源管理和复杂分析功能。
VMware Greenplum 7 在无缝数据可扩展性、多负载处理和部署灵活性方面也有许多重要更新。
VMware Greenplum 7 的新功能
以下是 VMware Greenplum 7 中引入的强大新功能:
开放源代码和 PostgreSQL 12 的衍生:VMware Greenplum 7 建立在开源代码的基础上,利用了现代 PostgreSQL 版本的功能、可靠性和灵活性。与前一版本相比,Greenplum 7 植根于 PostgreSQL 12,并整合了近5年以来 PostgreSQL 的发布版本。
多种索引类型: VMware Greenplum 7 支持多种索引类型,包括 B 树索引、哈希索引、位图索引、块范围索引、文本索引、地理空间索引和 AI 向量索引。该功能可优化数据检索和查询性能。Greenplum 查询优化器自 2009 年以来不断改进,在第 6 版中取得了良好的性能记录,在第 7 版中得到了扩展,提供了全面的索引选择支持。
利用 PXF 增强数据联合:VMware Greenplum 7 中的平台扩展框架 (PXF) 经过改进,实现了卓越的数据联合。企业现在可以通过 JDBC 查询亚马逊简单存储服务 (S3) 对象存储、Hadoop 分布式文件系统 (HDFS) 和其他关系数据库中的数据集。它利用 PostgreSQL 的外来数据封装器 API 来并行访问远程数据源,提供抽象数据模型来管理远程数据的安全性和统计数据,以优化查询。
增强文本搜索:VMware Greenplum 7 扩展了文本搜索功能,同时支持词法搜索和人工智能驱动的语义搜索,以提供更准确的搜索结果。词法搜索支持基于关键字的传统文本搜索,对于语义搜索,则由人工智能和向量 embeddings 提供支持。
升级地理空间分析:VMware Greenplum 7 通过集成 PostGIS 版本 3 升级了地理空间分析功能。这一改进大大提高了地理空间查询的速度和特征丰富度。
行级安全权限: 该功能是对 VMware Greenplum 中已有的基于角色的安全模型以及表级和列级权限的补充。
用于增强数据建模的生成列: VMware Greenplum 7 中引入了生成列,从而改进了数据抽象和建模,解决了安全特征保留数据屏蔽等用例问题。
改进的 DBA 查询功能: Greenplum 7 对 DBA 查询功能进行了大量改进,包括 UPSERT 支持、带有事务的用户定义函数,以及对ALTER TABLE的改进以减少数据重写。
增强的半结构化和非结构化数据分析: Greenplum 7 除支持 XML 文档外,还支持半结构化数据处理,如增强的 JSON 和数组数据处理功能。全文搜索和基于文本的词法搜索索引可实现高效的文本存储、索引和搜索。此外,向量嵌入可实现非结构化数据的浓缩和高效表示,允许跨多种语言对匹配的文档、图像和视频进行相似性搜索,包括多语言搜索。
PostgreSQL 扩展生态系统: 更全面的PostgreSQL 扩展支持,如高级密码检查、模糊字符串匹配、Hyperloglog、用于网络数据的 Ip4r、用于媒体数据的 Isn、纳秒时间戳、稀疏向量、用于透视的 Tablefunc、用于唯一标识符的 UUID 以及用于人工智能向量嵌入的 pg_vector,已全部支持。
先进的资源管理: Greenplum 7 引入了一系列高级资源管理功能。这些功能可确保在高负载情况下的稳健性能。
VMware vSphere 部署模型: Greenplum 7 可以参考推荐的架构部署在裸机或公共云环境中。也可利用Greenplum 7版本中提供的自动部署模式无缝集成到vSphere私有云环境中。
多数据中心灾难恢复解决方案: 作为多数据中心灾难恢复解决方案的一部分,数据通过事务日志归档进行复制,从而实现比 Greenplum 以前版本更高效、更低的恢复点目标(RPO)和恢复时间目标(RTO)灾难恢复解决方案。
新的扩展 PostgresML:提供新的用户定义函数,使用户可以在 VMware Greenplum 中使用数以万计的开源人工智能/机器学习预训练模型。
VMware Greenplum 7 的新功能
VMware Greenplum 为企业带来的众多优势可分为四个关键领域:灵活性、速度和规模、生产效率以及弹性。
灵活性
基础架构的多功能性:VMware Greenplum 在部署方面具有显著的灵活性,可兼容各种基础架构类型。它针对裸机、公有云和基于 vSphere 的私有云环境进行了优化。这意味着企业可以选择最适合其需求的基础架构,而无需牺牲性能或效率。
专用优化:Greenplum 提供专用的参考架构,确保无缝集成到不同的基础架构设置中,降低部署复杂性。
速度和规模
数据库内分析: Greenplum 的数据库内分析功能大大加快了透视时间。这一功能意味着数据分析师和科学家可以直接在数据库中原地进行复杂的分析,而无需进行耗时的数据传输。
PB 级数据处理: Greenplum 可处理海量数据,甚至是 PB 级数据。这确保了企业能够高效地分析和管理庞大的数据集,从其最大的数据存储库中获取洞察力。
生产效率
数据多样性: Greenplum 擅长在单一平台上管理各种类型的数据。它能无缝处理结构化、半结构化和非结构化数据,包括文本、图像、视频、向量、地理空间信息、图形和语音数据。这种多功能性使企业能够整合数据源,无论数据存储在哪里,都能更轻松地对其进行分析。
数据可访问性: Greenplum 能够处理和分析来自不同来源的各种格式的数据,从而减少了预处理和整合来自多个来源的数据所需的时间和精力,提高了工作效率。
弹性
成熟的基础: Greenplum 建立在开源数据库 PostgreSQL 的基础之上,这是一个久经考验的成熟数据库平台。这提高了关键任务应用程序和数据工作负载的可靠性和稳定性。
增强安全性: Greenplum 集成了增强的安全功能,可帮助企业保护数据安全。这包括身份验证机制、加密选项和访问控制。
企业支持: Greenplum 提供强大的企业级支持,使企业能够获得管理和优化数据平台所需的协助。
灾难恢复: 通过远程灾难恢复等功能,Greenplum 提供了数据备份和恢复机制,最大限度地减少了灾难发生时的停机时间和数据丢失。
随着新版本的推出,VMware Greenplum 不仅仅是一个平台,更是转型的催化剂。它使企业能够充分发挥数据资产的潜力,提高运营效率,加快决策进程,并最终实现卓越的客户响应能力。随着数据不断塑造企业的未来,Greenplum 成为创新的引领者,引导企业从 BI 走向 AI,甚至更远。与Greenplum一起拥抱统一数据分析和人工智能的力量吧,将您的企业推向数据成为终极竞争优势的未来!
VMware Greenplum 7项目地址:https://network.pivotal.io/products/vmware-greenplum
文章转载自微信公众号“VMware中国研发中心”,作者 Greenplum
发评论,每天都得现金奖励!超多礼品等你来拿
登录 后,在评论区留言并审核通过后,即可获得现金奖励,奖励规则可见: 查看奖励规则