今年上半年,Gartner发布2021年度数据管理领域的成熟度模型报告—Hype Cycle,湖仓一体(Lakehouse)作为近两年的新兴技术热点,成为了首次进入成熟度模型的五个新军之一,备受业界关注。本篇文章,我们将介绍什么是湖仓一体,湖仓一体架构的特点和技术优势。
湖仓一体,其含义是指将数据湖的语义灵活性与数据仓库的生产优化和交付相结合。它是一个融合的基础设施环境,支持从原始数据到精炼数据的整个过程,并最终提供优化后的数据以供消费。
湖仓一体将使业务从简化的交付流程、数据的快速访问中受益,同时满足了用户对于性能和易用性的更高要求,降低了大数据分析的技术复杂度和成本,同时满足了用户对性能和易用性的更高要求。通过构建整合的数据管理平台,服务于各种各样的职能角色,包括专业的数据科学家、数据工程师和业务分析师等,甚至包括通过数据看板来使用数据的临时用户。湖仓一体本质上为数据科学的创新提供了定义明确、可落地的发展途径。
湖仓一体作为企业未来数据平台的重要基础架构,需要一种强有力的分布式数据库支撑其海量、多模、多态的数据。巨杉数据库SequoiaDB基于100%自研的分布式数据库内核,提供了湖仓一体万亿级数据服务平台,适用于历史数据平台、全量数据平台、实时数据中台等需要将海量多模数据用于对客服务的场景。
巨杉数据库基于湖仓一体的架构特性,构建数据基础设施平台,整合结构化、半结构化、非结构化数据的统一存储与管理,为面向全量数据业务提供:SQL、NoSQL、Object等多种接口。此外,通过特有的跨引擎事务能力,可以有效简化多团队开发流程中对不同引擎、不同结构的数据管理,打通ACID事务支持,提升业务开发、数据处理、运维管理能力,释放全量数据价值,提升企业数据处理的“人效”及“能效”。
基于SequoiaDB分布式数据库的湖仓一体平台,除了具备多模能力,兼容多种数据引擎以外,还提供包括流式计算、高性能列存分析引擎等能力,适用于需构建融合数据平台及在保持事务一致性的基础上,进行高性能实时分析的场景。通过SequoiaDB可打破数据湖与数据仓库割裂的体系,为上层应用提供一数一源的数据基础设施,助力客户实现提升数据管理水平、降低成本、提升运营效率、提升用户体验等目标。
目前,巨杉数据库已经在超过100家金融银行客户规模化上线使用,覆盖国有银行、股份制银行、省级农信、城商行、保险、证券等金融客户,已经正式生产上线的系统中最大运行集群,数据量达1.2万亿行,容量达3PB,规模超过400台服务器,积累了丰富的最佳实践及案例,帮助客户构建起数据平台最佳底座。
数据湖和数据仓库,原本是大数据技术条件下构建分布式系统的两种数据架构设计取向。而融合后的湖仓一体,为业界和用户展现了一种湖与仓互相补充、协同工作的架构。未来,巨杉数据库将不断优化湖仓一体数据服务平台,探索和尝试更多湖仓一体解决方案,帮助企业释放全量数据价值。
了解更多内容可关注微信公众号:巨杉数据库
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。