Apache Iceberg,值得我们重点关注

admin 2023年2月3日09:49:08评论87 views字数 1241阅读4分8秒阅读模式

在数据团队的手中,云数据正快速汇聚壮大,并以合理的成本得到存储,由此给数据湖、数据网格及其他现代架构的种种新型分析用例打开了大门。但对于规模极大的数据集,常规云存储也往往力有不逮。这时候,Apache Iceberg的重要意义也就显现了出来。

大数据形式的云数据访问、管理与使用正愈发具有挑战,比较实际的思路就是将数据转化为表格式。但具体要使用哪种表格式也是个问题,正确的选择能够扩大功能潜力,而错误的选择则处处束手束脚。过去两年以来,行业已经对Apache Iceberg给予了大力支持。

作为最初由Netflix开发的表格格式,Iceberg从零构建而成,旨在解决Apache Hive在处理极大规模数据集时遇到的规模、可用性与性能等问题。Netflix工程师们当时写道,适合超大规模数据集的表格式应该像SQL那样可靠且可预测,“不会带来任何令人不快的意外”。

而且与其他可行选项相比较,我们仍然认为Apache Iceberg是一种优于同侪的开放表格式。其具体优势分为以下五点。

Apache Iceberg不受历史包袱所累。Iceberg从零构建而成,专注为解决Apache Hive缺点而生,因此回避了以往阻碍数据集湖的某些常见问题。Schema变更的处理方式(例如对列的重命名)就是个很好的例子。

Apache Iceberg不对处理引擎和文件格式做任何限定。这种将处理引擎与表格式解耦的基本思路,让Iceberg获得了更大的灵活性和选择空间。工程师们可以按需求选择最合适的工具,而不必强制使用特定处理引擎。

作为开源项目,Iceberg的运行状态相当不错。Apache Iceberg一直公开项目管理信息,用户随时都知道是谁在运营该项目。相比之下,其他表格式一般不会公开项目的实际决策人。表格式属于数据架构中的基础选项,因此开放程度越高、协作效果越好的项目,越是可以显著降低技术锁定的风险。

Iceberg的协作关系也孕育出不少新的灵感和生态。种种迹象表明,围绕Apache Iceberg建立的协作社区正帮助用户为项目的长期成功做好准备。

Iceberg还包含不少在其他工具中只能付费使用的功能。与其他表项目不同,Iceberg从诞生之初就高度强调性能,能够很好地匹配用户需求。Apache Iceberg社区还提供大量优秀资源,可以帮助大家了解关于项目的更多细节信息、轻松参与开源贡献。


推荐阅读:



现在Kubernetes已经成了容器编排事实上的标准,会Kubernetes现在已经成了很多公司招聘后台工程师与架构师的基本要求。为了满足在职人员短时间内提升Kubernetes技能的要求,我们特别组织了本次Kubernetes线下培训。3天封闭式培训,15人小班授课,考不过免费复训,10月21日在上海开课,扫描下方二维码咨询详情。

Apache Iceberg,值得我们重点关注

原文始发于微信公众号(分布式实验室):Apache Iceberg,值得我们重点关注

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年2月3日09:49:08
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Apache Iceberg,值得我们重点关注https://cn-sec.com/archives/1291562.html

发表评论

匿名网友 填写信息