发布了 9 篇内容
共 63193字, 被阅读 3212次
获得了 30 次赞同
获得了 5次喜欢, 获得了 25 次收藏
参与了 0 次互动
互动包含发布评论、点赞评论、参与投票等
首先我们要明确一点,为什么要进行数据压缩?
在进入本文之前,我先问大家一个问题,你们公司或者业务系统上是如何对生产集群上的数据同步任务、实时计算任务或者是调度任务本身的执行情况和日志的呢?可能你会回答是自研或者 elk 系统或者自研的系统。
spark3.0 已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中 46% 的优化都集中在 spark sql 上,sql 优化里最引人注意的非 adaptive query execution 莫属了。
airflow 是一个编排、调度和监控 workflow 的平台,由 airbnb 开源,现在在 apache software foundation 孵化。airflow 将 workflow 编排为 tasks 组成的 dags,调度器在一组 workers 上按照指定的依赖关系执行 tasks。
我们在之前的文章中提到过《大数据可视化从未如此简单 - apache zepplien 全面介绍》一文中介绍了 zeppelin 的主要功能和特点,并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 zepplin 和 spark 如何配合使用。
本文集合了小编在日常学习和生产实践中遇到的使用 hbase 中的各种问题和优化方法,分别从表设计、rowkey 设计、内存、读写、配置等各个领域对 hbase 常用的调优方式进行了总结,希望能对读者有帮助。
首先我们要明确一点,为什么要进行数据压缩?
2020 年下半年在 olap 领域有一匹黑马以席卷之势进入大数据开发者的领域,它就是 clickhouse。在 2019 年小编也曾介绍过 clickhouse,大家可以参考这里进行入门:
flink1.12 集成 hive 打造自己的批流一体数仓