发布了 19 篇内容
共 50675字, 被阅读 3163次
获得了 23 次赞同
获得了 10次喜欢, 获得了 13 次收藏
参与了 15 次互动
互动包含发布评论、点赞评论、参与投票等
最近开始了解到一个很有意思的词——“内卷化”,如果你还不知道这个词,那就非常建议往下看。
同 cdh 部署类似,步骤分为 ambari 的部署和 hdp 的部署,先以 1 台为例 (内存>6g,磁盘划分 / 至少 40g,/data/10g),后续节点可以通过扩容方式加入集群,可参考:https://blog.csdn.net/qq_32593713/article/details/81429573
大数据平台搭建好后,我们要做的就是探索数据,探索数据就需要查询,做可视化,那么一款好用自助查询可视化工具,你值得拥有!
kafka 的 bin 目录下 shell 脚本是 kafka 自带的管理工具,提供 topic 的创建 / 删除 / 配置修改、消费者的监控、分区重载、集群健康监控、收发端 tps 压测、跨机房同步等能力,kafka 运维者可以使用这些工具进行集群的管理。
工作中遇到 kafka 跨机房传输到远程机房的场景,之前的方案是使用 flume 消费后转发到目标 kafka,当 topic 增多并且数据量变大后,维护性较差且 flume 较耗费资源。
apache hadoop 存在版本管理混乱、部署过程繁琐、升级过程复杂、兼容性差、安全性低等问题,cdh 是 hadoop 商业发行版之一,本文介绍基于 cloudera manager 的 cloudera hadoop 6.1.0 大数据平台搭建,简单易上手
数据中台建设方针:横向规划,各个击破。
数据库的发展基本上也是伴随着计算机技术经历了 40 年的历史,从最初的文件系统上的文件,到有结构的层次和网状数据库,一直到今天被广泛使用的关系型数据库。随着互联网和物联网行业的兴起,数据量飞速增长,对大数据的采集、存储和应用是每个数据库必备的技能
gp 的那些事
对于很多程序员来说,公司选择什么样的数据库,基本不需要你来决定。当你加入一个公司的时候,公司的大部分技术选型已经确认,特别是数据库选型,因为数据库一旦选择,后期迁移的代价还是很大的。
前面已经给大家讲了《从 0 到 1 搭建大数据平台之数据采集系统》、《从 0 到 1 搭建大数据平台之调度系统》,今天给大家讲一下大数据平台计算存储系统。大数据计算平台目前主要都是围绕着 hadoop 生态发展的,运用 hdfs 作为数据存储,计算框架分为批处理、流处理。
目前大数据平台经常会用来跑一些批任务,跑批处理当然就离不开定时任务。比如定时抽取业务数据库的数据,定时跑 hive/spark 任务,定时推送日报、月报指标数据。任务调度系统已经俨然成为了大数据处理平台不可或缺的一部分。
最新评论