hadoop-金马国际
hadoop生态系统经过多年的发展,俨然已经成为大数据平台的事实标准。
presto on apache kafka 在 uber 的大规模应用
presto 和 apache kafka 在 uber 的大数据栈中扮演了重要角色。
每个组织的数据平台建设都应该要量体裁衣,且会是个长时间的持续 pdca,螺旋上升的过程。
随着 hadoop 基础设施的复杂性和规模越来越大,团队越来越难以应对管理如此庞大系统时需要承担的各种职责。
纯技术创业这件事儿本身是很难的,这么多年来,技术风口一直在变,创业者得始终保持着敏锐度才不至于走向落败。
上市走入大众认知,回回都能在风口到来前两三年做好布局,这是一种什么判断和体验?位面对面,这位在基础软件领域创业八年,靠着精准踩点扛过大数据领域数次革新的技术人有哪些心得想要分享呢?
存储正在经历新一轮架构革命:戴尔科技集团在数据湖的探索和思考
apache hive 能在下一轮“淘汰”中幸存下来吗?
从 hadoop 迁移到基于云的现代架构(比如 lakehouse 架构)的决定是业务决策,而非技术决策。我们在之前的文章中探讨了每一个组织都必须重新评估他们与 hadoop 的关系的原因。本文中,我们将特别关注实际的迁移过程本身。你将学习成功迁移的关键步骤,以及 lakehouse 架构在激发下一轮数据驱动创新中所扮演的角色。
当大数据成为我们最大的运维支出项目之一后,我们启动了一项降低数据平台成本的计划。
基于阿里云部署的 cdp 是部署在阿里云 ecs 集群上的集成的分析和数据管理平台,在该平台上提供广泛的数据分析和人工智能功能以及安全的用户访问和数据治理功能。
伴鱼离线数仓建立,与伴鱼的业务一起快速发展,从一条业务线,到多条业务线。在演进的过程中,有很多总结和沉淀的内容。本篇文章主要介绍伴鱼离线数据仓库的发展历史,在发展过程中遇到的各种问题,以及针对问题的金马国际的解决方案。
十年 hadoop 退居幕后,云时代下的数据平台有了新的探索方向。
本期推荐内容:京东云靠什么撑起 618 大促?后 hadoop 时代,大数据分析路在何方?data mesh,数据架构的下一个变革!
hadoop 还有大的发展吗?
网购、叫车、订外卖、看电影...... 移动互联网各种场景的背后都离不开大数据技术。经过十几年的发展,大数据技术已经成为互联网企业的基础设施。
hadoop 和大数据的黄金年代已经正式结束。
宣布 “hadoop 已死”已成为一种时尚。但,hadoop 让企业失去了对大数据的恐惧。
本期,网易数据科学中心总监余利华现身大咖说,他将结合自身在大数据领域的从业经历,分析大数据技术应用逐步升级的脉络,解读背后的业务需求与认知陷阱。
clickhouse 是一款面向大数据场景下的 olap 数据库,相比于传统的基于 hadoop 生态圈的 olap 大数据分析系统,clickhouse 具有极致的查询性能、轻量级的架构设计及维护简单等优势。
探寻 hadoop 里另外一个重要组件 hdfs 的架构和高可用相关机制
作为 hadoop 里重要的分布式计算组件 mapreduce 到底存在什么样的问题,大家纷纷都转投其他技术栈?我们来一起探个究竟。本文会先详细解析一下整个 mapreduce 的过程,编程方式,然后再去分析一下存在的问题和其中可以借鉴的点。
hadoop 分布式文件系统(hdfs)是 hadoop 大数据生态最底层的数据存储设施。因其具备了海量数据分布式存储能力,针对不同批处理业务的大吞吐数据计算承载力,使其综合复杂度要远远高于其他数据存储系统。
通常我们在使用 dubbo 的时候会建议使用 zookeeper 作为注册中心,也可以用 redis,eureka 作为注册中心,当然我只用过 zookeeper,dubbo 相当于搭载一个服务框架,zookeeper 则是服务注册的中心。
快手每天都有海量的视频数据上传存储,到目前为止所有的视频以及衍生数据总量更是数量庞大,且视频本身有大有小,如何存储这些数据将是一个颇具挑战性的问题。
近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。
云原生的巨浪正在席卷全球的软件产业,包括开源软件和商业软件。
复盘领英 hadoop 数据丢失事故,我们得到的血泪教训
希望我们从大数据生态系统重大事故中学到的东西,也能给各位带来一点启示。
演讲:apple siri @ spark, foundationdb, hadoop and hbase(英文演讲)
hadoop 是大数据领域中最重要的一门技术,我们很多人知道它是发源于 google 的"三驾马车",实际上真的是这样的吗?这篇文章一探 hadoop 技术的起源。
大数据开发者将可以无缝使用中国云存储