spark-金马国际

关注
收录了spark频道下的 163 篇内容
  • 全部
  • 文章
  • 视频
  • 电子书

openmldb 是针对 ai 场景优化的开源数据库项目,实现了数据与计算一致性的离线 mpp 场景和在线 oltp 场景计算引擎。

伴鱼离线数仓建立,与伴鱼的业务一起快速发展,从一条业务线,到多条业务线。在演进的过程中,有很多总结和沉淀的内容。本篇文章主要介绍伴鱼离线数据仓库的发展历史,在发展过程中遇到的各种问题,以及针对问题的金马国际的解决方案。

本文将对近三年来数据科学工作台的发展进行回顾和总结。

6 月 21 日,apache 软件基金会宣布,kyuubi 以全票通过的表现,正式进入 apache 基金会孵化器。

当你的数据集变得越来越大,迁移到 spark 可以提高速度并节约时间。

目前「palink」项目已经落地并投入使用,很好地满足了伴鱼业务在实时场景的需求。

本文基于 apahce spark 3.1.1 版本,讲述 aqe 自适应查询优化的原理,以及网易数帆在 aqe 实践中遇到的痛点和做出的思考。

本期,网易数据科学中心总监余利华现身大咖说,他将结合自身在大数据领域的从业经历,分析大数据技术应用逐步升级的脉络,解读背后的业务需求与认知陷阱。

随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀,业界最近几年就一直聚焦并探索于两个相关的热点问题:实时数仓建设和大数据架构的批流一体建设。

“榨干”emr 开销

在 kylin 五周年庆典中,来自 spark,hudi,clickhouse 以及 kylin 等开源社区的大佬,来了一场跨越时差,跨越区域的“云”上对谈。

spark shuffle write 框架的内部机制与设计

fate 1.5 lts 版本支持使用 spark 作为底层的计算引擎,本文将对其实现细节以及使用进行简单介绍,方便用户在实际的使用过程中进行调优或者排查错误。

下一步将是 ipo?

spark3.0 已经发布半年之久,这次大版本的升级主要是集中在性能优化和文档丰富上,其中 46% 的优化都集中在 spark sql 上,sql 优化里最引人注意的非 adaptive query execution 莫属了。

我们在之前的文章中提到过《大数据可视化从未如此简单 - apache zepplien 全面介绍》一文中介绍了 zeppelin 的主要功能和特点,并且最后还用一个案例介绍了这个框架的使用。这节课我们用两个直观的小案例来介绍 zepplin 和 spark 如何配合使用。

本篇文章作者想分享一下 spark 3.0 在 freewheel 大数据团队升级背后的故事和相关的实战经验。

spark 存储系统如何为任务的执行提供基础保障?

本期“权力的游戏”将带您走进 spark 调度系统,笔者将竭尽全力与您一起揭开 spark 调度系统的神秘面纱。

如果说 rdd 是 spark 对于分布式数据模型的抽象,那么 dag 就是 spark 对于分布式计算模型的抽象。

近几年,随着数据湖概念的兴起,业界对于数据仓库和数据湖的对比甚至争论始终不断。数据仓库和数据湖的区别到底是什么?本文作者来自阿里巴巴计算平台部门,在深度参与阿里巴巴大数据 / 数据中台领域建设之后,将对数据湖和数据仓库的来龙去脉进行深入剖析,阐述两者融合演进的新方向——湖仓一体。

作为系列的第一篇,本文作者将从 spark 的起源探索其背后的原理,并对一些开发过程中的常见问题提供解决方法。

apache spark ai 开源社区进展 & 实际案例分享 | 大咖说

的积极性也水涨船高。应用到生产,单单模型和算法好是远远不够的。的大规模应用。及周边生态系统进行了一系列的工作。

本次分享题目为基于 spark 的大规模推荐系统特征工程及优化,主要内容包括:大规模推荐系统;spark sql 应用与 fesql;基于 llvm 的 spark 优化。

本文是对 spark 组件的一个非常简单的介绍,其主要目的是提供对 spark 架构的一般理解。

在 spark ai 峰会首日主题演讲中,databricks 带来了一系列重磅发布。

“面试造火箭,入职拧螺丝”这个梗不适合 space x,因为他们入职就真的可以造火箭了。

spark 3.0 开发历时近两年终于发布,都有哪些重要功能?

本文将从大数据架构变迁历史,pravega 简介,pravega 进阶特性以及车联网使用场景这四个方面介绍 pravega,重点介绍 dellemc 为何要研发 pravega,pravega 解决了大数据处理平台的哪些痛点以及与 flink 结合会碰撞出怎样的火花。

本文阐述了 facebook 流处理服务管理平台 turbine 的架构设计考量及实现。

  • 关注

    暂无签名

  • 关注

    暂无签名

  • 关注

    暂无签名

    火山引擎虚拟化可靠性建设实践

    皮振伟 | 字节跳动 火山引擎云计算高级工程师

    立即下载
    云音乐搜索体系重塑之路

    李珊珊 | 网易云音乐 实时计算团队在线服务负责人

    立即下载
    基于 kubernetes 的海量实时视频分析架构实践

    崔衡 | 阿里巴巴 技术专家

    立即下载
  • 阿里巴巴

    共 1120 篇内容

  • 共 253 篇内容

  • 共 180 篇内容