再见！大数据！

tech2025-03-07 93

大数据成神之路

Spark/Kafka/Flink/ElasticSearch/Hadoop/Hbase/Hive/Yarn/Kylin/Redis/.../...大数据大神。

【过往记忆大数据】已开通技术交流及招聘求职内推群，加微信号fangzhen0219 为好友备注进招聘/技术群。

（如提示添加过于频繁，可添加备用微信号deltalake）

各大厂大数据实践

阿里巴巴

阿里巴巴大数据在高德地图上的应用

阿里架构总监一次讲透中台架构，13页PPT精华详解，建议收藏！

爱奇艺

爱奇艺在日志实时数据监控的探索与实践

基于 Apache Druid 的实时分析平台在爱奇艺的实践

日均处理万亿条数据，爱奇艺实时计算平台设计

爱奇艺大数据实时分析平台的建设与实践

爱奇艺海量数据实时分析架构的演进

小米

小米 MySQL 数据实时同步到大数据数仓的架构与实践

Kylin 在小米大数据中的应用

Kylin 迁移到 HBase 实践在小米的实践

支撑小米万亿级的消息队列架构与实践

马蜂窝

Kafka 集群在马蜂窝大数据平台的优化与应用扩展

马蜂窝实时计算平台的演进

网易

网易分布式数据库多活架构的演进与实践

美团

美团点评实时数仓实践

支撑美团万亿级数据中心的计算引擎架构演进

Apache Doris在美团外卖数仓中的应用实践

美团1万台 Hadoop 集群 YARN 的调优之路

美团 MySQL 数据实时同步到 Hive 的架构与实践

每天数百亿用户行为数据，美团点评怎么实现秒级转化分析？

eBay

Apache Flink 服务化在 eBay 的实践

Apache Spark 在eBay 的优化

Kylin on Kubernetes 在 eBay 的实践

3年从200个数据用户发展到6000人，eBay的大数据平台是如何做到的？

实战 | eBay PB级日志系统的存储方案实践

快手

Flink在快手实时多维分析场景的应用

Hadoop YARN 在快手的应用实践与技术演进之路

日均处理万亿数据！Flink在快手的应用实践与技术演进之路

快手 HBase 在千亿级用户特征数据分析中的应用与实践

SQL on Hadoop在快手大数据平台的实践与优化

银行

工行“去O”数据库选型与分布式架构设计

光大银行分布式实战：国内最大缴费平台的数据库架构转型

58

58同城 Elasticsearch 应用及平台建设实践

58同城宝实时数仓建设实践

58同城 HBase 平台建设实践

58全站用户行为数据仓库建设及实践

58同城离线计算平台设计与实践

Kylin 在 58 集团的实践和应用

58同城实时计算平台架构实践

海量日志分析平台在 58 集团的实践

贝壳

分布式图数据库在贝壳的应用实践

Uber

Uber 如何使用 Apache Hudi 支撑 PB 级数据湖

面对业务增长，Uber是如何扩展HDFS文件系统的

Uber 大数据平台的演进（2014~2019）

Apache Hudi: Uber 开源的大数据增量处理框架

趣头条

趣头条基于Flink+ClickHouse的实时数据分析平台

ClickHouse 在趣头条的实践

趣头条百 PB 规模 Hadoop 实践

使用 Spark 和 Delta Lake 构建近实时数据仓库实时平台在趣头条的建设实践

京东

京东 8000+ 台 Hadoop 集群平台化之路

京东大数据平台进化之路

日均5亿查询量的京东订单中心，为什么舍MySQL用ES?

京东HBase平台进化与演进

电商

跨境电商 Shopee 的实时数仓演进之路

字节跳动

YARN 在字节跳动的优化与实践

字节跳动 EB 级 HDFS 实践

Spark-SQL 在字节跳动的应用实践

Facebook

来自 Facebook 的 Spark 大作业调优经验

60TB 数据量的作业从 Hive 迁移到 Spark 在 Facebook 的实践

Apache Cassandra 在 Facebook 的应用

腾讯

QQ音乐PB级ClickHouse实时数据平台架构演进之路

千台 ElasticSearch 集群在腾讯的优化实践

支撑腾讯直播百亿请求的 Redis 集群是如何工作的

腾讯万亿级 Elasticsearch 技术解密

携程

数万实例数百TB数据量，携程Redis治理演进之路

每天十亿级数据更新，秒出查询结果，ClickHouse在携程酒店的应用

Apache Kylin 在携程的实践

Spark SQL在携程的实践经验分享

携程机票数据仓库建设之路

100亿+数据量，每天50W+查询，携程酒店数据智能平台实践

bilibili

bilibili 实时计算平台架构与实践

滴滴

滴滴ElasticSearch平台跨版本升级以及平台重构之路

HBase 不停机升级在滴滴的实践

Apache Flink在滴滴的应用与实践

滴滴Elasticsearch多集群架构实践

SQL 开发任务超 50% ！滴滴实时计算的演进与优化

Hadoop 2.7 不停服升级到 3.2 在滴滴的实践

有赞

有赞数据仓库实践之路

蘑菇街

蘑菇街千亿级消息Kafka上云实践

360

Apache Kafka 在 360 的深度实践

实时离线一体化系统在 360 的应用

菜鸟

菜鸟供应链实时数仓的架构演进及应用场景

一点资讯

Apache Kylin 在一点资讯的实践

唯品会

唯品会 1000+ 台 Hadoop 集群优化经验

日跑几十万作业，唯品会HDFS是如何优化的

斗鱼

斗鱼在线分析平台演进之路

雅虎

雅虎日本如何用 Pulsar 构建日均千亿的消息平台

微博

万亿级日访问量下，Redis在微博的9年优化历程

甜橙金融

甜橙金融如何利用 Apache Pulsar 在日均上亿的交易中抵御金融诈骗

百分点

百分点万亿级大数据平台的建设实践

网易

网易云音乐的消息队列改造之路

Spark & Alluxio在网易严选架构演进中的实践和探索

OPPO

基于 Flink SQL 构建实数据仓库在 OPPO 的实战

OPPO 离线数仓到实时数仓库的演进

Spark系列

Apache Spark 3.0.0 正式版终于发布了，重要特性全面解析

Spark SQL 物化视图技术原理与实践

面试必知的 Spark SQL 几种 Join 实现

如何使用 Spark 3.0 中新加的 Structured Streaming UI 来进行异常分析

Spark on K8S 的最佳实践和需要注意的坑

Spark + AI Summit North America 202006 高清 PPT 全部更新完

Apache Spark 3.0 中的向量化 IO

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

Spark 3.0 中七个必须知道的 SQL 性能优化

Spark SQL 中 Broadcast Join 一定比 Shuffle Join 快？那你就错了。

你要的 Spark AI Summit 2020 PPT 我已经给你整理好了

马铁大神的 Apache Spark 十年回顾

Spark 3.0 自适应查询优化介绍，在运行时加速 Spark SQL 的执行性能

图文介绍 SQL 的三种查询计划处理模型，Spark 用了其中两个

Spark 3.0 终于支持 event logs 滚动了

实战 | 利用Delta Lake使Spark SQL支持跨表CRUD操作

Spark Executor内存管理

Apache Spark 将支持 Stage 级别的资源控制和调度

八种解决 Spark 数据倾斜的方法

Delta Lake 和 Apache Hudi 两种数据湖产品全方面对比

Delta Lake 0.5.0 正式发布，支持包括 Hive/Presto 等多种查询引擎

一文了解 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）的使用

Apache Spark 3.0 预览版正式发布，多项重大功能发布

一文了解 Apache Spark 3.0 动态分区裁剪（Dynamic Partition Pruning）

使用 Spark 和 Delta Lake 构建近实时数据仓库

Spark+AI Summit Europe 2019 超清视频&PPT下载

重磅｜Spark Delta Lake 现在由Linux基金会托管，将成为数据湖的开放标准

Spark Delta Lake 0.4.0 发布，支持 Python API 和部分 SQL

Apache Spark 中编写可伸缩代码的4个技巧

云栖大会 | Apache Spark 3.0 和 Koalas 最新进展

Apache Spark Delta Lake 写数据使用及实现原理代码解析

深入理解 Apache Spark Delta Lake 的事务日志

一文理解 Apache Spark DataSource V2 诞生背景及入门实战

深入理解 Spark SQL 查询引擎

Spark & Alluxio在网易严选架构演进中的实践和探索

一条 SQL 在 Apache Spark 之旅（下）

一条 SQL 在 Apache Spark 之旅（中）

一条 SQL 在 Apache Spark 之旅（上）

深入理解 Spark Delta Lake 的诞生及其工作原理

Spark-SQL 在字节跳动的应用实践

深入理解 Spark SQL 查询引擎

通过 Spark Streaming Listener 监控程序

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

Koalas: 让 pandas 开发者轻松过渡到 Apache Spark

.NET for Apache Spark 预览版正式发布

重磅 | Apache Spark 社区期待的 Delta Lake 开源了

Apache Spark 2.4 回顾以及 3.0 展望

SHC：使用 Spark SQL 高效地读写 HBase

Apache Spark 未来：Spark 3.0 预览

Apache Spark 3.0 将内置支持 GPU 调度

牛人用 Rust 重写了 Apache Spark，并把它开源了

是时候考虑让你的 Spark 跑在 K8s 上了

使用Spark Streaming SQL进行PV/UV统计

吐血之作 | 流系统Spark/Flink/Kafka/DataFlow端到端一致性实现对比

使用Apache Arrow助力PySpark数据处理

看完这篇文章还不懂 Spark 的 Adaptive Execution ，我去跪榴莲！

Spark on Kubernetes 的现状与挑战

Spark SQL 之 Join 实现

通过 Spark Streaming Listener 监控程序

是时候放弃 Spark Streaming, 转向 Structured Streaming 了

Airbnb 是如何通过 balanced Kafka reader 来扩展 Spark streaming 实时流处理能力的

MapReduce Shuffle 和 Spark Shuffle 区别看这篇就够了

Kafka系列

Kafka原理和实践

图文了解 Kafka 的副本复制机制

Kafka原理和实践

Kafka 是靠什么机制保持高可靠，高可用的？

大规模使用 Apache Kafka 的20个最佳实践

Kafka 基础面试知识都在这，你都知道嘛？

Kafka是靠什么机制保持高可靠，高可用的？

Apache Kafka 2.3 发布，新特性讲解

Kafka 是如何保证数据可靠性和一致性

Kafka架构原理，也就这么回事！

一文彻底搞清 Kafka 的副本复制机制

Apache Kafka 不需要管理员：删除 Apache ZooKeeper 的依赖

32 道常见的 Kafka 面试题你都会吗？附答案

Apache Kafka 2.5 稳定版发布，新特性抢先看

Kafka 是如何保证数据可靠性和一致性

从未如此简单：10分钟带你逆袭 Kafka！

如何快速全面掌握Kafka？5000字吐血整理

Apache Kafka 2.4 正式发布，重要功能详细介绍

如何为Kafka集群选择合适的Topics/Partitions数量

32 道常见的 Kafka 面试题你都会吗？附答案

两万字深入剖析Kafka，你学会了吗？

Kafka 是如何保证数据可靠性和一致性

Apache Kafka 2.3 发布，新特性讲解

Kafka创建Topic时如何将分区放置到不同的Broker中Kafka运维大全来了！优化、监控、故障处理……

不知道这些知识点，面试的时候别说你懂 Kafka

一篇文章了解 Kafka 幂等性的原理及实践

看完这篇还不会kafka，我跪榴莲！

大规模使用 Apache Kafka 的20个最佳实践

Flink系列

从 0 到 1 搭建一套 Flink 的监控系统

Apache Flink 1.11.0 重要功能全面解析

深入分析 Flink SQL 工作机制

即将发布的 Flink 1.11 新特性：流批一体的 Hive 数仓

重磅！Apache Flink 1.11 功能抢先看！

Flink Checkpoint 原理流程以及常见失败原因分析

一文了解 Apache Flink 的资源管理机制

如何实时监控 Flink 集群和作业？

Apache Flink 1.9新功能介绍及使用

Flink面试，看这篇就足够了

Flink Forward Asia 2019 总结和展望 - 附PPT下载

Flink Forward 201904 PPT资料下载

一文让你彻底了解大数据实时计算引擎 Flink

干货 | Flink Connector 深度解析

Apache Flink 是如何管理好内存的？

ElasticSearch系列

Elasticsearch 在各大互联网公司大量真实的应用案例！

完美避坑！记一次Elasticsearch集群迁移架构实战

Elasticsearch如何做到亿级数据查询毫秒级返回？

我为什么用 ElasticSearch 做 Redis 监控?

成人网站泄露 108 亿数据后，一个 Elasticsearch 爱好者的思考

Elasticsearch用得好，下班下得早

从腾讯云到自建机房？ES集群迁移架构实战

ElasticSearch 亿级数据检索案例实战

Solr vs ElasticSearch，搜索技术哪家强

看完这篇文章，再也不怕 Elasticsearch 索引设计

基于 MySQL Binlog 的 Elasticsearch 数据同步实践

Open Distro for Elasticsearch：AWS 自家版本的开源 ElasticSearch

基于 MySQL Binlog 的 Elasticsearch 数据同步实践

Elasticsearch 冷热集群架构实战

400+节点的 Elasticsearch 集群运维

全文搜索引擎 ElasticSearch 还是 Solr？

Elasticsearch解决问题之道——请亮出你的DSL！

终于有人把elasticsearch原理讲通了！

ElasticSearch 性能调优，让你的集群飞起来

Elasticsearch调优实践

让Elasticsearch飞起来！百亿级实时查询优化实战

Elasticsearch SQL用法详解

Elasticsearch如何做到亿级数据查询毫秒级返回？

Elasticsearch 7.x Nested 嵌套类型查询

看完这篇还不会 Elasticsearch，我跪搓衣板！

面试3连炮：聊聊ES写入数据的原理？查询数据的原理？倒排索引了解吗？

Hadoop系列

Apache Hadoop 3.x 最新状态以及升级指南

Hadoop 原生分布式对象存储 Ozone

Hadoop 气数已尽？

Apache Hadoop 的 HDFS federation 前世今生

{Submarine} 在 Apache Hadoop 中运行深度学习框架

百PB级Hadoop集群存储空间治理

HBase系列

为什么不建议在 HBase 中使用过多的列族

为了让你更全面的了解Apache HBase，我们做了这本专刊

HBase 中加盐之后的表如何读取：Spark 篇

HBase 中加盐之后的表如何读取：协处理器篇

HBase 协处理器入门及实战

HBase 入门之数据刷写(Memstore Flush)详细说明

HBase 客户端避坑指南

漫谈HBase Filter

HBase 四种数据迁移方案

HBase 协处理器入门及实战

MongoDB、Cassandra 和 HBase 三种 NoSQL 数据库比较

HBase Shell 十大花式玩法

Hive系列

在 Hive 中使用 OpenCSVSerde

Apache Hive JdbcStorageHandler 编程入门指南

Apache Hive 联邦查询（Query Federation）

数据湖系列

基于Apache Iceberg打造T+0实时数仓

全方位解读数砖的 Delta Engine

Apache Hudi：统一批和近实时分析的存储和服务

Apache iceberg：Netflix 数据仓库的基石

Delta Lake、Iceberg 和 Hudi 三大开源数据湖不知道如何选？那是因为你没看这篇文章

Apache Hudi应用调优指南

数据仓库、数据湖、流批一体，终于有大神讲清楚了！

恭喜，Apache Hudi 即将成为顶级项目！

Delta Lake 0.5.0 新功能介绍

还在玩数据仓库？现在已经是 LakeHouse 时代！

一篇文章掌握 delta、iceberg 和 hudi 三大开源数据湖方案

Kylin系列

5000 字带你快速入门 Apache Kylin

如何在 Kylin 中优雅地使用 Spark

Kylin 在满帮集团千亿级用户访问行为分析中的应用

Redis系列

Redis 集群原理，再也不怕面试被问倒

看完这篇再也不怕 Redis 面试了

Redis 6.0 稳定版发布，支持多线程 IO

不懂Redis Cluster原理，我被同事diss了！

Redis基础你掌握多少了？来查漏补缺？

深度好文| Redis面试全攻略

Hello Redis，我有7个问题想请教你！

深入学习 Redis 集群搭建方案及实现原理

为什么 Redis 选择单线程模型却能提供高并发请求

再有人面试问你 Redis 分布式锁的实现，把这篇文章甩给他

七问Redis，才知道我与技术大牛的差距在哪里

Zookeeper系列

一文彻底理解ZooKeeper分布式锁的实现原理

ZooKeeper 源码和实践揭秘

这可能是介绍 ZooKeeper 最好的文章了

很遗憾，没有一篇文章能讲清楚ZooKeeper

运维老鸟告诉你这个经典Zookeeper问题的根因

其他

为什么那么多 OLAP 系统选择列式存储？

Apache Doris：基于 MPP 的交互式SQL数据仓库，可用于 OLAP

Apache Arrow：跨平台的内存数据交换格式

日志采集系统都用到哪些技术？

大数据平台架构设计没思路？来看这篇就知道了！

大数据必备的十大工具

数据中台到底怎么建设，有人把他说清楚了

Apache Pulsar 发布 2.5.1 版本

从数仓到数据中台，谈技术选型最优解

实时数据架构，终于有人把他说清楚了！

分布式定时任务调度框架实践

从MongoDB迁移到ES后，我们减少了80%的服务器

身份证上的 ID 能保证唯一性么？

基于 MySQL Binlog 实现可配置的异构数据同步

浓缩精华的架构演进过程，我连看了八遍！

常见的大数据平台架构设计思路

大数据方向学习面试知识图谱

盘点2019年晋升为Apache TLP以及进去Apache孵化器的大数据相关项目

一文了解 Apache Cassandra 是什么

MongoDB 4.2 发布，支持分布式事务

分布式原理：一致性哈希算法简介

分布式原理：一文了解 Gossip 协议

一文了解一致性哈希

几种常见的数据分区方法

Docker 核心技术与实现原理

当小内存遇上大量数据，你该怎么解决这个问题？

我花了10个小时，写出了这篇K8S架构解析

如何利用Kubernetes集群提升资源利用率？

为什么大数据分析系统大都用列式存储？看了这篇文章你就知道了

从行存储到 RCFile，Facebook 为什么要设计出 RCFile？

列式存储和行式存储它们真正的区别是什么

支撑百万并发的“零拷贝”技术，你了解吗？

Sql Or NoSql，看完这一篇你就都懂了

大数据面试知识图谱

如何保证消息队列的可靠性传输？

大数据平台常见开源工具集锦(强烈推荐收藏)

（如提示添加过于频繁，可加备用号deltalake）

如果本文对你有帮助，跪求【分享】【赞】【在看】【评论】

过往记忆认证博客专家过往记忆大数据大数据 iteblog

最新回复(0)

再见！大数据！

大数据成神之路

（如提示添加过于频繁，可添加备用微信号deltalake）

各大厂大数据实践

阿里巴巴

爱奇艺

小米

马蜂窝

网易

美团

eBay

快手

银行

58

贝壳

Uber

趣头条

京东

电商

字节跳动

Facebook

腾讯

携程

bilibili

滴滴

有赞

蘑菇街

360

菜鸟

一点资讯

唯品会

斗鱼

雅虎

微博

甜橙金融

百分点

网易

OPPO

Spark系列

Kafka系列

Flink系列

ElasticSearch系列

Hadoop系列

HBase系列

Hive系列

数据湖系列

Kylin系列

Redis系列

Zookeeper系列

其他

推荐阅读

（如提示添加过于频繁，可加备用号deltalake）