原创Spark 示例 Spark

Spark RDD

发表于2025-01-13更新于2025-01-13

字数总计:331阅读时长:1分钟阅读量: 神州大地评论数:

AI-摘要

Geek GPT

AI初始化中...

介绍自己 🙈

生成本文简介 👋

推荐相关文章 📖

前往主页 🏠

前往爱发电购买

Spark 示例 Spark

Spark RDD

曦2025-01-132025-01-13

RDD叫做弹性分布式数据集，是Spark中最基本的数据抽象，他代表一个不可变、可分区、里面的元素可并行计算的集合。RDD是spark core的底层核心

Dataset:(数据集)

RDD 可以不保存具体数据, 只保留创建自己的必备信息, 例如依赖和计算函数；
RDD 也可以缓存起来, 相当于存储具体数据。

Distributed：

RDD 支持分区, 可以运行在集群中。

Resilient：

RDD 支持高效的容错；
RDD 中的数据即可以缓存在内存中, 也可以缓存在磁盘中, 也可以缓存在外部存储中。

1.RDD的特点：

弹性
- 容错的弹性:数据丢失可以自动恢复;
- 存储的弹性:内存与磁盘的自动切换;
- 计算的弹性:计算出错重试机制;
- 分片的弹性:可根据需要重新分片。
分布式:数据存储在集群不同节点上/计算分布式。
数据集: RDD封装了计算逻辑，并不保存数据。
数据抽象: RDD是一个抽象类，需要子类具体实现。
不可变: RDD封装了计算逻辑，是不可以改变的，想要改变，只能产生新的RDD，在新的RDD里面封装计算逻辑。
可分区、并行计算。

曦

曦

原创 Spark RDD

打赏作者

感谢你赐予我前进的力量

alipay
wechat

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自曦！

示例90 Spark3

喜欢这篇文章的人也看了

Flume Sink Processors sink处理器

docker保存镜像

评论

匿名评论隐私政策

✅ 你无需删除空行，直接评论以获取最佳展示效果

博客快捷键

shift K

关闭快捷键功能

shift A

打开/关闭中控台

shift M

播放/暂停音乐

shift D

深色/浅色显示模式

shift S

站内搜索

shift R

随机访问

shift H

返回首页

shift F

友链鱼塘

shift L

友链页面

shift P

关于本站

shift I

原版/本站右键菜单

数据库加载中