Spark—RDD理解

RDD(Resilient distributed dataset)弹性分布式数据集,是 Spark 中的最基础的抽象,代表一个不可变、可分区、可以被并行计算的元素集合,被计算的 RDD 全部的缓存在内存中。
阅读全文

Hbase的预分区及RowKey的设计

HBase默认建表时有一个region,这个region的rowkey是没有边界的,即没有startkey和endkey。在数据写入时,所有数据都会写入这个默认的region。随着数据量的不断增加,这个默认的region会越来越大,当达到某个阈值会自动split成为2个region。
阅读全文

HBase学习—HBase 相关原理

从HBase的架构图上可以看出,HBase中的组件包括Client、Zookeeper、HMaster、HRegionServer、HRegion、BlockCache、Store、MemStore、StoreFile、HFile、HLog等,接下来介绍他们的作用。
阅读全文

HBase学习—HBase概述

HBase 是 BigTable (2006年google推出的论文,也是google内部在使用的工具)的开源(源码使用 Java 编写)版本。是 Apache Hadoop 的数据库,是建立在 HDFS 之上,被设计用来提供高可靠性、高性能、列存储、可伸缩、多版本的 NoSQL 的分布式数据存储系统,实现对大型数据的实时、随机的读写访问。
阅读全文

zookeeper选举机制

ZooKeeper是一个开源分布式协调服务、分布式数据一致性解决方案。可基于ZooKeeper实现命名服务、集群管理、Master选举、分布式锁等功能。本文主要分析的是zookeeper的选举机制,zookeeper提供三种方式进行选举leader,主要分析默认的`FastLeaderElection`算法。
阅读全文

Spark 核心篇 - 任务调度 4 执行 Task

上一节分析到Driver端在Task执行前的所有工作,这部分工作主要是在TaskSechduler和SchedulerBackend中完成的,处理完成后将Task交由Work上的Executor执行 通过保存的`executorEndpoint`进行发送任务及数据。
阅读全文
本文目录
    Loading...