Spark2.1.0之模块设计

在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》和《Spark2.1.0之基础知识》两篇文章。本文将主要介绍Spark2.1.0版本中的模块设计以及各个模块的功能和特点。整个Spark主要由以下模块组成:Spark Core:Spark的核心功能实现,包括:基础设施、Sp...

2018-06-05 10:00:02

阅读数 1223

评论数 2

Spark2.1.0之剖析spark-shell

        通过在spark-shell中执行word count的过程,让读者了解到可以使用spark-shell提交Spark作业。现在读者应该很想知道spark-shell究竟做了什么呢?脚本分析        在Spark安装目录的bin文件夹下可以找到spark-shell,其中有代...

2018-04-20 09:30:10

阅读数 2599

评论数 0

Spark1.6.0功能扩展——为HiveThriftServer2增加HA

前言 HiveThriftServer2是Spark基于HiveServer2实现的多Session管理的Thrift服务,提供对Hive的集中式管理服务。HiveThriftServer2作为Yarn上的Application,目前只支持yarn-client模式——即Driver运行在本地,A...

2018-04-16 10:10:36

阅读数 1393

评论数 0

Spark1.6.0——HiveThriftServer2的生命周期管理

前言 几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到Spark的Thrift服务,当时心中就笃定它肯定与HiveServer2有着某种联系,直到在工...

2018-03-09 11:43:03

阅读数 3450

评论数 0

Hive通过查询语句向表中插入数据过程中发现的坑

在学习使用Hive的过程中,发现了一些坑,它们或许是Hive提倡的比关系数据库更加自由的体现(同时引来一些问题),或许是一些bug。总而言之,这些都需要使用Hive的开发人员额外注意。本文旨在列举我发现的2个通过查询语句向表中插入数据过程中的问题,希望大家注意。

2016-07-21 09:47:54

阅读数 22790

评论数 8

提示
确定要删除当前文章?
取消 删除