Spark常见故障诊断(一)

本人维护的Spark主要运行在三个Hadoop集群上,此外还有其他一些小集群或者隐私集群。这些机器加起来有三万台左右。目前运维的Spark主要有Spark2.3和Spark1.6两个版本。用户在使用的过程中难免会发生各种各样的问题,为了对经验进行沉淀,也为了给Spark用户提供一些借鉴,这里将对各...

2019-04-01 09:29:18

阅读数 1413

评论数 0

Hadoop2.6.0的FileInputFormat的任务切分原理分析(即如何控制FileInputFormat的map任务数量)

前言 首先确保已经搭建好Hadoop集群环境,可以参考《Linux下Hadoop集群环境的搭建》一文的内容。我在测试mapreduce任务时,发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言,控制map任务数量一直是一个困扰我的问题。好在经过很多摸索...

2016-04-12 13:42:17

阅读数 15356

评论数 0

Spark2.1.0——SparkContext概述

Spark应用程序的提交离不开Spark Driver,后者是驱动应用程序在Spark集群上执行的原动力。了解Spark Driver的初始化,有助于读者理解Spark应用程序与Spark Driver的关系。 Spark Driver的初始化始终围绕着SparkContext的初始化。Spar...

2018-11-12 10:07:23

阅读数 1253

评论数 0

使用Akka构建集群(二)

前言 在《使用Akka构建集群(一)》一文中通过简单集群监听器的例子演示了如何使用Akka搭建一个简单的集群,但是这个例子“也许”离我们的实际业务场景太远,你基本不太可能去做这样的工作,除非你负责运维、监控相关的工作(但实际上一个合格的程序员在实现功能的同时,也应当考虑监控的问题,至少应当接入一...

2017-01-12 16:24:41

阅读数 6921

评论数 0

Spark1.6.0——HiveThriftServer2的生命周期管理

前言 几年前,我在刚刚进入大数据领域的时候,很快就了解到Hive所提供的一种另类的SQL。最初使用Hive的命令行提交任务,后来便用上了HiveServer和HiveServer2。半年前第一次注意到Spark的Thrift服务,当时心中就笃定它肯定与HiveServer2有着某种联系,直到在工...

2018-03-09 11:43:03

阅读数 3422

评论数 0

浅谈——程序员的自我革命

        在程序员这条道路上走过了十一年,即将迎来第十二个年头。之后是否是一个新的轮回?十一年前,从高校毕业后去哪里是当时首要考虑的问题。早在大二第二学期时就没有了要考研的打算,经常翘课回到宿舍鼓捣各种计算机软件,还记得当时最感兴趣的就是3DsMax和Flash了。这两款软件在那时风靡全球,...

2018-10-29 10:17:42

阅读数 5339

评论数 34

Spark2.1.0之内置RPC框架

        在Spark中很多地方都涉及网络通信,比如Spark各个组件间的消息互通、用户文件与Jar包的上传、节点间的Shuffle过程、Block数据的复制与备份等。在Spark 0.x.x与Spark 1.x.x版本中,组件间的消息通信主要借助于Akka[1],使用Akka可以轻松的构建...

2018-06-27 09:27:34

阅读数 8142

评论数 3

spark2.1.0之源码分析——RPC客户端TransportClient详解

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-28 10:48:46

阅读数 1280

评论数 0

spark2.1.0之源码分析——RPC服务端引导程序TransportServerBootstrap

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-20 10:56:59

阅读数 2016

评论数 4

spark2.1.0之源码分析——服务端RPC处理器RpcHandler详解

  提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——...

2018-08-13 10:21:13

阅读数 1051

评论数 2

spark2.1.0之源码分析——RPC传输管道处理器详解

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-08-01 10:55:17

阅读数 496

评论数 0

spark2.1.0之源码分析——RPC管道初始化

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》 《spark2.1.0之源码分析——RPC...

2018-07-25 10:32:57

阅读数 1979

评论数 0

spark2.1.0之源码分析——RPC服务器TransportServer

提示:阅读本文前最好先阅读: 《Spark2.1.0之内置RPC框架》 《spark2.1.0之源码分析——RPC配置TransportConf》 《spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory》        TransportServer...

2018-07-17 10:32:36

阅读数 646

评论数 0

spark2.1.0之源码分析——RPC客户端工厂TransportClientFactory

提示:阅读本文前最好先阅读《Spark2.1.0之内置RPC框架》和《spark2.1.0之源码分析——RPC配置TransportConf》。      TransportClientFactory是创建传输客户端(TransportClient)的工厂类。在说明《Spark2.1.0之内置RP...

2018-07-10 10:16:52

阅读数 1359

评论数 0

spark2.1.0之源码分析——RPC配置TransportConf

         在《Spark2.1.0之内置RPC框架》提到TransportContext中的TransportConf给Spark的RPC框架提供配置信息,它有两个成员属性——配置提供者conf和配置的模块名称module。这两个属性的定义如下: private final Config...

2018-07-02 18:31:02

阅读数 826

评论数 0

Spark2.1.0之模型设计与基本架构

Spark编程模型      正如Hadoop在介绍MapReduce编程模型时选择word count的例子,并且使用图形来说明一样,笔者对于Spark编程模型也选择用图形展现。      Spark 应用程序从编写到提交、执行、输出的整个过程如图2-5所示。图2-5   代码执行过程图2-5中...

2018-06-12 09:41:32

阅读数 1555

评论数 6

Spark2.1.0之初识Spark

        随着近十年互联网的迅猛发展,越来越多的人融入了互联网——利用搜索引擎查询词条或问题;社交圈子从现实搬到了Facebook、Twitter、微信等社交平台上;女孩子们现在少了逛街,多了在各大电商平台上的购买;喜欢棋牌的人能够在对战平台上找到世界各地的玩家对弈。在国内随着网民数量的持续...

2018-04-09 09:48:51

阅读数 4055

评论数 12

Spark2.1.0之基础知识

      在阅读本文之前,读者最好已经阅读了《Spark2.1.0之初识Spark》一文,本文将对Spark的基础知识进行介绍。但在此之前,读者先跟随本人来一次简单的时光穿梭,最后还将对Java与Scala在语言上进行比较。版本变迁    经过5年多的发展,Spark目前的版本是2.3.0。Sp...

2018-05-24 09:49:08

阅读数 2163

评论数 0

Spark2.1.0之代码结构及载入Ecplise方法

一、项目结构        在大型项目中,往往涉及非常多的功能模块,此时借助于Maven进行项目、子项目(模块)的管理,能够节省很多开发和沟通成本。整个Spark项目就是一个大的Maven项目,包含着多个子项目。无论是Spark父项目还是子项目,本身都可以作为独立的Maven项目来管理。core是...

2018-05-17 10:01:58

阅读数 985

评论数 0

Spark2.1.0之运行环境准备

       学习一个工具的最好途径,就是使用它。这就好比《极品飞车》玩得好的同学,未必真的会开车,要学习车的驾驶技能,就必须用手触摸方向盘、用脚感受刹车与油门的力道。在IT领域,在深入了解一个系统的原理、实现细节之前,应当先准备好它的运行环境或者源码阅读环境。如果能在实际环境下安装和运行Spar...

2018-05-04 10:15:12

阅读数 1466

评论数 0

提示
确定要删除当前文章?
取消 删除