大数据：高可用spark分布式集群搭建頭條網

2020-12-26 22:59:57 佚名

免密登录配置

1 所有节点生成密钥

<code>  -t rsa
 
 
ls
 -atrl
/<code>

.ssh文件夹目录说明：

id_rsa：私钥

id_rsa.pub：公钥

2 主节点生成认证文件

<code>cat .ssh/id_rsa.pub >> .ssh/authorized_keys
 
 
do
 i in
 {1
..2}; 
ssh 192.168
.23.22$i cat .ssh/id_rsa.pub >> .ssh/authorized_keys;
done
 
ssh 192.168
.23.216 cat .ssh/id_rsa.pub >> .ssh/authorized_keys;
 
do
 i in
 {1
..2 
}; 
scp .ssh/authorized_keys pjb@192.168.23
.22
$i:/home/pjb/.ssh/authorized_keys
done
 
scp .ssh/authorized_keys pjb@192.168.23
.216
:/home/pjb/
.ssh/authorized_keys/<code>

3 所有节点授权

<code> 
chmod
 -R
 700
 .ssh
chmod
 -R
 600
 .ssh/authorized_keys
 
ssh
 192.168
.23
.222
/<code>

zookeeper集群搭建

1 下载

zookeeper官网：https://zookeeper.apache.org/releases.html

zookeeper安装包：apache-zookeeper-3.5.7-bin.tar.gz

2 上传服务器

将zookeeper安装包上传到各个节点：192.168.23.221-223

3 安装

1）准备工作

<code>#解压

tar

-zxvf

apache-zookeeper-3

.7-bin

.tar

.gz

apache-zookeeper-3

.7-bin

#创建数据和日志目录

mkdir

data

mkdir

logs

#复制生成

zoo

.cfg

文件

conf

zoo_sample

.cfg

zoo

.cfg

/<code>

2）修改zoo.cfg文件

<code> 
dataDir
=/home/pjb/bigdata/apache-zookeeper-3.5
.7-bin/data
dataLogDir
=/home/pjb/bigdata/apache-zookeeper-3.5
.7-bin/logs

 
server.1
=KUD01:2888
:3888
server.2
=KUD02:2888
:3888
server.3 
=KUD03:2888
:3888
/<code>

3）创建myid文件

根据zoo.cfg中各个节点配置myid信息，即：server.myid编号，在各个节点的data目录下创建myid文件

<code> 
cd /home/pjb/bigdata/apache-zookeeper-3.5.7-bin/data
echo 1 >> myid
/<code>

4）启动

在各个节点执行

<code>cd /home/pjb/bigdata/apache-zookeeper-3.5.7-bin/bin
 
./zkServer.sh start
 
./zkServer.sh status
 
/<code>

spark集群规格

spark集群规格

1 下载

spark官网：http://spark.apache.org/

spark安装包：spark-2.4.5-bin-hadoop2.7.tgz

2 安装配置

1）修改spark-env.sh文件

<code>export JAVA_HOME=/usr/java/jdk1.8.0_172
 
 
export
 SPARK_DAEMON_JAVA_OPTS="
　　-Dspark.deploy.recoveryMode=ZOOKEEPER
　　-Dspark.deploy.zookeeper.url=KUD01,KUD02,KUD03　
　　-Dspark.deploy.zookeeper.dir=/spark-info"
/<code>

2）将spark-env.sh复制到其他所有节点

3）启动主节点(192.168.23.221)

<code>cd /home/pjb/bigdata/spark-2.4.5-bin-hadoop2.7/sbin
./start-all.sh/<code>

4）启动备份主节点(192.168.23.216)

<code>cd /home/pjb/bigdata/spark-2.4.5-bin-hadoop2.7/sbin
./start-master.sh/<code>

5）验证

主节点：http://192.168.23.221:8080/

spark管理页面

备份主节点：http://192.168.23.216:8080/

spark管理页面

提交一个spark应用到spark集群运行

<code>cd /home/pjb/bigdata/spark

-2.4

-bin-hadoop2

/bin/spark-submit --master spark:/

/KUD01:

7077

,HSlave02:

7077

class

org

apache

spark

examples

SparkPi

executor

memory

2048

total

executor

cores

examples

jars

spark

examples_2

.11-2.4.5.

jar

1000

/<code>

--executor-memory 每个executor使用的内存大小

--total-executor-cores 整个app使用的核数

运行spark shell

spark-shell是一个交互式的命令行，里面可以写spark程序，方便学习和测试，它也是一个客户端，用于提交spark应用程序

1 local模式

<code>/bigdata/spark-2.4.5-bin-hadoop2.7/bin/spark-shell /<code>

上面的方式没有指定master的地址，即用的是spark的local模式运行的（模拟的spark集群运行的过程）

2 集群模式

<code>/bigdata/spark-2.4.5-bin-hadoop2.7/bin/spark-shell --master spark:/
/KUD01:7077
,192.168
.23
.216
:7077
/<code>

上面是指定了master的地址，那么就会将任务提交到集群，开始时sparksubmit（客户端）要连接Master，并申请计算资源（内存和核数），Master进行资源调度（就是让那些Worker启动Executor），在准备工作时，这些进程都已经创建好了

spark-shell

3 完成WordCount

<code>sc
.textFile
("hdfs://KUD01:9000/spark/test"
).flatMap
(_.split(" "
)).map
((_,1
)).reduceByKey
(_+_).sortBy
(_._2,false).collect
/<code>

分享到:

關鍵字: pjb 生成 192.168

大数据：高可用spark分布式集群搭建

免密登录配置

zookeeper集群搭建

spark集群规格

提交一个spark应用到spark集群运行

运行spark shell

相關文章:

潜逃压力过大暴瘦40多斤，一涉黑A级通缉犯在河北投案自首

当我们在谈 SaaS 的时候，在谈什么？

合同诈骗的类型有哪些？企业无力偿还借款是否构成合同诈骗罪？

5月西安招聘会时间安排来了！找工作的别错过

刚刚工作的毕业生，一个月只有2000多，是不是太少了？

全球闹「美元荒」带动稳定币需求暴增！以太坊交易量创近两年新高

“帮助当地居民解决用水难题”-今日头条-手机光明网

灌篮高手无水印壁纸，每一张都是回忆

通辽蓝天救援队成功解救辽河公园水上被困群众

5月6日·武汉要闻及抗击肺炎快报

肖副省长等省市领导到孝感市楚澴中学调研九年级复学暨疫情防控常态化工作

相声界的颜值担当张云雷称号大揭秘

美国百年薅羊毛攻略

《全职高手》：一口气刷了10集，对杨洋路转粉了

共同承担责任！Rookie谈BP问题：输了是我们打得太臭

LOL"中韩对抗赛"遭选手反对？Zoom直言不想打，Doinb的回答太真实

李亚鹏携李嫣出席慈善晚会，李嫣手上钻戒抢镜，1个动作获夸赞！

53岁郭富城再度升级当爸，方媛怀二胎，Chant要做姐姐了

那些拼命的演员：王宝强喝了一大桶牛奶，孙俪吃10斤瓜子

贾乃亮用上了“一米阳光”这个词，他依然渴望拥有美丽的爱情！

搞笑GIF开心一刻：我的老家农村，有妹子愿意嫁给我吗？

为什么只有edg赚钱？

程潇身材多好？双腿劈叉才明白，这才是“腿精”

张柏芝承认三胎产子，否认小伙的老爸是孙东海，看来她选择保密

T1战队抢注Faker商标，“囊括多个领域产品，商业潜力媲美乔丹”

云顶之弈“最不平衡的版本”诞生，全员抢一费卡，运气成吃鸡关键

LPL春季赛"6宗最"：Uzi最遗憾，阿水最惊喜，V5最离谱

雷佳音被问：跟佟丽娅拍那么多亲热戏是啥感受？他的回答笑翻众人

JDG成最“惨”冠军战队？拿到LPL冠军人气依旧低迷，TES成赢家！

#战疫必胜#“症和状”都有了，我与新冠擦肩而过

T1提议中韩友谊赛，但LPL队伍都不想参加？理由其实很简单

网友投稿：光山县泼陂河镇至白雀园镇的X015县道德两座坏桥经过5个月的等待终于开修啦#光山 #信阳

2020最佳韩剧追起来~《爱的迫降》仅排名第二，TOP 1绝对实至名归

搞笑GIF开心一刻：我正在睡觉，谁敢打扰我

备考消防的几大错觉，你有这个情况吗？

“顶流”李敏镐哑火，渣男出轨剧出圈，韩剧观众也长大了？

网上罗马仕充电宝20000毫安的，参数怎么很多样？哪个是真的？

应急科普丨“五一” 期间气温回升 谨防森林火灾隐患

搞笑GIF开心一刻：拍照啦，赶紧看镜头

工程发承包、工程造价条款，或迎来大调整

新增四省！关于2019年一级建造师考试证书、复核发布公告

学霸也会复读？朱广权这个圈粉无数的国民段子手是如何炼成的！

幸福的人，总会忘记旧爱

真人芭比：一直说自己“没整容”最后晒出旧照，打脸的却是自己

惊了！这件事没有做，一消证书等于白考！

8年后，有哪些人会留在农村生活？以下4类人群或将留下，有你吗

唯一回绝张艺谋力捧的女生，被报送上清华，25岁有上百亿身家

疫情下的悲剧：买不起手机上网课，那个女孩决定吞药自杀

李栋旭刘仁娜新剧开拍，互对台词欢乐多，终于要开始撒狗粮了吗？

高考延期：七月的高考，最热的天，做最难的题！

应急科普丨“五一” 期间气温回升谨防森林火灾隐患