TDSQL(MySQL版本)集群增加hdfs节点

发布时间 2024-01-06 16:17:07作者: chy_cug

一、需求:
1、在原有集群上面增加3个hdfs节点,替换掉之前的hdfs;
2、将替换掉的3台hdfs中2台 变成proxy节点,增加到第一套集群

二、参考文档:
腾讯云数据库 TDSQL MySQL版_V10.3.19.x.x_部署指南(注意不要使用其中的nokey.sh脚本)

三、操作步骤:
1、启动ansible程序,安装hdfs; 执行“TDSQL MySQL版_V10.3.19.x.x_部署指南”文档中的步骤到这个步骤
ansible-playbook -i tdsql_hosts playbooks/tdsql_hdfs.yml
注意:上面的步骤只在15集群上面操作,下面的步骤需要在15,18集群上面操作。
2、停掉原来的hdfs服务;
2.1集群详情”中修改“HDFS列表”,删除原有配置,填写新的配置;
2.2停掉现有三台机器的hdfs相关进程:
su - tdsql
ps -ef|grep namenode|datanode
kill -9
3、在原来集群的所有机器上面,加入3个hdfs节点,去掉之前的节点;
3.1修改主控机的tdsql_hosts文件,去掉原有的hdfs节点,加入新的hdfs节点(涉及所有节点、HDFS节点两个地方)
3.2修改集群中所有机器的/etc/hosts文件中与hdfs相关的ip地址,指向新的hdfs节点;
4、删除zk上的ha信息
5、手动启动hdfs相关进程:
1,2,3:
hdfs -daemon start journalnode
1&2:
hdfs -daemon start namenode
hdfs -daemon start zkfc
1,2:
hdfs -daemon start datanode
6、集群详情”中修改“HDFS列表”,删除原有配置,填写新的配置
7、数据验证:在db服务器上面,查看hdfs中/tdsqlbackup中有数据生成;同时:numlivedatanode为3,表示3个集群都安装好了;namenode,datanode进程起来了;在监控库做一个备份操作后,/data1/hdfs/current/BP-...842/current下面会生成文件,并且文件生成时间是替换HDFS后面生成的;
8、下线原有的3台hdfs机器:/etc/hosts中去掉hdfs相关的字样;停止hdfs相关进程。
9、替换下来的2台hdfs机器,作为proxy机器,单独一组加入18集群中:
9.1 主要参考“生产环境变更控制表扩容Proxy”文档的25,26,27行。“单独一组”体现在“新增网关组”。
测试:用户创建实例,能够正常访问。

四、问题及解决方法:
1、端口8345不通:
解决方法:需要申请开通15集群和18集群内所有机器到三台新加入HDFS机器(xx.yy.zz.130,xx.yy.zz.131和xx.yy.zz.132)的下列端口:
8480、8485、9864、9866、9002、9867、8019、50070
去掉同网段的机器之后,需要:
xx.yy.zz.130,xx.yy.zz.131和xx.yy.zz.132提供下列端口:8480、8485、9864、9866、9002、9867、8019、50070,供如下机器访问:
xx.yy.zz.151
xx.yy.zz.152
xx.yy.zz.15
xx.yy.zz.16
xx.yy.zz.17
xx.yy.zz.18
xx.yy.zz.19
xx.yy.zz.20