数据治理工具DataHub的安装及踩坑过程

发布时间 2023-03-22 21:16:50作者: 柏杨Shayne

【摘要】

    项目上后面要搞数据治理,网上主流的开源组件是Atlas和DataHub,这几天刚好有时间,先把DataHub安装试用一下。安装过程中问题较多,花了两天时间才安装完。先把安装过程记录一下,后面把功能试用情况也写出来。

 

 

【正文】

一、安装Docker

因为服务器之前安装过Docker,所以安装过程省略,贴一张图看一下 ,API版本最低要求是1.41,建议安装最新的docker,我之前用的老版本docker,后面踩了坑。

 

 

 

 

二、安装Python3

Python要求最低3.7,我的版本是3.8.0,安装教程太多了,这里就不写安装过程了

 

三、环境准备

yum -y install gcc
yum install libffi-devel -y
yum install zlib* -y
pip3 install toml

 


四、安装DataHub

1.安装docker compose V2

最开始默认安装的V1,结果运行提示需要V2,过程中各种失败,最后还是参照官网安装成功。

官网安装地址:Install the Compose plugin

先通过命令行安装了一次:

yum install docker-compose
yum install docker-compose-plugin

 


用docker-compose version命令查看版本报错了,所以又手动安装了一遍

mkdir -p /usr/local/lib/docker/cli-plugins
curl -SL https://github.com/docker/compose/releases/download/v2.16.0/docker-compose-linux-x86_64 -o /usr/local/lib/docker/cli-plugins/docker-compose
chmod +x /usr/local/lib/docker/cli-plugins/docker-compose

 

查看版本

 

 

 

2.下载源码

主要是为了后面的步骤使用里面的一个配置文件

git clone https://github.com/datahub-project/datahub.git

 


3.安装DataHub

这段和官网的不一样,参照的一个大佬的文章,是因为官网的镜像下载比较慢,而且出错,指定了国内的镜像;

地址:https://blog.csdn.net/Forget_Ying/article/details/119870931

python3 -m pip install --upgrade pip wheel setuptools -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
python3 -m pip uninstall datahub acryl-datahub || true # sanity check - ok if it fails
python3 -m pip install --upgrade acryl-datahub -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com
datahub version

 

 

关键的步骤来了,在这个地方踩了很多坑

datahub docker quickstart --quickstart-compose-file ./docker/quickstart/docker-compose-without-neo4j.quickstart.yml

 


出错了,manifest for docker.io/acryldata/datahub-actions:head not found

 

这个是因为没有获取到最新的镜像tag,需要手动指定镜像的tag

 

编辑下载的源码中的配置文件./docker/quickstart/docker-compose-without-neo4j.quickstart.yml

修改下图红框后面的tag号,之前是:image: acryldata/datahub-actions:${ACTIONS_VERSION:-head}

 

继续执行 ,结果又报新的错误了

toomanyrequests: You have reached your pull rate limit. You may increase the limit by authenticating and upgrading: https://www.docker.com/increase-rate-limit

 

 

 

这个是因为docker匿名用户的拉取镜像的上限是100,可能我拉的次数太多了,解决办法是

注册docker用户,并使用docker login登录,这样上限就变成200了

docker login [your-domain-name]
username:[your-user-name]
pwd:[your-password]

 


继续执行,继续踩坑:"specify container image platform" requires API version 1.41, but the Docker daemon API version is 1.26

 

 

这个是因为我docker版本太低了,因为这个docker是去年安装的了,卸载后安装最新的,步骤就省略了,贴一个老版本docker的图片:

 

 

 

安装最新的docker后,再执行终于正常了:

 

 

 

但最终也没有出现成功界面:

 

 

 

到这里就有点崩溃了,也找不到是什么原因没有安装成功,提示中有个日志,打开也没有找到有用的信息

后来查看了一下docker正在运行的容器,发现很多容器都在正常运行:

 

 

 

我突然突发奇想,直接访问了一下UI界面,发现竟然可以访问!!!

 

 

 

真实天无绝人之路,登陆试了一下,可以正常使用。开启我的数据摄入吧~

UI地址:http://xxx.xxx.xxx.xxx:9002
用户名密码:datahub/datahub

 

五.参考的网站:

DataHub官网:https://datahubproject.io/docs/quickstart

Docker Compose:https://docs.docker.com/compose/install/linux/

DataHub安装配置详细过程:https://blog.csdn.net/Forget_Ying/article/details/119870931

元数据管理Datahub基于Docker进行部署:http://www.pczh.cn/news/26343.html