dremio 阿里云oss 集成简单说明

发布时间 2023-03-24 14:23:02作者: 荣锋亮

默认dremio 支持了azure,aws,gcs 等存储的访问,但是对于oss 是缺少支持的,实际上都是类似的对象存储

可选模式

  • 直接使用aws s3 模式链接
    通过测试是可以的,但是需要进行一些配置,参考如下

 

 

  • 通过minio s3 gateway
    很简单,但是注意minio 版本(新版本已经一处了gateway 模式的支持了)
    参考配置(通过docker-compose 运行)
 
version: "3"
services: 
  gateway: 
    image: minio/minio:RELEASE.2022-08-13T21-54-44Z
    command:  gateway s3 https://oss-cn-beijing.aliyuncs.com --console-address ":9001"
    ports: 
    - "9000:9000"
    - "9001:9001"
    environment:
    - "MINIO_ACCESS_KEY=xxxxx"
    - "MINIO_SECRET_KEY=xxxx"
  • 开发自己的oss 存储扩展
    可以参考aws s3 存储扩展修改,可选的模式比较多,比如直接的oss hadoop 集成,或者高速JindoFS 模式
  • 使用阿里云 hadf oss 集成模式
    此模式后边是通过hdfs 链接的
  • 通过nas 模式集成
    通过文件网关将oss 暴露为文件系统,此模式不是很方便,需要独立挂载
  • juicefs 的s3 gateway 模式
    这种模式是一个方法,但是链路有点太长了,个人并不是很推荐,肯定是可以通的

说明

以上是关于dremio 集成oss 的几种方法,核心上基本上是两大类,基于oss 的s3 兼容模式(包含了Gateway或者直接连接的)通过文件系统挂载模式的

参考资料

https://github.com/apache/hadoop/blob/trunk/hadoop-tools/hadoop-aliyun/src/site/markdown/tools/hadoop-aliyun/index.md
https://help.aliyun.com/document_detail/199488.html