任务hbase spark hive
装载数据时报错:Failed to execute spark task, with exception 'org.apache.hadoop.hive.ql.metadata.HiveException(Failed to create spark client.)'
错误还原 hive (edu)> insert into huanhuan values(1,'haoge'); Query ID = root_20240110071417_fe1517ad-3607-41f4-bdcf-d00b98ac443e Total jobs = 1 Launching ......
调试分析 Linux 0.00 多任务切换
当执行完 system_interrupt 函数,执行 153 行 iret 时,记录栈的变化情况。 任务0在刚进入system_interrupt函数时(调用中断int 0x80处理程序),栈空间为任务0的内核栈,即krn_stk0。(CS = 0X8, SS = 0x10, ESP = 0xe4 ......
作业7 Spark
一. 多选题(共5题,71.4分) 1. (多选题)Spark具有的主要特点包括: A. 容易使用 B. 运行模式多样 C. 运行速度快 D. 通用性 我的答案: ABCD:容易使用; 运行模式多样; 运行速度快; 通用性;正确答案: ABCD:容易使用; 运行模式多样; 运行速度快; 通用性; 1 ......
作业6 数据仓库Hive
一. 单选题(共3题,9分) 1. (单选题, 3分)下面关于Hive的描述错误的是: A. Hive是一个构建在Hadoop之上的数据仓库工具 B. Hive是由Facebook公司开发的 C. Hive在某种程度上可以看作是用户编程接口,其本身并不存储和处理数据 D. Hive定义了简单的类似S ......
作业3 分布式数据库HBase
一. 单选题(共7题,14分) 1. (单选题, 2分)下列选项中,关于HBase和BigTable的底层技术对应关系,哪个是错误的? A. GFS与HDFS相对应 B. MapReduce与Hadoop MapReduce相对应 C. GFS与Zookeeper相对应 D. Chubby与Zook ......
Spark任务存在大量Task失败记录分享
最近Spark任务调度任务跑的时间比平时慢很多,查看SparkUI发现有大量的Task被异常终止,查看日志发现了有几个问题,记录一下。 根据日志,主要涉及任务被终止、YARN集群中的抢占问题以及网络连接错误。 1、任务被终止的警告: WARN Lost task 87.0 in stage 6.0 ......
安装HUE并配置连接Hive&Flink&TIDB
安装依赖包 yum install ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ krb5-devel libffi-devel libxml2-devel libxslt-devel mak ......
Flink Sql On Hive
TableEnvironment // ********************** // FLINK STREAMING QUERY // ********************** import org.apache.flink.streaming.api.environment.Stream ......
Hive建表语句示例
CREATE EXTERNAL TABLE `ods_baidu_news`( `domain` string, `sitename` string, `sourceurl` string, `casedatatype` string, `fetchtype` int, `casename` str ......
Hive之set参数大全-5
I 限制外部表数据插入 set hive.insert.into.external.tables=true; 在Apache Hive中,通过INSERT INTO语句向外部表(External Table)插入数据时,有一些注意事项和限制。外部表是Hive中的一种特殊表,它与Hive管理的存储位置 ......
Hive之set参数大全-6
L 指定是否启用延迟评估(lazy evaluation)的扩展布尔字面量 在 Apache Hive 中,hive.lazysimple.extended_boolean_literal 是一个配置属性,用于指定是否启用延迟评估(lazy evaluation)的扩展布尔字面量。延迟评估可以提高性 ......
Hive之set参数大全-7
指定 Hive LLAP(Live Long and Process) 守护进程的委托令牌的生存期 在 Apache Hive 中,hive.llap.daemon.delegation.token.lifetime 是一个配置属性,用于指定 Hive LLAP(Live Long and Proc ......
关于大数据平台上任务管理的思考
本文于2019年7月16日完成,发布在个人博客网站上。 考虑个人博客因某种原因无法修复,于是在博客园安家,之前发布的文章逐步搬迁过来。 作业,比如提交一个hive脚本到计算平台上运行,这个脚本宏观上称为一个作业。 任务,比如mapper,reducer等。 资源,比如CPU时间,内存,硬盘IO,网络 ......
Hive之函数解析
1.1 查看系统自带的函数 -- 查看系统自带函数 show functions; -- 查看自带函数的用法 desc/describe function 函数名; -- 查看自带函数的具体用法 desc/describe function extended 函数; 1.2 窗口函数 1.2.1 相 ......
海豚²来了丨DolphinDB 集成 DolphinScheduler,任务调度更轻松
DolphinDB 是一款高性能时序数据库。DolphinDB 集成了功能强大的编程语言和高容量高速度的批流一体数据分析系统,为海量数据(特别是时间序列数据)的快速存储、检索、计算及分析提供一站式解决方案。在实际生产环境中,经常存在数据导入、转换、查询计算,更新等一系列流程任务,各个部分之间存在依赖 ......
Hive文件存储格式
结论: Text File,Parquet ,ORC Files结合使用,优先使用前两种,对存储及查询性能有极高要求时使用ORC。 存储格式 使用场景 Text File 数据直观,便于查看和编辑,数据量较小的维表可以使用. Parquet 支持深度嵌套,可用于多种数据处理框架(Hive/Spark ......
Hive 数据写入流程
概念简介 外部表:删除表时,外部表只删除元数据,不删除数据。适用于数据源被多处使用的场景,便于数据共享。 内部表:删除表时,内部表的元数据和数据会被一起删除。适用于不需要共享的原始数据或中间数据。 分区表:数据较多,为提高计算速度时使用。 内部表&外部表写入流程图 具体流程Demo 以外部表为例: ......
hive分区表数据导入
数据库分区的主要目的是为了在特定的SQL操作中减少数据读写的总量以缩减响应时间,主要包括两种分区形式:水平分区与垂直分区。水平分区是对表进行行分区。而垂直分区是对列进行分区,一般是通过对表的垂直划分来减少目标表的宽度,常用的是水平分区. 1. hive建立分区表 create external ta ......
Hive 复杂数据类型Array,Map,Struct
建表语句,支持嵌套 CREATE TABLE parquet_test ( id int, str string, mp MAP<STRING,STRING>, lst ARRAY<STRING>, strct STRUCT<A:STRING,B:STRING>) PARTITIONED BY (p ......
Hive写入JSON数据
优缺点: 1.JsonSerDe对json数据格式有严格要求,创建的表结果必须与json结构能对应上,否则会报错。 配置 org.openx.data.jsonserde.JsonSerDe 能解决格式异常报错导致整个任务终止的问题。 必须定义好详细字段嵌套的规则类型,不适合提取ODS原文。 2.g ......
Hive Array数据处理
建表 CREATE TABLE IF NOT EXISTS default.array_test( id String COMMENT 'id', name Array<String> COMMENT '名称' ) COMMENT 'array测试' ROW FORMAT DELIMITED FIE ......
flask-apscheduler定时任务
【python】 通过 flask-apscheduler 实现定期执行任务_python flask 定时任务-CSDN博客 Python+flask+flask-apscheduer实现定时下发任务 - 刚刚好1 - 博客园 (cnblogs.com) ......
安装HUE并配置连接Hive&Flink&TIDB
创建用户 groupadd hadoop useradd -g hadoop hadoop 解压编译 wget https://cdn.gethue.com/downloads/hue-4.8.0.tgz PREFIX=/usr/share make install 集成Hive Conf 在/op ......
任务调度XXL-JOB
编译部署 1.从github下载源码 https://github.com/xuxueli/xxl-job git clone https://github.com/xuxueli/xxl-job.git 2.切换版本,修改配置文件 ####调度中心配置文件路径 xxl-job-admin/src/ ......
Atlas集成Hive
修改atlas-application.properties 添加atlas.hook.hive.synchronous=false atlas.hook.hive.numRetries=3 atlas.hook.hive.queueSize=10000 atlas.cluster.name=pri ......
hbase java api demo
pom.xml <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client</artifactId> <version>1.3.1</version> </dependency> HbaseUtil.java p ......
Running Spark on YARN
Support for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent releases. spark自0.60版本开始支持在YARN上运行,并在后续版本 ......
spark-cdh学习
Spark: 1.Apache Spark是用于大规模数据处理的统一分析引擎 2.一款分布式内存计算的分析引擎 源数据层: 1.sdk日志埋点 2.日志文件:爬虫日志,业务日志 3.关系型数据库:mysql,oracle等 数据采集层: 1.离线:flume,sqoop,Nifi 2.实时:file ......
Hive之set参数大全-1
A 控制是否允许在需要时按需加载用户定义函数(UDF) hive.allow.udf.load.on.demand 是 Apache Hive 中的一个配置属性,用于控制是否允许在需要时按需加载用户定义函数(UDF)。 在 Hive 中,UDFs是用户编写的自定义函数,可以在 Hive SQL 查询 ......
Hive之set参数大全-2
C 指定是否启用表达式缓存的评估 hive.cache.expr.evaluation 是 Hive 中的一个配置属性,用于指定是否启用表达式缓存的评估。表达式缓存是一项优化技术,它可以在执行查询时缓存表达式的评估结果,以减少计算开销。 在 Hive 配置中,可以使用以下方式设置 hive.cach ......