HiveSQL

HiveSQL脚本耗时长问题排查

1.背景 底层引擎采用的是Tez,为了快速定位自己的脚本是哪一段性能较差,首先需要在脚本里面设置脚本名称,命令如下: set tez.job.name=dws_contract_detail_info_s_d; 这是我的一个例子,设置好名称后,开始执行脚本,等脚本执行完成后就可以开始排查问题。 2. ......
时长 脚本 HiveSQL 问题

Hivesql字符截取函数错用

1.背景 最近在使用instr进行字符截取时出现了字符截断的情况,案例是需要获取出"红河哈尼族矫族自治州(xxxx(红河)有限公司)"里面的"xxxx(红河)有限公司"内容,结果获取到的内容是"xxxx(红河",该语句针对只有一对括号时没有问题,当出现这种有两个括号时就会出现截断的问题,原始语句如下 ......
函数 字符 Hivesql

尚硅谷大数据HiveSQL练习题(一)——同时在线人数问题

题目需求 现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。 user_id (用户id) live_id (直播间id) in_datetime(进入直播间的时间) out_datetime (离开直播间的时 ......
练习题 人数 同时 HiveSQL 数据

hivesql中,查询repay表的借据号due_bill_no与最大的还款日期paid_out_date

在Hive SQL中,要查询 repay 表中的借据号( due_bill_no )和最大的还款日期( paid_out_date ),可以使用以下查询语句: ``` sql SELECT due_bill_no, MAX(paid_out_date) AS 最大还款日期 FROM repay GR ......

HiveSQL在使用聚合类函数的时候性能分析和优化详解

带聚合函数的SQL逻辑,我们可以根据其执行过程的不同,将其分成三大类来进行分析: 仅在Reduce阶段聚合的SQL执行逻辑 在Map和Reduce阶段都有聚合操作的SQL执行逻辑 高级分组聚合的执行SQL逻辑 ......
性能分析 函数 性能 HiveSQL 时候

Hive执行计划之什么是hiveSQL向量化模式及优化详解

Hive开启向量化模式也是hiveSQL优化方法中的一种,可以提升hive查询速率,也叫hive矢量化。 问题1:那么什么是hive向量化模式呢? 问题2:hive向量化什么情况下可以被使用,或者说它有哪些使用场景呢? 问题3:如何查看hive向量化使用的相关信息? ## 1.什么是hive向量化模 ......
hiveSQL 模式 Hive

hivesql 累加计算

数据分析笔试中累加问题是非常常见的考题,今天我们用一个函数来搞定它 sum over(partition by 分组列 order by 排序列 rows between 开始位置 preceding and 结束位置 following) 其中'开始位置'和'结束位置'可配置参数:数据、curre ......
hivesql

HiveSQL调优-最常用的调优方式

系统和其它层面:让经常where的字段进行分区,合理的多分桶、数据使用压缩、建宽表的时候用列式的orc存储、 开启严格模式:会产生笛卡尔积、order by排序后未加limit、查询分区表时未指定列的HiveSQL语句直接执行出错 开启列裁剪和分区裁剪:即只查询要读取的列和分区,避免全表扫描或全列扫 ......
常用 HiveSQL 方式

hiveSQL mapreduce任务调优

set hive.merge.mapredfiles=true; --在Map-Reduce的任务结束时合并小文件 set mapred.max.split.size=30000000; -- 决定每个map处理的最大的文件大小,单位为B --set mapred.min.split.size=10 ......
mapreduce 任务 hiveSQL

hivesql 实现collect_list内排序

假设我有一个看起来像这样的蜂巢表: ID event order_num A red 2 A blue 1 A yellow 3 B yellow 2 B green 1 ... 我正在尝试使用 collect_list 为每个 ID 生成事件列表。所以类似于以下内容: SELECT ID, col ......
collect_list hivesql collect list

hivesql练习_同时在线人数问题

现有各直播间的用户访问记录表(live_events)如下,表中每行数据表达的信息为,一个用户何时进入了一个直播间,又在何时离开了该直播间。 user_id(用户id)live_id(直播间id)in_datetime(进入直播间的时间)out_datetime(离开直播间的时间) 100 1 20 ......
人数 同时 hivesql 问题

hivesql练习_会话划分问题

现有页面浏览记录表(page_view_events)如下,表中有每个用户的每次页面访问记录。 user_idpage_idview_timestamp 100 home 1659950435 100 good_search 1659950446 100 good_list 1659950457 1 ......
hivesql 问题

hivesql练习_间断连续登录用户问题

现有各用户的登录记录表(login_events)如下,表中每行数据表达的信息是一个用户何时登录了平台。 user_idlogin_datetime 100 2021-12-01 19:00:00 100 2021-12-01 19:30:00 100 2021-12-02 21:01:00 现要求 ......
hivesql 用户 问题

hivesql练习_日期交叉问题

现有各品牌优惠周期表(promotion_info)如下,其记录了每个品牌的每个优惠活动的周期,其中同一品牌的不同优惠活动的周期可能会有交叉。 promotion_idbrandstart_dateend_date 1 oppo 2021-06-05 2021-06-09 2 oppo 2021-0 ......
日期 hivesql 问题

hivesql练习_复购率问题

现有电商订单表(order_detail)如下。 order_id(订单id)user_id(用户id)product_id(商品id)price(售价)cnt(数量)order_date(下单时间) 1 1 1 5000 1 2022-01-01 2 1 3 5500 1 2022-01-02 3 ......
hivesql 问题

hivesql练习_出勤率问题

现有用户出勤表(user_login)如下。 user_id(用户id)course_id(课程id)login_in(登录时间)login_out(登出时间) 1 1 2022-06-02 09:08:24 2022-06-02 10:09:36 1 1 2022-06-02 11:07:24 2 ......
出勤率 hivesql 问题

hivesql练习_打车问题

现有用户下单表(get_car_record)如下。 uid(用户id)city(城市)event_time(下单时间)end_time(结束时间:取消或者接单)order_id(订单id) 107 北京 2021-09-20 11:00:00 2021-09-20 11:00:30 9017 10 ......
hivesql 问题

hivesql练习_排列问题

现有球队表(team)如下。 team_name(球队名称) 湖人 骑士 灰熊 勇士 拿到所有球队比赛的组合 每个队只比一次 期望结果如下: team_name_1<string>(队名)team_name_2<string>(队名) 勇士 湖人 湖人 骑士 灰熊 骑士 勇士 骑士 湖人 灰熊 勇士 ......
hivesql 问题

hivesql练习_视频热度问题

现有用户视频表(user_video_log)如下。 uid(用户id)video_id(视频id)start_time(开始时间)end_time(结束时间)if_like(是否点赞)if_retweet(是否转发)comment_id(评论id) 101 2001 2021-09-24 10:0 ......
热度 hivesql 问题 视频

hivesql练习_员工在职人数问题

现有用户表(emp)如下。 id(员工id)en_dt(入职日期)le_dt(离职日期) 1001 2020-01-02 null 1002 2020-01-02 2020-03-05 1003 2020-02-02 2020-02-15 1004 2020-02-12 2020-03-08 日历表 ......
人数 员工 hivesql 问题
共20篇  :1/1页 首页上一页1下一页尾页