一、症状描述
今天客户反馈说,他们的主业务系统宕机了,是因为某个服务器有个进程占用太多资源带宽,而且杀死后会自动恢复,严重影响业务,希望我们协助查询一下具体的原因!
我分析了一下原因,应该是执行SQL或程序时,程序没有响应或SQL执行一直处于执行状态(有些时候进程根本停不下来,就直接关掉了窗口),没有成功,也没有报错。
二、病因定位:
1 检查数据库,确认 是否真实存在死锁,若有,具体是哪台机器哪个程序:
select sid,username, lockwait, status, machine, program from v$session where sid in (select session_id from v$locked_object);
Username:死锁语句所用的数据库用户;
Lockwait :死锁的状态,如果有内容表示被死锁。
Status :状态,active表示被死锁
Machine :死锁语句所在的机器。
Program :产生死锁的语句主要来自哪个应用程序。
2 确定死锁后,还可以检查是哪个语句产生死锁等待。
select sql_text
from v$sql
where hash_value in
(select sql_hash_value
from v$session
where sid in (select session_id from v$locked_object))
三、解决过程
1 通过kill掉死锁的session进程
select b.username, b.sid, b.serial#, logon_time
from v$locked_object a, v$session b
where a.session_id = b.sid
order by b.logon_time;
SQL> alter system kill session '12,73';
2 查询未提交事务的SQL,大概率是其引起。
select s.sid,
s.username,
s.osuser,
s.program,
to_char(s.LOGON_TIME, 'yyyymmdd hh24:mi:ss') as LOGON_TIME,
to_char(t.START_DATE, 'yyyymmdd hh24:mi:ss') as START_DATE,
s.status,
(select q.SQL_TEXT
from v$sql q
where q.LAST_ACTIVE_TIME = t.START_DATE
and rownum <= 1) as SQL_TEXT
from v$session s, v$transaction t
where s.sADDR = t.SES_ADDR;
但我当时实验语句 like 后面并不对
3 获取oracle进程,直接kill掉oracle进程然后重启不建议(或直接重启数据库)