测品娱乐
您的当前位置:首页信息中心事故报告

信息中心事故报告

来源:测品娱乐
内注意保存

部资料

XXXX信息中心信息系统事故报告

第 1 期

信息中心 二○一二年九月三日

关于8月20、22日统一工作平台事故报告

统一工作平台分别于2012年8月20日上午、8月22日下午出现两次不能登录的系统故障,故障持续时间分别为76分钟和27分钟。现将故障的原因及解决方案报告如下: 一、故障描述

2012年8月20日8:52分至10:08分,共76分钟,统一工作平台无法登录,登录页面不能打开。

2012年8月22日14:38分至15:05分,共27分钟,统一工作平台无法登录,登录页面不能打开。 二、故障分析

两次故障发生的原因是由于数据库服务器操作系统内存耗尽导致。引起内存耗尽的原因是因为在2012年8月15日晚为了数据库ORA-4030的报错务量增加而繁忙时,出现数据库所需要的内存超过服务器具有的物理内存,而引起内存耗尽,导致应用不可用。

另,2012年8月20日在数据库出现故障时,统一工作平台的应用服务同时出现了WebSphere Deploy

Manager(DM)的服务功能异常的情况,该异常以前没有出现过,导致分析和解决故障的时间较长。 三、解决方案

解决的措施是给统一工作平台数据库服务器增加了14GB物理内存,使服务器物理内存从56GB扩展到70GB,解决了数据库连接失败的问题,目前数据库服务器主机的内存使用率和数据库连接正常。 四、改进措施

1、后续数据库参数在调整前应充分讨论。 2、加强监控告警,完善相关告警措施。

3、提高统一工作平台系统管理员的维护技能,如遇到服务不能正常启动时,应将所有服务都先停止,然后再启动。

因篇幅问题不能全部显示,请点此查看更多更全内容