内注意保存
部资料
XXXX信息中心信息系统事故报告
第 1 期
信息中心 二○一二年九月三日
关于8月20、22日统一工作平台事故报告
统一工作平台分别于2012年8月20日上午、8月22日下午出现两次不能登录的系统故障,故障持续时间分别为76分钟和27分钟。现将故障的原因及解决方案报告如下: 一、故障描述
2012年8月20日8:52分至10:08分,共76分钟,统一工作平台无法登录,登录页面不能打开。
2012年8月22日14:38分至15:05分,共27分钟,统一工作平台无法登录,登录页面不能打开。 二、故障分析
两次故障发生的原因是由于数据库服务器操作系统内存耗尽导致。引起内存耗尽的原因是因为在2012年8月15日晚为了数据库ORA-4030的报错务量增加而繁忙时,出现数据库所需要的内存超过服务器具有的物理内存,而引起内存耗尽,导致应用不可用。
另,2012年8月20日在数据库出现故障时,统一工作平台的应用服务同时出现了WebSphere Deploy
Manager(DM)的服务功能异常的情况,该异常以前没有出现过,导致分析和解决故障的时间较长。 三、解决方案
解决的措施是给统一工作平台数据库服务器增加了14GB物理内存,使服务器物理内存从56GB扩展到70GB,解决了数据库连接失败的问题,目前数据库服务器主机的内存使用率和数据库连接正常。 四、改进措施
1、后续数据库参数在调整前应充分讨论。 2、加强监控告警,完善相关告警措施。
3、提高统一工作平台系统管理员的维护技能,如遇到服务不能正常启动时,应将所有服务都先停止,然后再启动。