2013년 8월 29일 목요일

HP UX Crash Dump 생성 및 장애 확인



1. vi /etc/shutdownlog -> shutdown 시간 확인




21:46 Wed Sep 21, 2011. Reboot: (by etl_rep!hpadm)

15:20 Thu Jun 28, 2012. Halt: (by bk1!root)

13:42 Thu Jul 5, 2012. Reboot: (by bk1!hpadm)

11:43 Fri Jul 6, 2012. Halt: (by bk1!sysopr)

15:38 Tue Jul 31, 2012. Halt: (by bk1!sysopr)




2. vi /var/adm/syslog/OLDsyslog.log -> 장애 syslog 확인




Jul 31 15:37:35 bk1 HP-PRM: [28829]: prmconfig: configuration reset

Jul 31 15:38:09 bk1 /usr/sbin/envd[1490]: terminated by signal 15

Jul 31 15:38:09 bk1 diagmond[1486]: Exit due to user requested abort

Jul 31 15:38:10 bk1 sshd[906]: Received signal 15; terminating.

Jul 31 15:38:11 bk1 cimserver[1402]: HP-UX WBEM Services stopped.

Jul 31 15:38:14 bk1 inetd[1022]: Going down on signal 15

Jul 31 15:38:14 bk1 rpcbind: terminate: rpcbind terminating on signal. Restart with "rpcbind -w"

Jul 31 15:38:15 bk1 su: + tty?? root-sfmdb

Jul 31 15:38:19 bk1 syslogd: going down on signal 15




3. dmesg -> 부팅하면서 부터 쌓인 커널 로그확인




System Console is on the Built-In Serial Interface

iether0: INITIALIZING HP AB352-60003 PCI/PCI-X 1000Base-T Dual-port Core at hardware path 0/1/2/0

iether1: INITIALIZING HP AB352-60003 PCI/PCI-X 1000Base-T Dual-port Core at hardware path 0/1/2/1

iether2: INITIALIZING HP AD331-60001 PCI/PCI-X 1000Base-T Adapter at hardware path 0/2/1/0

Logical volume 64, 0x3 configured as ROOT

Logical volume 64, 0x2 configured as SWAP

Logical volume 64, 0x2 configured as DUMP

Swap device table: (start & size given in 512-byte blocks)

entry 0 - major is 64, minor is 0x2; start = 0, size = 33554432

Dump device table: (start & size given in 1-Kbyte blocks)

entry 0000000000000000 - major is 31, minor is 0x20000; start = 1051488, size = 16777216

Starting the STREAMS daemons-phase 1

Create STCP device files

Starting the STREAMS daemons-phase 2

$Revision: vmunix: B11.23_LR FLAVOR=perf Fri Mar 19 15:24:05 PST 2004 $

Memory Information:

physical page size = 4096 bytes, logical page size = 4096 bytes

Physical: 16775168 Kbytes, lockable: 14333252 Kbytes, available: 14657564 Kbytes




NOTICE: mod_fs_reg: Cannot retrieve configured loading phase from KRS for module: cifs. Setting to load at INIT




atdd: tuning() called

atdd: load() called

atdd: Class is tape

atdd: control init!

atdd: Load complete!

acdd: tuning() called

acdd: load() called

acdd: Class is autoch

acdd: Load complete!

0/4/2/1.8.0.255.0.2.0 atdd

0/5/1/0.8.0.255.0.3.0 atdd

0/5/1/1.8.0.255.0.4.0 atdd







4. /var/tombstones/ts99 파일내 HPMC(High Priority Machine Check) 시간 stamp 확인




ftp를 이용하여 ts99 파일을 다운후 HP 에 연락해서 분석요청.







========================================================================================================

아래는 구글 검색




[System Crash 의 종류]




1) Panic

- 하드웨어 및 소프트웨어 문제로 더 이상 시스템 운영을 진행할 수 없는 문제에 봉착 했을 때 발생

- 시스템이 적절하게 shutdown이 되지 않았을 경우 부팅하는 동안에도 발생할 수 있음.

- HPMC에 의한 패닉일 경우, 콘솔상에 HPMC tombstone 메세지가 나타남. (tombstone : 문제해결을 위한 레지스터값의 리스트 정보)

- coredump 를 dump device 에 떨어뜨리고 재기동되며, 부팅완료후 dump device 의 coredump 가 file system 으로 copy 됨.

- 대부분 reboot 후 해결되나 최악의 경우 OS 재설치 or 깨진 파일 복구 필요







2) TOC

- Application 이나 시스템의 hang으로 판단되는 경우, MC/SG에 의한 TOC

- Oracle RAC 문제시 자주 발생







3) HPMC : High priority machine check.

- fatal error로 인해 시스템이 더이상 동작할수 없는 상태이며 리부팅을 필요로 함.

- 하드웨어 문제가 대부분이고 간혹 소프트웨어적인 문제가 원인이 될수 있음

- /var/tombstomes/ts99 파일을 rc에 분석 요청 (HPMC time stamp 가 찍혀있는지 확인)

- 오류가 발생한 HW는 즉시 교체해야함.







4) LPMC : Low priority machine check

- automatically correctable error

- crash를 유발하지는 않았지만, 큰 장애로 이어질 수 있는 문제

========================================================================================================

1. 서버에 crash가 발생하면

/var/adm/crash밑에 crash.0 , crash.1....crash.n 이름으로 sub 디렉토리가

생성되며 각 디렉토리로 가면 관련 dump 파일이 있다.



2. 해당 crash 디랙토리로 이동

#cd /var/adm.crash/crash.1 (crash가 발생된 순서대로 crash.1, crash.2로 디렉토리가 생성된다.)



3. crash난 원인이 hardware인지 software인지 판단

#var/adm/crash/crash.1> q4 . 를 실행

q4 > 라는 프롬프트가 떨어짐.

q4> trace event 0 하면 다음 과 같이 2가지 형태로 나옴

stack trace for event 0

crash event was a panic

또는

q4> trace event 0

stack trace for event 0

crash event was an HPMC 또는 MCA



이때 "panic" 이면 software적인 원인에 의해 crash가 발생한것으로 이때는 dump 파일을 tar로 압축하여




HP 엔지니어에게 분석을 요청하고, "HPMC"또는 "MCA"일경우에는 hardware적인 원인에 의해 발생된것으로




/var/tombstones에 있는 mcaXXXXX화일이나 (11.23 for IA서버) ts99 (11.23 for PA 서버)가 있는지를 확인




하여 있을경우 MCA tool로 일차적으로 체크하고 필요시 역시 HP 엔지니어에게 문의를 하면 된다.




Dump 압축

1. #cd /var/adm/crash/crash.0

2. # tar cvf /tmp/hp/dump.tar . => 현재 디랙토리(var/adm/crash/crash.0)에 있는 모든것을

tmp/hp디랙토리에 dump.tar라는 파일로 묶는다.

3. #cd /tmp/hp

4. #gzip dump.tar => tar로 생성한 dump파일을 gzip로 압축한다.

댓글 없음:

댓글 쓰기