가끔씩 갑자기 리부팅 되는 현상이 있어, CPU와 메모리 일부를 교체한뒤로 몇일간은 오히려 시스템이 더욱더 불안해져 버렸습니다. 리부팅이 더 잦아졌고, 심지어 몇번씩 다운되기 까지 했습니다.
리눅스의 Free Memory Size에 대한 오해(?) [곧 시간이되면 다루도록 하겠습니다] 때문에 메모리가 부족해서 그런가? 하며, 메모리 확장을 심각히 고민해 보기까지 했습니다.
그러나, 14일의 최종 조치이후, 그런일은 발생하지 않았고, 덕분에 확실치는 않지만 어느정도 원인을 파악할 수 있었습니다.
처음 가끔씩 이유없이 시스템이 리부팅 될때의 시스템은 Intel 서버보드 440GX+, 펜3 700Mhz Dual CPU와 ECC 메모리 1GB로 구성되어 있었습니다. 가끔씩 커널에서 CPU에서 메모리에 쓰는데 문제가 있는것 같다는 Warning메시지가 떴었지만, 커널 메시지도 무시해도 되는듯 애매하고, 겉으로 보기에 아무 이상이 없는 것 같았기 때문에, ECC 메모리여서 그런가 하고 무시했었습니다. 하지만 시스템 서비스 접속중 갑자기 접속이 되지 않았다가, 얼마뒤 다시 접속이 되고 하던 이유가 시스템이 자동으로 리부팅 된다는 사실을 알고, ECC 메모리중 1개를 교체하면서 펜3 850Mhz Dual CPU로 업그레이드 까지 겸하였습니다. 그런데, 그 뒤로 시스템이 다운되는등 더욱 심각해 졌던 것입니다.
급기야, 14일 시스템이 다운되어 보니, 이번에는 처음으로 커널 패닉이 난것을 확인할 수 있었습니다. 결국, ECC메모리 전체를 일반 SDRAM 1.25GB로, 그리고 CPU 중 하나를 교체하였습니다.
이 과정에서 서버보드는 빠른 부팅이 중요한게 아니며, 안정성을 위해 BIOS의 Self Test를 할 수 있을 만큼 해야된다는 것을 깨닫는 계기가 되었습니다.
처음 CPU 문제로 의심하고 CPU Dual을 Single로 해보기로 결정하고 한쪽 슬롯의 CPU를 제거하고 CPU 터미네이터를 장착하였습니다. 그리고 모든 ECC메모리를 여기 저기서 끌어모은 일반 SDRAM으로 교체하였습니다. 그리고 시스템 On..... 헉! 그런데 가슴이 철렁하는 일이 일어났습니다. 커널 이미지를 읽어들이자 마자, 패닉이 발생하는게 아닙니까?!
곧 이유를 알 수 있었습니다. BIOS에서 Extended 메모리 Test를 Yes로 해주고 부팅하여 보았더니 장착한 메모리 1.25GB를 잘 인식하였지만 테스트시 약 500MB 정도를 인식하고는 그냥 지나치더니 그 이상 진행하지 않는 것이였습니다.
메모리중에 에러가 있는게 있나 하고 난감하였습니다만, 여러번의 시행 착오끝에 메모리에는 문제가 없고 Bank 순서를 바꾸니 Test 까지 잘 통과하게 되었습니다. (처음 256M+256M+512M+256M 이런식으로 장착되어 있었을 겁니다. 문제가 생긴후 512M+256M+256M+256M로 해주었더니 통과하였습니다.)
그리고 부팅을 계속하니 정상적으로 부팅되었습니다.
저는 처음 접하는 경험이었습니다. 아하 이럴 수도 있구나, 메모리 크기가 잘 인식되었다고 끝나는게 아니구나, Test까지 해주어야 겠구나 하고 말입니다. 다만 뱅크 장착 순서에 따라 테스트가 통과하는것은 대략 난감입니다만 ^^;
한고비 넘기고 그럼 혹시 ECC 메모리 일때도 사이즈만 잘 표시되었을 뿐이지 이와 똑같은 상황이었던 걸까? 하는 의심이 들었지만, 더 테스트 해보지는 않았습니다.
이제 설혹 이전 메모리 칩에 에러가 있었다 하더라도, SDRAM으로 교체했으니 괞찮겠지 하고, 다시 빼 두었던 CPU를 장착하였습니다. ㅠ.ㅠ 그런데, 이게 왠일일까요? 이번엔 다시 장착한 CPU가 인식이 되지 않고, 계속 Single로 인식이 되고 CPU2를 사용할 수 없다는 에러 메시자가 출력되는 것이었습니다 ^^; 헉! CPU를 빼낼때 내가 뭘 잘못한 걸까?!
마침 스텝핑이 일치하는 같은 속도의 다른 CPU가 있어 그걸로 바꾸어 주었습니다. ^^; 그러나 여전히 인식이 되지 않았습니다. CPU는 이상이 없다는 생각에 한편으론 안심되었지만, 도대체 왜 이럴까? 하는 맘에 답답하기 그지 없었습니다. 그리고 몇번의 실패뒤 원인을 알아내었습니다.
BIOS의 Processor 부분에서 CPU Reset을 YES로 해주니, 짜안!! CPU가 잘 인식되는 것이었습니다. CPU가 바뀌게(재장착 포함)되면 Reset를 한번씩 해주어야 하나 봅니다.
이렇게 몇번의 고비를 넘어 드디어 안정적인 시스템으로 새롭게 태어났습니다. ^^
이번을 계기로 BIOS의 Self Test가 부팅 시간을 지연하는 불필요한 기능이 아닌, 안정성 확보를 위한 최소한의 기능이라는 것을 느끼게 되었습니다.







