HA/DR 실패의 원인

게시자: 김주철, 2011. 8. 1. 오전 2:00

일반적인 HA/DR 실패의 원인은 무엇입니까?

HA/DR 실패의 원인은 일반적으로 IT 환경에 광범위하고 상시적인 변경이 일어나고 있다는 사실에 근본을 두고 있습니다. 대부분의 기업은 수백 종의 애플리케이션을 수천 대의 서버상에 운영하고, 다양한 스토리지 플랫폼에 데이터를 저장하며 세계 전역에 걸쳐 복수의 데이터센터 환경을 갖추고 있습니다. 이미 충분히 복잡한 환경에 변경이 일상적으로 더해지고 있습니다. HA/DR 솔루션은 동일성을 유지해야 하기 때문에 이러한 상시적인 변경 모두를 복제시스템 환경에도 적용해야 합니다. 새로운 볼륨을 추가하고 복제 프로세스를 재구성하는 것과 같은 임의의 작은 구성상의 변경도 가동시스템과 재해복구 환경에 격차를 만들어 낼 수 있습니다. 아주 작은 격차조차도 HA/DR 솔루션이 필요할 때 제대로 동작하는 것을 방해할 수 있습니다.

가동시스템과 HA/DR 환경 사이에 격차는 다음과 같은 이유로 발생하고 있습니다:

대규모 시스템구성
규모가 클수록 격차의 원인이 되는 오류의 가능성이 높아집니다. 이기종 환경
같은 기업 내에서도 복수의 운영시스템(OS), 복수의 데이터베이스, 복수의 스토리지 플랫폼 등을 포함한 다양한 기술의 솔루션을 운영하고 있습니다. 결과적으로 DR 데이터센터의 IT 환경은 가동시스템의 데이터센터와 일관성을 유지하기가 어렵습니다.

다단계 종속성
DR 솔루션은 여러 계층 – 운영시스템, 스토리지, 데이터베이스, 네트워크, 서버 및 애플리케이션 – 간에 종속성은 필연적입니다. 이들 계층 간의 종속성으로 인해 작은 오류도 훨씬 큰 영향을 미치게 됩니다.

너무 많은 사공
일반적으로 DR 애플리케이션 구성에는 DBA, DR 전문가, 애플리케이션 개발자 및 다양한 계약 당사자 등과 같은 다양한 전문가들이 관여하게 되어 있습니다. 다양한 IT 담당자들 간의 사소한 의사소통 결핍은 DR 솔루션을 산으로 가게 하는 원인이 될 수 있습니다.

DR 격차로 인해 발생하는 위험요소를 영역별로 살펴보면 다음과 같습니다:

데이터보호 관련 위험요소
애플리케이션 데이터, 메타데이터 및 데이터 링크 등은 격차로 인해 위협을 받을 수 있습니다. 격차는 복제, 설정, 절차 진행 과정, 접근, 매핑, 조닝 등을 포함한 여러 부문에 걸쳐 발생할 수 있습니다. 그러므로 데이터의 정합성과 그 데이터의 내부구조의 일관성을 유지하는 일은 여간 난감한 일이 아닐 수 없습니다.

가용성 관련 위험요소
가용성의 격차는 클러스터와 데이터베이스의 구성오류나 예비 호스트의 복제 스토리지에 잘못된 매핑 등등으로 인해 발생할 수 있습니다. 그러한 격차의 존재는 예비 호스트, 즉 DR 서버가 필요할 때 제대로 동작하지 못하게 하는 원인이 될 수 있습니다.

최적화 관련 위험요소
스토리지 자원 배치에서 발생하는 격차는 스토리지 자원의 과도한 할당과 SAN 자원을 비효율적인 사용의 원인이 되고 최상의 시행안을 적용할 수 없게 됩니다.

이들 영역은 서로 관련되어 있고 상호 종속되어 있습니다. 예를 들면, DBA가 절차에 따라 추가적인 스토리지 공간을 요청했을 때, 스토리지 관리자는, 하나는 데이터베이스 파일을 위해 그리고 다른 하나는 일반 파일을 위해, 새로운 스토리지의 두 세트를 적절하게 구성하고 할당합니다. 일반적으로 각 세트는 각각의 복제 정책과 일관성 그룹 규정을 갖고 있을 것입니다. 그러나 그러한 구성은 향후 몇 주 후에 적용이 될 것입니다. 결과적으로, DBA가 데이터베이스 확장을 위한 관리 권한을 수행할 것이고, 데이터베이스 확장에 사용된 DBA가 설정한 새로운 스토리지는 DR환경에 부적합하게 될 것입니다. 그 결과 복제 데이터 세트 전체가 무용지물이 될 것입니다.

Comments