_아카이브‎ > ‎

격차 지식베이스


격차(Gap) 지식베이스(Knowledgebase)


격차지식베이스의 구성

1. 낙인된 격차(Gap Signatures)
2. 최상의 시행안(Best Practices)

AvailabilityGuard
의 분석영역


RecoverGuard Analytics



최근 격차지식베이스

  • 복제 일관성 결여 - LUN 매핑 최상의 시행안 - 원격지 데이터복제 볼륨의 LUN 매핑 일관성 결여영향평가단일 포트 매핑과 단일 경로의 존재는 해당 스토리지 볼륨의 장애 가능성을 크게 높인다. 이것은 MTBF(Mean Time Between Failure, 평균무고장시간 ...
    2011. 8. 21. 오후 8:04에 김주철님이 게시
  • 복제 일관성 결여 - 복제사본 부유 낙인된 격차 - 원격지 데이터복제에서 복제사본의 부유(Suspended) 영향평가 해당 사본을 사용해서 재해복구를 하고자 할 경우 해당 사본을 사용할 수 없을 것이다. 결과적으로, 데이터를 가장 최근의 백업으로부터 복구해야하므로 복구시간이 크게 늘어나고 ...
    2011. 8. 21. 오후 8:06에 김주철님이 게시
  • 시스템구성 표류 - 부트 마운트 낙인된 격차 - 클러스터 구성에서 대기노드 부트 시 자동마운트로 구성된 파일시스템영향평가장애이양(Fail-Over)나 전환이양(Switch-Over) 또는 노드를 재부팅한 후에 데이터가 오염될 위험이 있다.기술적인 측면활성노드에 이미 ...
    2011. 8. 21. 오후 8:08에 김주철님이 게시
  • 시스템구성 표류 - 숨겨진 종속성 낙인된 격차 - HA/DR 테스트에서 찾을 수 없는 숨겨진 종속성영향평가만일 네트워크 파일시스템을 DR 사이트로 복제하고 있지 않다면 데이터의 손실을 초래할 것이다. 만일 시스템을 복제한다면, 관리자가 DR 사이트에서 상응하는 ...
    2011. 8. 9. 오전 3:15에 김주철님이 게시
  • 시스템구성 표류- HA 낙인된 격차 - HA 시스템구성의 표류영향평가 이 격차는 세부적인 표류내용에 따라 다양하나, 다른 노드로의 전환이양(Switch-Over)/장애이양(Fail-Over) 할 때 장애를 유발함으로써 가동중단을 초래하거나, 장애이양/전환이양을 하더라도 성능을 ...
    2011. 8. 21. 오후 8:09에 김주철님이 게시
  • 시스템구성 표류 - DR 낙인된 격차 - DR 시스템구성의 표류영향평가재해발생 시, 원활하게 DR 서버로 장애이양을 할 수 없다. 누락된 하드웨어와 소프트웨어 설치, 소프트웨어 업그레이드 및 커널 파라미터 구성 등에 필요한 수작업을 해야 한다 ...
    2011. 8. 21. 오후 8:10에 김주철님이 게시
  • 복제 일관성 결여 - RAID 레벨 혼용 낙인된 격차 - 원격지 데이터복제에서 RAID 레벨의 혼용영향평가원격지 데이터복제에서 RAID 레벨의 혼용은 스토리지 유형 혼용에 비해 크게 심각하지는 않다. 이 격차는 주로 성능 상의 문제를 야기하거나 스토리지의 비효율 등과 ...
    2011. 8. 21. 오후 8:11에 김주철님이 게시
16개의 게시물 중 1 - 7 더보기 »



복제 일관성 결여 - LUN 매핑

게시자: 김주철, 2011. 8. 9. 오전 3:23   [ 2011. 8. 21. 오후 8:04에 업데이트됨 ]

최상의 시행안 - 원격지 데이터복제 볼륨의 LUN 매핑 일관성 결여

Inconsistant LUN Mapping

영향평가

단일 포트 매핑과 단일 경로의 존재는 해당 스토리지 볼륨의 장애 가능성을 크게 높인다. 이것은 MTBF(Mean Time Between Failure, 평균무고장시간)를 크게 단축하고 빈번한 가동중단을 초래한다. 또한, 이 스토리지 볼륨을 사용하는 애플리케이션은 I/O 부하 배분(Load Balancing)이 불가능하므로 최적화되지 못한 성능으로 인해 불편을 겪을 것이다.

기술적인 측면

일반적으로 가동시스템 환경에서  최상의 시행안은 다음과 같다:

  • 스토리지 볼륨에 대해 복수의 LUN을 매핑(어레이 포트 매핑) 하라
  • 스토리지 볼륨에 대해 복수의 경로를 구성하라
세개의 스토리지 볼륨에 데이터베이스를 저장하고 있는 위 그림의 예에서, 두개의 볼륨은 이러한 최상의 시행안을 따르고 있지만 최근에 추가한 세번째 볼륨을 이를 위해하고 오직 하나의 포트 매핑과 I/O 경로를 갖고 있다.

발생원인

특정 업무에 스토리지 공간을 추가하기 위한 것과 같은 작업을 긴박하게 요구받는 일은 가동시스템 환경에서 매우 흔한 일이다. 이러한 긴박한 요구를 처리하는 동안 어레이 포트 매핑과 SAN I/O 경로에 대해 이중화 구성하는 일은 잊어버리기 쉽다. 변경을 완료한 후에, 모든 업무가 정상화되면 이러한 잘못은 인식하지 못한다. 이 격차는 재해복구를 해야 하는 순간에야 깨닫게 될 것이다.

복제 일관성 결여 - 복제사본 부유

게시자: 김주철, 2011. 8. 7. 오후 8:33   [ 2011. 8. 21. 오후 8:06에 업데이트됨 ]

낙인된 격차 - 원격지 데이터복제에서 복제사본의 부유(Suspended)

Suspended Devices

영향평가

해당 사본을 사용해서 재해복구를 하고자 할 경우 해당 사본을 사용할 수 없을 것이다. 결과적으로, 데이터를 가장 최근의 백업으로부터 복구해야하므로 복구시간이 크게 늘어나고, 복구시점도 크게 후퇴할 것이다.

기술적인 측면

가동시스템과 재해복구시스템 모두에 원격지 데이터복제를 위해 볼륨 구성을 적합하게 구성하였으나, 일부 가동시스템의 스토리지 볼륨이 부유(Suspended) 상태가 되어 원격지로 복제가 이루어지지 않고 있는 상태이다.

발생원인

이 격차는 복제하도록 플래그를 설정한 스토리지 볼륨을 기존 볼륨 그룹에 추가하고 복제 사본과 설정(Establish)을 하지 않은 경우에 발생한다.

시스템구성 표류 - 부트 마운트

게시자: 김주철, 2011. 8. 7. 오후 7:39   [ 2011. 8. 21. 오후 8:08에 업데이트됨 ]

낙인된 격차 - 클러스터 구성에서 대기노드 부트 시 자동마운트로 구성된 파일시스템



영향평가

장애이양(Fail-Over)나 전환이양(Switch-Over) 또는 노드를 재부팅한 후에 데이터가 오염될 위험이 있다.

기술적인 측면

활성노드에 이미 마운트 되어 있는 파일시스템들을 대기노드에 자동 마운트하도록 구성한 경우에 대기노드를 재부팅하면, 대기노드는 이들 파일시스템들을 마운트하려고 시도할 것이다. 일반적으로 SAN LUN은 한번에 한 서버에 의해서만 접근해야 하므로 이러한 파일시스템들의 데이터는 오염될 위험이 크다. 그 반대로 되는 경우, 즉 두 노드를 재부팅할 때 대기노드가 먼저 파일시스템들을 마운트한 후에 활성노드가 다시 그 파일시스템들을 마운트하려고 하는 경우, 역시 마찬가지이다.

발생원인

이 격차는 클러스터 구성에 포함되어 있는 서버들의 구성을 지속적으로 유지하기가 매우 어렵기 때문에, HA 환경에서 매우 빈번하게 나타나는 위험요소 중 하나이다. 결과적으로, 이런 구성의 불일치는 데이터보호화 가용성에 매우 취약함을 야기하게 된다.


시스템구성 표류 - 숨겨진 종속성

게시자: 김주철, 2011. 8. 2. 오전 2:03   [ 2011. 8. 9. 오전 3:15에 업데이트됨 ]


낙인된 격차 - HA/DR 테스트에서 찾을 수 없는 숨겨진 종속성

낙인된 격차 - HA/DR 테스트에서 찾을 수 없는 숨겨진 종속성

영향평가

만일 네트워크 파일시스템을 DR 사이트로 복제하고 있지 않다면 데이터의 손실을 초래할 것이다. 만일 시스템을 복제한다면, 관리자가 DR 사이트에서 상응하는 파일시스템의 위치를 찾고 DR 예비 서버에 그들을 마운트하느라 복구 시간은 크게 늘어날 것이다. 이것은 기업이 사이트에 대한 방대한 량의 정보를 문서화해야 한다는 것이고, 그렇지 않으면 데이터를 잃게 될 것이다.

기술적인 측면

특정 서비스 업무나 애플리케이션을 위한 DR 테스트를 수행할 때, 대부분의 기업들이 가동시스템 데이터센터 전체를 가동 중단하지 않는다. 따라서, DR 테스트 중에 가동시스템 데이터센터의 다른 자원을 알게 모르게 접근할 수 있고 사용할 수 있기 때문에 DR 테스트는 성공적으로 완료할 것이다.

발생원인

이 위험은  일반적으로 네트워크를 구성하는 과정에서 DR을 고려하지 않았을 때 발생하는 구성상의 실수에서 유래한다.


어떤 호스트가 네트워크 파일시스템(CIFS/NFS)에 접근하고 있고, 그 네트워크 파일시스템은 임의의 가동시스템 서버/어레이/NAS 장비 등에 저장되어 있다. 상대방의 DR 서버도 가동시스템 데이터센터의 같은 가동시스템 서버 상의 네트워크 파일시스템을 접근하고 있다. DR 테스트를 진행하는 동안, 가동시스템 파일 서버는 가동 중단을 하지 않고 테스트를 성공적으로 마무리 한다. 그러나 실제 재해 상황에서는 가동시스템 서버는 가용한 상태가 아닐 것이다.



시스템구성 표류- HA

게시자: 김주철, 2011. 8. 2. 오전 2:02   [ 2011. 8. 21. 오후 8:09에 업데이트됨 ]


낙인된 격차 - HA 시스템구성의 표류

낙인된 격차 - HA 시스템구성의 표류


영향평가

이 격차는 세부적인 표류내용에 따라 다양하나, 다른 노드로의 전환이양(Switch-Over)/장애이양(Fail-Over) 할 때 장애를 유발함으로써 가동중단을 초래하거나, 장애이양/전환이양을 하더라도 성능을 감소시킴으로써 잘해야 업무처리가 느려지는 것이고, 최악의 경우 업무 자체가 불가능한 결과를 초래한다.

기술적인 측면

그림에서 보는 사례의 경우, 현재 활성노드에 이중화 되어 있는 HBA와 DNS 구성이 대기노드에는 이중화 되어 있지 않다. 단일 HBA/DNS 서버구성은 장애에 무방비 상태(Single Point of Failure)가 된다. 현재의 대기노드로 장애이양/전환이양을 하게 되면, 이 클러스터에서 실행하는 애플리케이션은 위축된 가용성/MTBF와 늘어난 가동중단 시간으로 애로사항을 겪을 것이다. 거기에 더해서, 대기노드는 허용되는 개방파일의 수가 크게 부족해서 애플리케이션의 장애를 초래할 수 있다. 또한, 활성노드가 4GB 추가 용량을 갖고 있는 스왑 용량이 대기노드는 1GB뿐이므로, 애플리케이션 실행에 적절하게 충분한 메모리를 확보하지 못하게 된다. 마지막으로, 설치된 제품의 차이는 제품의 영향에 따라 다양한 영향을 미칠 것이다.

발생원인

이런 상황은 HA 환경에서 매우 빈번하게 발생한다. 많은 세부내용을 담고 있는 호스트 구성내역을 HA 서버가 가동 호스트와 항시적으로 동기화를 유지하도록 하는 일은 매우 어려운 일이다.
 

시스템구성 표류 - DR

게시자: 김주철, 2011. 8. 2. 오전 2:00   [ 2011. 8. 21. 오후 8:10에 업데이트됨 ]


낙인된 격차 - DR 시스템구성의 표류

낙인된 격차 - DR 시스템구성의 표류


영향평가

재해발생 시, 원활하게 DR 서버로 장애이양을 할 수 없다. 누락된 하드웨어와 소프트웨어 설치, 소프트웨어 업그레이드 및 커널 파라미터 구성 등에 필요한 수작업을 해야 한다. 일반적으로 이런 격차는 구성 오류를 확인하느라 수일에서 수주에 이르는 추가적인 복구시간을 요하기 때문에 RTO 위배를 초래하게 된다.

기술적인 측면

그림에서 보는 사례의 경우, 가동시스템 호스트에 상응하는 DR 서버는 애플리케이션 실행에 합당한 성능을 제공하기에 충분한 자원을 갖고 있지 못하다. 또한, 가동시스템에 설치된 몇몇 제품들은 DR 서버에 설치되지 않았거나 낮은 버전으로 설치되어 있다. 거기에 더해서, 커널 파라미터는 가동시스템에 비해 매우 낮게 구성되어 있다. 일반적으로 많은 애플리케이션들이 같은 호스트에 설치된 다른 제품들과 커널 파라미터에 연관되어 있다, 예를 들어, 오라클은 "semaphores" 관련 커널 파라미터들에 매우 민감한 사실은 잘 알려져 있다.

발생원인

이런 상황은 DR 환경에서 매우 빈번하게 발생한다. 많은 세부내용을 담고 있는 호스트 구성내역을 DR 서버가 가동 호스트와 항시적으로 동기화를 유지하도록 하는 일은 매우 어려운 일이다. 또한, 일반적으로 DR 테스트는 실제 가동시스템에서 예상되는 부하 만큼을 가하지 않으므로, 이들 구성 상의 문제들은 탐지할 수 없다.
 

복제 일관성 결여 - RAID 레벨 혼용

게시자: 김주철, 2011. 8. 2. 오전 1:58   [ 2011. 8. 21. 오후 8:11에 업데이트됨 ]


낙인된 격차 - 원격지 데이터복제에서 RAID 레벨의 혼용

낙인된 격차 - 원격지 데이터복제에서 RAID 레벨의 혼용

영향평가

원격지 데이터복제에서 RAID 레벨의 혼용은 스토리지 유형 혼용에 비해 크게 심각하지는 않다. 이 격차는 주로 성능 상의 문제를 야기하거나 스토리지의 비효율 등과 관계가 있다.

기술적인 측면

그림의 예에서는 세개의 스토리지 볼륨으로 구성된 파일시스템이 두개의 볼륨은 RAID1으로 나머지 한개의 볼륨은 RAID5로 구성되어 재해복구센터에 원격지 데이터복제를 하고 있다.  또 다른 경우, 가동시스템센터의 스토리지 볼륨은 동일한 RAID 레벨로 구성되어 있는데. 재해복구센터의 스토리지 볼륨은 RAID 레벨을 혼용해서 구성한 경우도 있다.

발생원인

복수의 RAID 유형이 같은 호스트의 데이터베이스에 프로비젼되는 경우, 즉 로그나 색인을 위해서는 RAID1 볼륨을 그리고 테이블스페이스를 위해서는 RAID1 볼륨을 사용하는 경우에 일반적으로 발견되는 격차이다. 또는 업무상 스토리지의 서로 다른 계층(ILM: Information Lifecycle Management)을 서로 다른 RAID 유형으로 책정하는 경우도 있다.



복제 일관성 결여 - 스토리지 혼용

게시자: 김주철, 2011. 8. 2. 오전 1:57   [ 2011. 8. 21. 오후 8:12에 업데이트됨 ]


낙인된 격차 - 원격지 데이터복제에서 스토리지 유형의 혼용

낙인된 격차 - 원격지 데이터복제에서 스토리지 유형의 혼용


영향평가

이들 원격지 데이터복제 사본을 이용해서 재해복구센터의 데이터베이스를 하려고 하면, 이들 사본의 불완전성으로 인해 복구가 불가능할 것이다. 결과적으로 데이터를 최근의 백업으로 부터 복구해야 하므로, 복구시간의 크게 늘어나게 되고 복구시점도 크게 후퇴하게 된다.

기술적인 측면

그림의 예에서 보는 것처럼, 데이터베이스를 구성하는 볼륨의 일부가 내장 디스크(Local Disk)로 구성되어 있고, 이 볼륨은 원격지 데이터복제에서 제외되게 되는 경우이다. 결과적으로, 전체 복제 사본이 불완전하게 되고 재해복구센터에서의 데이터베이스 복구는 불가능하게 된다.

발생원인

이 격차는 프로비져닝 프로세스에 너무 많은 팀이 개입하고 있으면서 크게 변화가 일어나고 있는 환경에 일반적으로 자주 발견된다. 스토리지 팀, 플랫 폼 팀 및 데이터베이스 팀이 관여하는 프로비져닝 프로세스에서 업무를 연계하는 일은 매우 복잡하고, 그 과정에서 데이터베이스를 생성하거나 확장하기 위해 ( Veritas나 기타 LVM 소프트웨어) 볼륨 그룹을 만들 때 서로 다른 스토리지 유형 (예를 들면, 내장 디스크, EMC, NetApp 등)을 혼용하는 일이 빈번하게 일어난다. 

시스템구성 표류 - SAN I/O 경로

게시자: 김주철, 2011. 8. 2. 오전 1:54   [ 2011. 8. 21. 오후 8:14에 업데이트됨 ]


낙인된 격차 - 장애 무방비 상태의 SAN I/O 경로

Inconsistent SAN IO Path


영향평가

단일 포트 매핑과 단일 경로의 존재는 해당 스토리지 볼륨의 장애 가능성을 크게 높인다. 이것은 MTBF(Mean Time Between Failure, 평균무고장시간)를 크게 단축하고 빈번한 가동중단을 초래한다. 또한, 이 스토리지 볼륨을 사용하는 애플리케이션은 I/O 부하 배분(Load Balancing)이 불가능하므로 최적화되지 못한 성능으로 인해 불편을 겪을 것이다.

기술적인 측면

일반적으로 가동시스템 환경에서  최상의 시행안은 다음과 같다:

  • 스토리지 볼륨에 대해 복수의 LUN을 매핑(어레이 포트 매핑) 하라
  • 스토리지 볼륨에 대해 복수의 경로를 구성하라
세개의 스토리지 볼륨에 데이터베이스를 저장하고 있는 위 그림의 예에서, 두개의 볼륨은 이러한 최상의 시행안을 따르고 있지만 최근에 추가한 세번째 볼륨을 이를 위해하고 오직 하나의 포트 매핑과 I/O 경로를 갖고 있다.

발생원인

특정 업무에 스토리지 공간을 추가하기 위한 것과 같은 작업을 긴박하게 요구받는 일은 가동시스템 환경에서 매우 흔한 일이다. 이러한 긴박한 요구를 처리하는 동안 어레이 포트 매핑과 SAN I/O 경로에 대해 이중화 구성하는 일은 잊어버리기 쉽다. 변경을 완료한 후에, 모든 업무가 정상화되면 이러한 잘못은 인식하지 못한다. 이 격차는 재해복구를 해야 하는 순간에야 깨닫게 될 것이다.


시스템구성 표류 - 데이터 변조

게시자: 김주철, 2011. 8. 2. 오전 1:51   [ 2011. 8. 21. 오후 8:18에 업데이트됨 ]


낙인된 격차 - 비인가 호스트에 의한 데이터 변조의 위험

낙인된 격차 - 비인가 호스트에 의한 데이터 변조의 위험

영향평가

사례 1 - 비인가 호스트가 접근 금지된 디스크를 독점적으로 점유해서 대기 호스트는 해당 볼륨을 마운트하지 못하고 파일시스템을 사용할 수 없는 경우이다. 문제를 확인하고 해소하는 데에 많은 시간이 소요되고, 이미 비인가 호스트가 접근 금지된 디스크를 사용한 경우에 복구는 불가능하게 된다.

사례 2 - 대기 호스트와 비인가 호스트가 해당 디스크를 동시에 접근하는 경우이다. 만일 비인가 호스트가 접근 금지된 디스크를 사용하려고 시도하는 순간 데이터는 오염되고, 바로 활성 호스트와 대기호스트 모두 즉시 가동중단이 일어난다.

기술적인 측면

사례 1은 상호간에 독점적인 접근 권한으로 디스크를 구성한 경우에 발생한다. 디스크를 제일 먼저 접근한 호스트가 독점권을 갖고, 다른 호스트는 접근할 수 없다. 사례 2는 복수 접근(Multi-Homed) 또는 잠금이 풀린(Non-Lock) 경우에 발생한다. 현재 출시된 대부분의 파일시스템은 외부로부터 변조할 수 없도록 개발되었다. 이런 기조는 DAS(Direct Attached Storage) 만이 유일하게 사용되던 시기에 형성되어 지금까지 바뀌지 않고 있다. 클러스터 파일시스템 또한 같은 위협에 취약하다. 즉 클러스터 파일시스템은 동일한 디스크로 복수의 호스트접근을 허용하지만. 허용된 호스트는 클러스터의 일부이어야 하고 예측이 가능한 범위 내에서 행동해야 한다는 전제가 있다. 일부 운영시스템은 외부로부터 자신의 데이터 구조를 변조하려는 시도에 격렬하게 반응해서 스스로 붕괴하기도 한다.

발생원인

이 격차는 RecoverGuard로 검색한 고객들 중에 거의 80% 가량에서 발견될 정도로 매우 일반적이다. 그 이유는 수십 가지가 있을 수 있지만, 한가지 확실한 것은 평소에는 잠잠히 있다가 실제 재해가 발생했을 때 본색을 드러낸다는 것이다. 

몇 가지 사례를 살펴보면 다음과 같다:

외장디스크로 장착되는 일부 어레이는 기본적으로 가용한 모든 포트에 모든 디스크를 매핑한다. 어레이 매핑을 다시 정의하거나 SAN(Storage Area Network) 포트나 HBA(Host Bus Adapter) 마스크을 사용하거나 또는 이 모든 방법을 사용해서 디스크로 접근을 제한하거나 분류하는 일은 오로지 사용자의 몫이다. 이것은 오류를 범하기 아주 쉽다. 게다가, 일단 마스킹이 성공적으로 구성되었다고 해도, 나중에 다른 SAN 포트로 이동하거나 HBA를 교체하거나 하는 일련의 유지보수 행위로 인해 오류가 발생하기도 한다.

접근 금지된 디스크로의 접근은 과거에 해당 스토리지로의 접근 권한을 부여 받았으나 매핑 제거를 소홀히 함으로써 나중에 해당 스토리지로 접근이 가능한  비인가 호스트에 의해 발생하기도 한다. 

디스크로 접근 성능이나 복원력을 올리기 위해 시시때때로 예외적인 매핑이 추가된다. 조닝과 마스킹이 총괄적으로 통제되고 관리되지 않으면, 경로 중에 하나는 실제로 삼천포(Astray)로 갈 것이다.

호스트의 HBA는 꼭 장애로 인해 교체하는 것은 아니다. 오히려 더 큰 성능에 대한 필요로 이루어지는 경우가 많다. 만일 소프트 조닝을 사용하고 있는 호스트에서 교체한 HBA에 적절하게 업데이트를 하지 않고, 구형 HBA를 다른 호스트에서 재사용한다면, 이전 호스트에서 부여받은 SAN 디스크에 대한 접근 권한을 그대로 갖게 된다.

위에 열거한 사례 외에도 이 격차가 발생할 수 있는 많은 가능성이 존재한다.


1-10 of 16