온프레미스 인프라 학습 ① — 계층 구조와 스토리지 · DK 기술 블로그

TL;DR

VM·앱만 보면 장애 원인을 놓칩니다. 온프레미스는 사용자 → 네트워크 → 가상화 → OS → 스토리지 → 백업 순으로 아래층이 위를 받칩니다.
스토리지 핵심은 AG(디스크 풀) → LDEV/LUN(호스트에 붙는 논리 디스크) 계층입니다.
NAS/NFS는 파일 공유, SAN Fabric는 FC 스위치·존으로 블록 스토리지를 연결합니다.
Write Latency·I/O wait 숫자는 절대값보다 변화량(Δ) 이 중요합니다.
1주차 학습은 인프라 생존기 56~58편부터 시작하면 됩니다.

들어가며

클라우드만 쓰다가 온프레미스 환경을 접하면 처음엔 VMware 콘솔이나 VM 목록만 보게 됩니다. “서버 몇 대, vCPU 몇 개”로 이해하면 장애 때 스토리지·SAN·백업 쪽 원인을 놓치기 쉽습니다.

저도 개인 학습 차원에서 인프라 생존기 : 무너진 성벽의 기록 블로그를 읽으며, 용어와 계층 구조를 정리하기 시작했습니다. 현장 경험이 없어도 “VM 아래에 뭐가 있는지” 말할 수 있게 만드는 게 1편 목표입니다.

온프레미스 계층 구조

위에서 아래로 의존합니다. 위층(VM·앱)만 보면 안 되고, 아래층이 흔들리면 위도 같이 흔들립니다.

flowchart TB
    U[사용자 / 앱 WAS·DB Client]
    N[네트워크 L2/L3·SAN Fabric·Latency]
    V[가상화 VMware / LPAR vCPU·Datastore]
    O[게스트 OS Linux/AIX swap·nmon]
    A[DB / 앱 프로세스]
    S[스토리지 AG→LDEV→LUN·NAS·GPFS]
    B[백업·DR NetBackup·스냅샷]

    U --> N
    N --> V
    V --> O
    O --> A
    V --> S
    S --> B

ASCII로 보면 이렇습니다.

[ 사용자 / 앱 (WAS, DB Client) ]
           │
    ┌──────┴──────┐
    │  네트워크    │  L2/L3, SAN Fabric, Latency
    └──────┬──────┘
           │
    ┌──────┴──────────────────────────┐
    │  가상화 (VMware / LPAR)          │
    │  ┌─────────────────────────┐    │
    │  │  게스트 OS               │    │
    │  │  ┌───────────────────┐  │    │
    │  │  │  DB / 앱 프로세스  │  │    │
    │  │  └───────────────────┘  │    │
    │  └─────────────────────────┘    │
    └──────┬──────────────────────────┘
           │
    ┌──────┴──────┐
    │  스토리지    │  AG → LDEV → LUN, NAS/NFS, GPFS
    └──────┬──────┘
           │
    ┌──────┴──────┐
    │  백업·DR     │  NetBackup, 스냅샷 ≠ 백업
    └─────────────┘

핵심: “VM이 느리다”고 OS만 보면 끝이 아닙니다. Datastore 아래 AG·LUN·SAN까지 내려가야 합니다.

스토리지·NAS·SAN 핵심 용어

용어	한 줄 정의
AG (Array Group)	디스크 풀·용량·성능을 묶는 스토리지 논리 단위
LDEV / LUN	호스트(OS)에 붙는 블록 스토리지 논리 디스크
SAN Fabric	스토리지↔서버를 잇는 FC SAN 스위치·존
NAS / NFS	파일 공유. Latency·마운트 옵션이 성능 좌우
GPFS / Fileset / Quota	대용량 파일시스템. 논리 한도 ≠ 물리 용량
Write Latency	쓰기 지연(ms). 절대값이 작아도 Δ 100배면 장애 신호
I/O wait	CPU가 디스크 I/O를 기다리는 %. 스토리지 병목 vs CPU 구분

AG → LDEV → LUN 흐름을 이해하면 “VM 디스크가 어디에 물려 있는지”가 보입니다. VMware의 Datastore는 이 LUN 위에 올라가는 공유 스토리지이고, 80% 임계 같은 운영 기준이 붙는 계층이죠.

NAS는 블록이 아니라 파일 공유입니다. 마운트 옵션 하나로 Latency가 크게 달라질 수 있어서, “스토리지 탓”이라고 말하기 전에 네트워크·마운트 설정부터 확인하는 습관이 필요합니다.

1주차 학습 로드맵

현장에 가지 않고 읽기만으로 계층 감각을 잡는 1주차 순서입니다.

읽을 글	주제	목표
56편	AG가 뭔지	스토리지 논리 단위 이해
57편	VM만 해봤다	AG → LDEV → VM 계층
58편	NetBackup	백업·복구 계층

세 편을 다 읽고 나면 “VM 아래에 뭐가 있는지” 한 문장으로 말할 수 있어야 합니다. 58편에서 스냅샷 ≠ 백업, 복구 경로 혼동 같은 운영 착각도 같이 잡힙니다.

자주 하는 착각

패턴	예시	대응
레이어 무시	VM만 알고 AG·LUN 모름	구조도부터
절대값 착각	Latency 숫자 작으니 OK	변화량(Δ) 보기
용어 혼동	quota=용량	용어表로 정리
팩트 vs 감	“스토리지 탓”	I/O wait·로그로 확인

인프라는 정직합니다. 로그와 숫자는 거짓말하지 않는다는 말이 생존기에서 반복되는 이유가 여기 있습니다.

마치며

1편에서는 계층 구조와 스토리지·NAS·SAN 용어만 잡았습니다. VM 콘솔이 익숙해도 AG·LUN·SAN Fabric을 모르면 장애 대응에서 한 층이 비어 있습니다.

다음 2편에서는 가상화(VMware/LPAR)·OS 성능 도구·네트워크 Latency를 이어서 정리할 예정입니다. 1주차 로드맵(56~58)부터 읽어 보시면 이 시리즈와 잘 맞습니다.