초보 개발자, 헷갈리는 데이터베이스 정규화(1NF, 2NF, 3NF)와 비정규화, 이제는 확실히 이해하자!

안녕하세요, IT와 테크 지식을 공부하고 기록하는 루카(Luka)입니다.

데이터베이스는 애플리케이션의 핵심 중추이며, 데이터를 어떻게 저장하고 관리하느냐는 애플리케이션의 성능, 유지보수성, 그리고 안정성에 지대한 영향을 미칩니다. 특히 초보 개발자분들이 데이터베이스 설계 단계에서 가장 어려워하는 개념 중 하나가 바로 '정규화(Normalization)'와 '비정규화(Denormalization)'입니다. 1NF, 2NF, 3NF 같은 용어들을 들으면 머리가 지끈거릴 수도 있지만, 걱정 마세요! 오늘은 이 복잡해 보이는 개념들을 명확하게 정리하고, 언제 어떻게 활용해야 하는지 실용적인 관점에서 함께 알아보는 시간을 갖겠습니다.

이 글을 통해 여러분은 데이터베이스 정규화의 기본 원리를 이해하고, 비정규화가 필요한 상황과 그에 따른 트레이드오프를 명확히 파악하여, 보다 견고하고 효율적인 데이터베이스를 설계하는 데 한 걸음 더 나아갈 수 있을 겁니다.

데이터베이스 정규화란 무엇인가요?

데이터베이스 정규화는 관계형 데이터베이스의 설계를 효율적으로 만들고, 데이터의 중복을 줄이며, 무결성을 향상시키기 위한 체계적인 과정입니다. 간단히 말해, 데이터를 테이블에 저장할 때 불필요한 중복을 최소화하고 데이터 이상(Anomaly) 현상(삽입, 갱신, 삭제 시 발생하는 문제)이 발생하지 않도록 구조를 개선하는 작업이라고 할 수 있습니다.

정규화의 주된 목적은 다음과 같습니다.

데이터 중복 최소화: 같은 데이터가 여러 곳에 저장되는 것을 방지합니다.
데이터 무결성 향상: 데이터의 일관성과 정확성을 유지하여 이상 현상을 방지합니다.
저장 공간 절약: 중복된 데이터가 줄어들어 디스크 공간을 효율적으로 사용합니다.
데이터 일관성 유지: 데이터 변경 시 모든 관련 데이터가 동시에 업데이트되어야 하는 복잡성을 줄입니다.

정규화는 여러 단계로 나뉘며, 각 단계는 이전 단계를 만족해야 합니다. 가장 기본적이고 널리 사용되는 세 가지 정규형(Normal Form)이 바로 1NF, 2NF, 3NF입니다.

정규화의 세 가지 기본 단계: 1NF, 2NF, 3NF 완벽 이해하기

제1 정규형 (1NF: First Normal Form)

제1 정규형은 데이터베이스 정규화의 가장 기본적인 단계입니다. 테이블이 1NF를 만족하려면 다음 두 가지 조건을 충족해야 합니다.

모든 컬럼의 값이 원자적(Atomic)이어야 합니다.
- 원자적 값이라는 것은 더 이상 분해할 수 없는 하나의 단일 값을 의미합니다. 예를 들어, '주소' 컬럼에 '서울시 강남구 역삼동 123-456'처럼 여러 정보가 혼합되어 있다면 이는 원자적이지 않습니다. '시', '구', '동', '번지' 등으로 분리해야 합니다.
반복되는 그룹(Repeating Groups)이 없어야 합니다.
- 하나의 레코드(행)에 여러 개의 동일한 속성(컬럼)이 반복되거나, 하나의 컬럼에 여러 개의 값이 콤마 등으로 구분되어 저장되는 것을 의미합니다. 예를 들어, '상품1, 상품2, 상품3'처럼 하나의 셀에 여러 상품이 들어있는 것은 허용되지 않습니다.

예시:

[1NF 위반 테이블]

주문 테이블
+----------+------------+------------------+------------------+
| 주문ID   | 고객명     | 주문상품         | 수량             |
+----------+------------+------------------+------------------+
| 1001     | 김철수     | 사과, 바나나     | 2, 1             |
| 1002     | 이영희     | 오렌지           | 3                |
+----------+------------+------------------+------------------+

위 주문상품 컬럼과 수량 컬럼은 여러 값을 포함하고 있어 원자적이지 않으며, 반복되는 그룹을 포함하고 있습니다.

[1NF 준수 테이블]

주문 테이블 (1NF)
+----------+------------+----------+--------+
| 주문ID   | 고객명     | 주문상품 | 수량   |
+----------+------------+----------+--------+
| 1001     | 김철수     | 사과     | 2      |
| 1001     | 김철수     | 바나나   | 1      |
| 1002     | 이영희     | 오렌지   | 3      |
+----------+------------+----------+--------+

1NF를 준수하기 위해 주문ID 1001의 주문상품을 각각의 행으로 분리했습니다. 이렇게 하면 각 행의 컬럼은 모두 원자적인 값을 가지게 됩니다.

제2 정규형 (2NF: Second Normal Form)

제2 정규형은 테이블이 1NF를 만족하고, 추가적으로 다음 조건을 충족해야 합니다.

모든 비주요 속성(Non-key attributes)이 기본 키(Primary Key) 전체에 대해 완전 함수 종속(Fully Functionally Dependent)이어야 합니다.
- 이 말이 어렵게 들릴 수 있습니다. 쉽게 말해, 테이블의 기본 키가 복합 키(두 개 이상의 컬럼으로 구성된 키)일 경우, 기본 키를 구성하는 어떤 부분에도 종속되지 않는 비주요 속성이 없어야 한다는 뜻입니다. 즉, 비주요 속성은 복합 키의 일부에만 종속되어서는 안 됩니다.

예시:

[2NF 위반 테이블]

수강 신청 테이블 (기본 키: (학생ID, 과목ID))

수강 신청 테이블
+----------+----------+----------+------------+-----------------+
| 학생ID   | 과목ID   | 성적     | 학생이름   | 학생주소        |
+----------+----------+----------+------------+-----------------+
| S001     | C101     | A        | 김철수     | 서울시 강남구   |
| S001     | C102     | B+       | 김철수     | 서울시 강남구   |
| S002     | C101     | B        | 이영희     | 경기도 성남시   |
+----------+----------+----------+------------+-----------------+

위 테이블에서 기본 키는 (학생ID, 과목ID)입니다. * 성적은 (학생ID, 과목ID) 전체에 종속됩니다. (어떤 학생이 어떤 과목에서 받은 성적) * 하지만 학생이름과 학생주소는 과목ID와는 상관없이 학생ID에만 종속됩니다. (학생ID만 알아도 학생이름과 학생주소를 알 수 있습니다.)

이는 2NF를 위반한 것입니다. 비주요 속성(학생이름, 학생주소)이 기본 키의 일부(학생ID)에만 종속되어 있기 때문입니다.

[2NF 준수 테이블]

2NF를 준수하려면, 부분 함수 종속성을 제거하여 테이블을 분리해야 합니다.

학생 테이블
+----------+------------+-----------------+
| 학생ID   | 학생이름   | 학생주소        |
+----------+------------+-----------------+
| S001     | 김철수     | 서울시 강남구   |
| S002     | 이영희     | 경기도 성남시   |
+----------+------------+-----------------+

수강 테이블
+----------+----------+----------+
| 학생ID   | 과목ID   | 성적     |
+----------+----------+----------+
| S001     | C101     | A        |
| S001     | C102     | B+       |
| S002     | C101     | B        |
+----------+----------+----------+

이제 학생 테이블에서는 학생ID가 기본 키이며, 학생이름과 학생주소는 학생ID에 완전히 종속됩니다. 수강 테이블에서는 (학생ID, 과목ID)가 기본 키이며, 성적은 이 복합 키에 완전히 종속됩니다.

제3 정규형 (3NF: Third Normal Form)

제3 정규형은 테이블이 2NF를 만족하고, 추가적으로 다음 조건을 충족해야 합니다.

기본 키가 아닌 모든 속성이 기본 키에 이행적 함수 종속(Transitive Functional Dependency)을 갖지 않아야 합니다.
- 이행적 함수 종속이란, A -> B 이고 B -> C 일 때 A -> C 가 성립하는 경우입니다. 즉, 기본 키가 아닌 어떤 속성이 또 다른 기본 키가 아닌 속성에 종속되어 있는 경우를 말합니다. 쉽게 말해, '비주요 속성이 다른 비주요 속성을 결정'해서는 안 됩니다.

예시:

[3NF 위반 테이블]

도서 테이블 (기본 키: ISBN)

도서 테이블
+----------+----------+-----------------+----------+----------------+
| ISBN     | 도서명   | 저자ID          | 저자이름 | 저자소속         |
+----------+----------+-----------------+----------+----------------+
| 978-1... | 데이터B  | A001            | 김작가   | 좋은출판사     |
| 978-2... | SQL의정석| A002            | 이작가   | 베스트출판사   |
| 978-3... | 파이썬입문| A001            | 김작가   | 좋은출판사     |
+----------+----------+-----------------+----------+----------------+

위 테이블에서 기본 키는 ISBN입니다. * 도서명, 저자ID는 ISBN에 종속됩니다. * 하지만 저자이름과 저자소속은 저자ID에 종속됩니다. 즉, ISBN이 저자ID를 결정하고, 저자ID가 저자이름과 저자소속을 결정합니다. * 이는 ISBN -> 저자ID 이고 저자ID -> 저자이름, 저자소속 이므로, ISBN이 저자이름과 저자소속에 이행적 함수 종속을 가지게 됩니다.

이행적 함수 종속은 데이터 중복을 발생시키고, 김작가의 소속이 변경될 경우 여러 행을 업데이트해야 하는 갱신 이상 현상을 일으킬 수 있습니다.

[3NF 준수 테이블]

3NF를 준수하려면, 이행적 함수 종속성을 제거하여 테이블을 분리해야 합니다.

도서 테이블
+----------+----------+----------+
| ISBN     | 도서명   | 저자ID   |
+----------+----------+----------+
| 978-1... | 데이터B  | A001     |
| 978-2... | SQL의정석| A002     |
| 978-3... | 파이썬입문| A001     |
+----------+----------+----------+

저자 테이블
+----------+----------+----------------+
| 저자ID   | 저자이름 | 저자소속       |
+----------+----------+----------------+
| A001     | 김작가   | 좋은출판사     |
| A002     | 이작가   | 베스트출판사   |
+----------+----------+----------------+

이제 도서 테이블은 ISBN을 기본 키로 가지며 도서명과 저자ID가 종속됩니다. 저자 테이블은 저자ID를 기본 키로 가지며 저자이름과 저자소속이 종속됩니다. 서로 간에 이행적 함수 종속이 제거되어 3NF를 만족합니다.

정규화, 항상 좋은 선택일까요? 비정규화의 필요성

정규화는 데이터의 무결성과 중복 제거에 큰 이점을 제공하지만, 때로는 정규화된 형태가 성능 저하를 야기할 수 있습니다. 여러 테이블로 분리된 데이터를 조회하려면 복잡한 JOIN 연산이 필요하며, 이는 특히 읽기(Read) 작업이 많은 시스템에서 성능 병목의 원인이 될 수 있습니다. 이럴 때 우리는 의도적으로 '비정규화(Denormalization)'를 고려할 수 있습니다.

비정규화란 무엇인가요?

비정규화는 데이터베이스의 성능을 최적화하기 위해 의도적으로 정규화 원칙을 위배하여 데이터 중복을 허용하는 과정입니다. 즉, 조인 연산을 줄이거나 특정 쿼리의 처리 속도를 높이기 위해 데이터를 한 테이블에 모으는 등의 작업을 수행합니다.

비정규화는 언제 고려해야 할까요?

비정규화는 정규화가 제공하는 이점을 일부 포기하는 것이므로 신중하게 접근해야 합니다. 다음과 같은 상황에서 비정규화를 고려해볼 수 있습니다.

잦은 JOIN 연산으로 인한 성능 저하: 여러 테이블을 조인하여 데이터를 가져오는 쿼리가 빈번하고, 이로 인해 시스템 성능에 심각한 영향을 미칠 때.
데이터 웨어하우스(Data Warehouse) 및 보고서 시스템: 주로 분석 및 보고 용도로 사용되며, 쓰기(Write) 작업보다 읽기(Read) 작업의 비중이 압도적으로 높은 시스템에서 빠른 응답 속도를 위해 데이터를 미리 집계하거나 중복 저장할 수 있습니다.
복잡한 쿼리 단순화: 특정 데이터셋을 가져오는 쿼리가 너무 복잡할 경우, 비정규화를 통해 쿼리를 단순화하고 가독성을 높일 수 있습니다.
자주 조회되는 파생 데이터 저장: 원본 데이터에서 계산되거나 파생되는 데이터를 매번 계산하는 대신, 미리 계산하여 저장해두면 조회 성능을 향상시킬 수 있습니다. (예: 주문 테이블에 총 결제 금액을 미리 저장)

비정규화 시 주의할 점

비정규화는 '무조건' 좋은 것이 아닙니다. 성능 향상이라는 이면에는 반드시 트레이드오프가 따릅니다.

데이터 중복 증가: 같은 데이터가 여러 테이블에 존재하게 되어 저장 공간이 늘어납니다.
데이터 일관성 문제: 중복된 데이터 중 하나가 변경될 경우, 모든 중복 데이터를 일관성 있게 업데이트해야 합니다. 이를 놓칠 경우 데이터 불일치(inconsistency)가 발생할 위험이 커집니다.
데이터 무결성 저해: 중복된 데이터를 관리하기 위한 추가적인 로직(트리거, 배치 작업 등)이 필요해지며, 이는 시스템 복잡도를 증가시킬 수 있습니다.
유지보수 비용 증가: 복잡도가 증가함에 따라 개발 및 유지보수 비용이 늘어날 수 있습니다.

정규화와 비정규화, 현명한 선택을 위한 팁

데이터베이스 설계는 정답이 정해져 있지 않습니다. 애플리케이션의 특성, 데이터의 양, 예상되는 트래픽, 성능 요구 사항 등 다양한 요소를 고려하여 정규화와 비정규화 사이에서 최적의 균형점을 찾아야 합니다.

기본은 정규화입니다.
- 초기 설계 단계에서는 3NF 수준까지 정규화를 진행하여 데이터 무결성과 중복 제거라는 기본적인 이점을 확보하는 것이 좋습니다.
성능 병목 지점 파악 후 비정규화를 고려합니다.
- 정규화된 상태로 시스템을 구축하고 운영하다가, 특정 쿼리나 기능에서 성능 병목이 발생할 경우 그때 비정규화를 통해 최적화를 시도하는 것이 현명합니다. 프로파일링 도구를 사용하여 어떤 쿼리가 느린지 정확히 파악하는 것이 중요합니다.
트레이드오프를 명확히 인지합니다.
- 비정규화를 결정할 때는 얻는 이점(성능 향상)과 잃는 것(데이터 무결성 관리의 어려움, 중복)을 명확히 이해하고 문서화해야 합니다.
신중하고 계획적으로 비정규화를 적용합니다.
- 비정규화는 무작정 데이터를 합치는 것이 아니라, 특정 목적을 위해 최소한의 범위에서 신중하게 이루어져야 합니다. 예를 들어, 자주 조회되는 특정 컬럼만 중복 저장하는 방식 등을 고려할 수 있습니다.

마무리하며

데이터베이스 정규화와 비정규화는 개발자로서 반드시 이해하고 숙달해야 할 중요한 개념입니다. 정규화를 통해 데이터의 품질과 견고함을 확보하고, 필요에 따라 비정규화를 통해 성능을 최적화하는 유연한 사고방식을 갖는 것이 중요합니다. 이 두 가지 개념을 깊이 이해하고 적절히 활용한다면, 여러분은 더욱 안정적이고 효율적인 데이터베이스 시스템을 구축할 수 있을 것입니다.

데이터베이스 설계는 단순히 스키마를 만드는 것을 넘어, 애플리케이션의 미래를 결정하는 중요한 과정임을 항상 기억해주세요. 오늘 다룬 내용이 여러분의 개발 여정에 작은 등불이 되었기를 바랍니다. 다음에 더 유익한 주제로 찾아뵙겠습니다. 감사합니다!