← 일백제ADsP 개념서
1과목 · 데이터 이해·3

빅데이터 특징

빅데이터의 3V와 확장(5V, 7V), 기존 데이터와의 차이, 등장 배경, 기술 스택과 시장 변화를 정리합니다.

1. 빅데이터 정의

빅데이터(Big Data) 는 기존 데이터베이스 관리도구로 수집·저장·분석이 어려운 대량의 정형·비정형 데이터를 뜻합니다. 단순한 "큰 데이터"가 아니라, 처리 방식과 가치 창출의 패러다임 자체가 다른 것이 핵심입니다.

2. 3V — 빅데이터의 기본 3요소

요소 의미
Volume(규모) 데이터의 양이 테라~페타바이트 이상 유튜브 하루 업로드량
Variety(다양성) 정형+반정형+비정형 혼재 텍스트·이미지·영상·로그
Velocity(속도) 실시간 생성·처리가 필요 SNS 스트림, IoT 센서

3. 5V, 7V 확장

실무·학계에서는 3V에 다음을 추가합니다.

요소 의미
Veracity(진실성) 데이터의 신뢰성·품질
Value(가치) 의미 있는 통찰 창출 가능성
Variability(가변성) 맥락에 따른 의미 변동
Visualization(시각화) 이해를 돕는 시각화의 중요성

ADsP는 주로 3V와 5V(Volume/Variety/Velocity/Veracity/Value) 를 묻습니다.

4. 기존 데이터 vs 빅데이터

구분 기존 빅데이터
규모 GB~TB TB~PB+
구조 정형 중심 정형+비정형 혼재
처리 일괄(배치) 실시간·스트리밍 병행
저장 RDBMS HDFS, NoSQL, 데이터 레이크
처리 도구 SQL Hadoop, Spark, Flink
분석 샘플링·통계 전수·ML·마이닝

5. 빅데이터 등장 배경

  1. 기술의 발전 — 저장 비용 하락, GPU·클라우드 보급
  2. 데이터 소스의 폭증 — SNS, 모바일, IoT, 센서
  3. 알고리즘 성숙 — 머신러닝·딥러닝 재부흥
  4. 경영 환경 변화 — 데이터 기반 의사결정 요구 증가

6. 빅데이터 활용 기본 테크닉

기법 설명
연관 규칙(Association) 장바구니 분석 — 함께 팔린 상품
유형 분석(Classification) 스팸/정상, 불량/양호
회귀 분석(Regression) 수치 예측 — 매출, 기온
군집 분석(Clustering) 비슷한 고객·상품 묶기
기계 학습(ML) 과거 데이터로 규칙 자동 학습
감성 분석(Sentiment) 긍정/부정 의견 분류
소셜 네트워크 분석 관계·영향력 분석

7. 빅데이터 기술 스택 개요

[수집]  Flume · Kafka · Fluentd · Logstash
[저장]  HDFS · S3 · HBase · MongoDB · Cassandra
[처리]  MapReduce · Spark · Flink · Hive · Pig
[관리]  YARN · Zookeeper
[분석]  Python · R · TensorFlow · PyTorch · Mahout
[시각]  Tableau · PowerBI · Kibana · Superset

8. 빅데이터가 바꾼 4가지 변화

  1. 전수조사 가능 — 표본 대신 모집단 전체 분석
  2. 질(質)보다 양(量) — 일부 오차를 감수하고 방대한 데이터에서 통찰
  3. 인과관계 → 상관관계 — "왜"가 아닌 "함께 일어나는가"에 주목
  4. 사전 정의 불필요 — 가설 없이 패턴 발굴(탐색적 분석)

ADsP에서 "빅데이터 시대의 변화" 4가지를 자주 물어봅니다.

9. 출제 포인트

  • 3V와 5V 구분 — 각 V의 이름과 의미
  • 빅데이터 등장 배경 4가지
  • 기존 데이터와의 대비(구조·저장·처리)
  • 빅데이터 시대 4대 변화(전수·양·상관·탐색)
  • 기본 분석 테크닉 이름(연관/분류/회귀/군집/감성/소셜)

요약 체크리스트

  • 3V의 각 항목 이름과 예시를 한 개씩 들 수 있다
  • 5V로 확장된 항목 2개를 추가로 말할 수 있다
  • 기존 데이터와 빅데이터 차이 3가지 이상 나열
  • 빅데이터 시대의 4가지 변화를 외운다
  • 빅데이터 기본 분석 테크닉 7가지를 나열 가능