1과목 · 데이터 이해·3장
빅데이터 특징
빅데이터의 3V와 확장(5V, 7V), 기존 데이터와의 차이, 등장 배경, 기술 스택과 시장 변화를 정리합니다.
1. 빅데이터 정의
빅데이터(Big Data) 는 기존 데이터베이스 관리도구로 수집·저장·분석이 어려운 대량의 정형·비정형 데이터를 뜻합니다. 단순한 "큰 데이터"가 아니라, 처리 방식과 가치 창출의 패러다임 자체가 다른 것이 핵심입니다.
2. 3V — 빅데이터의 기본 3요소
| 요소 | 의미 | 예 |
|---|---|---|
| Volume(규모) | 데이터의 양이 테라~페타바이트 이상 | 유튜브 하루 업로드량 |
| Variety(다양성) | 정형+반정형+비정형 혼재 | 텍스트·이미지·영상·로그 |
| Velocity(속도) | 실시간 생성·처리가 필요 | SNS 스트림, IoT 센서 |
3. 5V, 7V 확장
실무·학계에서는 3V에 다음을 추가합니다.
| 요소 | 의미 |
|---|---|
| Veracity(진실성) | 데이터의 신뢰성·품질 |
| Value(가치) | 의미 있는 통찰 창출 가능성 |
| Variability(가변성) | 맥락에 따른 의미 변동 |
| Visualization(시각화) | 이해를 돕는 시각화의 중요성 |
ADsP는 주로 3V와 5V(Volume/Variety/Velocity/Veracity/Value) 를 묻습니다.
4. 기존 데이터 vs 빅데이터
| 구분 | 기존 | 빅데이터 |
|---|---|---|
| 규모 | GB~TB | TB~PB+ |
| 구조 | 정형 중심 | 정형+비정형 혼재 |
| 처리 | 일괄(배치) | 실시간·스트리밍 병행 |
| 저장 | RDBMS | HDFS, NoSQL, 데이터 레이크 |
| 처리 도구 | SQL | Hadoop, Spark, Flink |
| 분석 | 샘플링·통계 | 전수·ML·마이닝 |
5. 빅데이터 등장 배경
- 기술의 발전 — 저장 비용 하락, GPU·클라우드 보급
- 데이터 소스의 폭증 — SNS, 모바일, IoT, 센서
- 알고리즘 성숙 — 머신러닝·딥러닝 재부흥
- 경영 환경 변화 — 데이터 기반 의사결정 요구 증가
6. 빅데이터 활용 기본 테크닉
| 기법 | 설명 |
|---|---|
| 연관 규칙(Association) | 장바구니 분석 — 함께 팔린 상품 |
| 유형 분석(Classification) | 스팸/정상, 불량/양호 |
| 회귀 분석(Regression) | 수치 예측 — 매출, 기온 |
| 군집 분석(Clustering) | 비슷한 고객·상품 묶기 |
| 기계 학습(ML) | 과거 데이터로 규칙 자동 학습 |
| 감성 분석(Sentiment) | 긍정/부정 의견 분류 |
| 소셜 네트워크 분석 | 관계·영향력 분석 |
7. 빅데이터 기술 스택 개요
[수집] Flume · Kafka · Fluentd · Logstash
[저장] HDFS · S3 · HBase · MongoDB · Cassandra
[처리] MapReduce · Spark · Flink · Hive · Pig
[관리] YARN · Zookeeper
[분석] Python · R · TensorFlow · PyTorch · Mahout
[시각] Tableau · PowerBI · Kibana · Superset
8. 빅데이터가 바꾼 4가지 변화
- 전수조사 가능 — 표본 대신 모집단 전체 분석
- 질(質)보다 양(量) — 일부 오차를 감수하고 방대한 데이터에서 통찰
- 인과관계 → 상관관계 — "왜"가 아닌 "함께 일어나는가"에 주목
- 사전 정의 불필요 — 가설 없이 패턴 발굴(탐색적 분석)
ADsP에서 "빅데이터 시대의 변화" 4가지를 자주 물어봅니다.
9. 출제 포인트
- 3V와 5V 구분 — 각 V의 이름과 의미
- 빅데이터 등장 배경 4가지
- 기존 데이터와의 대비(구조·저장·처리)
- 빅데이터 시대 4대 변화(전수·양·상관·탐색)
- 기본 분석 테크닉 이름(연관/분류/회귀/군집/감성/소셜)
요약 체크리스트
- 3V의 각 항목 이름과 예시를 한 개씩 들 수 있다
- 5V로 확장된 항목 2개를 추가로 말할 수 있다
- 기존 데이터와 빅데이터 차이 3가지 이상 나열
- 빅데이터 시대의 4가지 변화를 외운다
- 빅데이터 기본 분석 테크닉 7가지를 나열 가능