빅데이터의 구분
- Structured Data
- 표, 테이블과 같이 구조를 갖춘 상태로 저장된 데이터
- Unstructured Data
- 특정한 형식 없이 저장된 데이터
- text document, PDF, image, video 등
- Semi-Structured Data
- 때로는 Structured Data로, 때로는 Unstructured로 구분되는 데이터
- XML, JSON, NoSQL database items
빅데이터 기술
- 빅데이터 = Operational + Analytic
- Operational Big Data
- Real-time interactive databases
- NoSQL
- Analytic Big Data
- Batch-oriented analytic databases
- Hadoop
빅데이터의 ‘5V’
- Volume : 방대한 양
- Variety : 다양한 형태
- Velocity : 빠른 속도
- Value : 가치
- Validity/Veracity : 진실성
하둡
- 방대한 양의 데이터를 하드웨어 클러스터링을 활용하여 적은 비용으로 다룰 수 있도록 하는 프레임워크
- Apache Software Foundation(ASF)에서 만든 오픈 소스 프레임워크
- 확장에 용이하며, Fault-tolerant 함
- 하나의 서버에서 장애가 발생해도 대체하여 정상적으로 작동 가능
- 저장 시스템일 뿐만 아니라, 데이터 처리도 가능
- Structured, Unstructured, Semi-structured 모드로 저장 가능 (유연함)
하둡 생태계
- 하둡 분산 파일 시스템 (Distributed File System)
- Map Reduce / YARN
- Map Reduce : 데이터 분산 처리
- YARN : Hadoop 2.0에서 추가, 자원 관리 및 스케줄링 역할
- HIVE
- 데이터 분석, 요약 작업 수행
- SQL과 유사한 HQL 언어를 활용
- PIG
- HBASE
- NoSQL 데이터베이스
- Realtime data 처리
- Mahout
- Sqoop
- Flume
- ZooKeeper
- Oozie
- Hadoop User Experience (HUE)
참고자료
Apache Spark Online Training