[데이터] - 빅데이터 기초 & 하둡

2024-01-09

빅데이터의 구분

Structured Data
- 표, 테이블과 같이 구조를 갖춘 상태로 저장된 데이터
Unstructured Data
- 특정한 형식 없이 저장된 데이터
- text document, PDF, image, video 등
Semi-Structured Data
- 때로는 Structured Data로, 때로는 Unstructured로 구분되는 데이터
- XML, JSON, NoSQL database items

빅데이터 기술

빅데이터 = Operational + Analytic
Operational Big Data
- Real-time interactive databases
- NoSQL
Analytic Big Data
- Batch-oriented analytic databases
- Hadoop

빅데이터의 ‘5V’

Volume : 방대한 양
Variety : 다양한 형태
Velocity : 빠른 속도
Value : 가치
Validity/Veracity : 진실성

하둡

방대한 양의 데이터를 하드웨어 클러스터링을 활용하여 적은 비용으로 다룰 수 있도록 하는 프레임워크
Apache Software Foundation(ASF)에서 만든 오픈 소스 프레임워크
확장에 용이하며, Fault-tolerant 함
- 하나의 서버에서 장애가 발생해도 대체하여 정상적으로 작동 가능
저장 시스템일 뿐만 아니라, 데이터 처리도 가능
Structured, Unstructured, Semi-structured 모드로 저장 가능 (유연함)

하둡 생태계

하둡 분산 파일 시스템 (Distributed File System)
Map Reduce / YARN
- Map Reduce : 데이터 분산 처리
- YARN : Hadoop 2.0에서 추가, 자원 관리 및 스케줄링 역할
HIVE
- 데이터 분석, 요약 작업 수행
- SQL과 유사한 HQL 언어를 활용
PIG
- 방대한 양의 데이터를 분석
HBASE
- NoSQL 데이터베이스
- Realtime data 처리
Mahout
- 기계학습 프레임워크
Sqoop
- 하둡 컴포넌트 간의 데이터 교환
Flume
- 로그 수집
ZooKeeper
- 분산 코디네이터
Oozie
- workflow 관리
Hadoop User Experience (HUE)
- 유저 인터페이스

참고자료

Apache Spark Online Training

참고

[Database] - 트랜잭션의 격리 수준

2024-03-30

지난 포스팅에서는 트랜잭션 스케줄의 개념과 순차적으로 실행되는 Serial 스케줄, 그리고 Serial 스케줄과 동일한 결과를 산출할 수 있는 Serializable 스케줄에 대해 Conflict Serializability와 View Serializability의 개념을 바...

[알고리즘] - 코딩 테스트 공부 (2022 카카오 테크 인턴십)

2024-03-19

이번 문제는 코딩 테스트 공부 입니다. 문제 명세 및 입출력 예시는 링크를 참고해주세요!

[알고리즘] - 미로 탈출 명령어 (2023 카카오 공채)

2024-03-12

이번 문제는 미로 탈출 명령어 입니다. 문제 명세 및 입출력 예시는 링크를 참고해주세요!

[Debugging] - 내 코드는 왜 스파게티가 되었는가? by 2048(Easy) (BOJ 12100)

2024-02-27

이번 글은 BOJ #12100, 2048(Easy) 문제를 풀며 디버깅 한 과정을 담고 있습니다. 문제 명세 및 입출력 예시는 링크를 참고해주세요!