빅데이터의 구분

  • Structured Data
    • 표, 테이블과 같이 구조를 갖춘 상태로 저장된 데이터
  • Unstructured Data
    • 특정한 형식 없이 저장된 데이터
    • text document, PDF, image, video 등
  • Semi-Structured Data
    • 때로는 Structured Data로, 때로는 Unstructured로 구분되는 데이터
    • XML, JSON, NoSQL database items

빅데이터 기술

  • 빅데이터 = Operational + Analytic
  • Operational Big Data
    • Real-time interactive databases
    • NoSQL
  • Analytic Big Data
    • Batch-oriented analytic databases
    • Hadoop

빅데이터의 ‘5V’

  • Volume : 방대한 양
  • Variety : 다양한 형태
  • Velocity : 빠른 속도
  • Value : 가치
  • Validity/Veracity : 진실성

하둡

  • 방대한 양의 데이터를 하드웨어 클러스터링을 활용하여 적은 비용으로 다룰 수 있도록 하는 프레임워크
  • Apache Software Foundation(ASF)에서 만든 오픈 소스 프레임워크
  • 확장에 용이하며, Fault-tolerant
    • 하나의 서버에서 장애가 발생해도 대체하여 정상적으로 작동 가능
  • 저장 시스템일 뿐만 아니라, 데이터 처리도 가능
  • Structured, Unstructured, Semi-structured 모드로 저장 가능 (유연함)

하둡 생태계

  • 하둡 분산 파일 시스템 (Distributed File System)
  • Map Reduce / YARN
    • Map Reduce : 데이터 분산 처리
    • YARN : Hadoop 2.0에서 추가, 자원 관리 및 스케줄링 역할
  • HIVE
    • 데이터 분석, 요약 작업 수행
    • SQL과 유사한 HQL 언어를 활용
  • PIG
    • 방대한 양의 데이터를 분석
  • HBASE
    • NoSQL 데이터베이스
    • Realtime data 처리
  • Mahout
    • 기계학습 프레임워크
  • Sqoop
    • 하둡 컴포넌트 간의 데이터 교환
  • Flume
    • 로그 수집
  • ZooKeeper
    • 분산 코디네이터
  • Oozie
    • workflow 관리
  • Hadoop User Experience (HUE)
    • 유저 인터페이스

참고자료

Apache Spark Online Training

태그:

카테고리:

업데이트: