BigData/Hadoop

Hadoop - 이론

14ben 2024. 1. 23. 14:08
728x90
정의 : 대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈 소스 프레임 워크

 

하둡의 핵심 기술

  • HDFS : 잘 저장하고
  • MapReduce : 잘 처리 하느냐

HDFS (Hadoop Distributed File System) 분산 저장 : 많은 데이터의 양이을 분산해서 잘 저장하는 시스템

MapReduce 분산 처리 : 데이터가 잘 저장될 수 있게 처리

그림과 같이 하둡은

하둡 위에서 Pig나 Hive등과 같이 활용도를 높이기 위한 오픈소스 프레임워크이다.

그래서 모든 기술스택이 쌓여있는 것을 Hadoop Stack 이라고 한다.

 

코끼리인 하둡 위를 보게되면 도야지, 꿀벌 등이 있다.

하둡 관련 프로그램들은 동물을 상징

동물이 모여있는 곳 == 동물원 (Zoo)

 

Zoo Keeper : Hadoop Stack에 존재하는 프로그램(동물)을 전체적으로 컨트롤하는 프로그램

Sqoop : 정형화된 데이터를 가져옴

Flume : 로그 데이터를 수집

 

 

작성중.....

 

 

"빅데이터 플랫폼의 미래, LG CNS R&D, 이주열"

 

 

 

 


출처 : https://m.blog.naver.com/kokoyou7620/222170072760

728x90