Big data analysis system

App
hive, Pig, R : 데이터 프로그래밍 언어
pig(야후) : 데이터 처리
hive(페이스북) : 데이터 웨어하우스
r(오픈소스) : 데이터분석
Hadoop : 데이터 접근 권한/데이터베이스)
대용량 데이터를 분산 처리할 수 있는 자바(Java) 기반의 오픈소스 프레임워크. 비영리 조직인 아파치(Apache)에서 구글의 빅데이터 분석 프레임워크를 따라 하둡을 만들어 오픈소스로 공개
[문제점] 하드디스크 드라이브 저장용량은 크게 정가한 반면 액세스 속도는 그에 못미침 (예 : 1테라를 읽으려면 2시간 반 소요)
[해결방안] 여러 디스크로 데이터를 나누어 한번에 읽어들이기
[실현 방법] 데이터베이스 / 맵리듀스(key-value) 이용 (분산 데이터 처리 시스템)
HBase : 분산 데이터 저장소
클라우드 데이터와 유사
HDFS(Hadoop Distributed File System) : 분산 파일 시스템
– 대용량 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장하여 데이터를 빠르게 처리할 수 있도록 하는 파일 시스템. 기존의 파일 시스템(NAS/DAS/SAN)에 비해 저사양의 서버로 스토리지를 구성할 수 있음
Swift
Scale-out Cluster : 저장소

댓글 남기기