| App |
| hive, Pig, R : 데이터 프로그래밍 언어 pig(야후) : 데이터 처리 hive(페이스북) : 데이터 웨어하우스 r(오픈소스) : 데이터분석 |
| Hadoop : 데이터 접근 권한/데이터베이스) 대용량 데이터를 분산 처리할 수 있는 자바(Java) 기반의 오픈소스 프레임워크. 비영리 조직인 아파치(Apache)에서 구글의 빅데이터 분석 프레임워크를 따라 하둡을 만들어 오픈소스로 공개 [문제점] 하드디스크 드라이브 저장용량은 크게 정가한 반면 액세스 속도는 그에 못미침 (예 : 1테라를 읽으려면 2시간 반 소요) [해결방안] 여러 디스크로 데이터를 나누어 한번에 읽어들이기 [실현 방법] 데이터베이스 / 맵리듀스(key-value) 이용 (분산 데이터 처리 시스템) HBase : 분산 데이터 저장소 클라우드 데이터와 유사 |
| HDFS(Hadoop Distributed File System) : 분산 파일 시스템 – 대용량 파일을 특정 크기의 블록으로 나누어 분산된 서버에 저장하여 데이터를 빠르게 처리할 수 있도록 하는 파일 시스템. 기존의 파일 시스템(NAS/DAS/SAN)에 비해 저사양의 서버로 스토리지를 구성할 수 있음 Swift |
| Scale-out Cluster : 저장소 |
