스파크: Difference between revisions
From IT위키
No edit summary |
No edit summary |
||
Line 17: | Line 17: | ||
* Core: 분산 처리, 스케줄링, API 인터페이스 지원 | * Core: 분산 처리, 스케줄링, API 인터페이스 지원 | ||
* 작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능 | * 작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능 | ||
== RDD == | |||
;Resilient Distribute Dataset | |||
* 데이터 내장애성 보유 구조 | |||
* 데이터 집합의 추상적객체 개념 | |||
== 참조 문헌 == | == 참조 문헌 == | ||
* [https://www.youtube.com/watch?v=O35dLfyklm0 빅데이터 051 인메모리 데이터 처리 기반 SW의 등장(구자환 교수님)] | * [https://www.youtube.com/watch?v=O35dLfyklm0 빅데이터 051 인메모리 데이터 처리 기반 SW의 등장(구자환 교수님)] |
Revision as of 23:01, 2 January 2020
- Spark
- 인-메모리 기반의 분산 데이터 처리 시스템
- UC 버클리의 AMP 랩에서 개발하였으며, 현재 아파치 재단에서 관리
- 인-메모리 방식의 분산 처리 시스템
등장 배경
- 기존 디스크 입출력에 대한 지연 시간 개선
- 반복적인 작업이나 실시간 처리를 위해 빠른 처리 필요
구조 및 구성 요소
- SQL: 정형화된 SQL 지원
- Streaming: 데이터 스트림을 세그먼트로 나눈 후 각각을 스파크 엔진으로 처리
- MLlib: 회귀, SVM, 의사 결정 나무, 랜덤 포레스트 등 머신러닝 라이브러리 제공
- GraphX: 페이지 랭크, 레이블 전파, 삼각 계수 등 그래프 알고리즘 지원
- Core: 분산 처리, 스케줄링, API 인터페이스 지원
- 작업 처리 레이어: 스파크만으로 처리할 수도 있고, 하둡 Yarn, Mesos 등과 연계 가능
RDD
- Resilient Distribute Dataset
- 데이터 내장애성 보유 구조
- 데이터 집합의 추상적객체 개념