[스파크] 백엔드 카탈리스트(Catalyst)와 텅스텐(Tungsten) Posted on 2021-12-20 | In Data Engineering 스파크 백엔드에 대한 설명, 카탈리스트 옵티마이저와 텅스텐 프로젝트의 개념, 카탈리스트의 목적 및 단계, 파이프라인 Read more »
[DE 프로젝트: 실시간 빅데이터 처리 'SIXAT'] 3. 스파크(Spark) SQL Posted on 2021-12-19 | In Project 아파치 스파크, 에어플로우, 플링크, 카프카를 활용하는 실시간 모빌리티 빅데이터 처리 프로젝트: 스파크 SQL을 활용하여 모빌리티 데이터 정제 및 분석, 시각화 Read more »
[스파크] Spark SQL 소개 및 튜토리얼 Posted on 2021-12-18 | In Data Engineering 정형, 비정형, 반정형과 RDD 및 스파크 SQL을 사용하는 이유와 목적, 스파크에서 사용할 수 있는 SQL문과 튜토리얼, 데이터 프레임 Read more »
[스파크] 셔플링(Shuffling)과 파티셔닝(Partitioning) Posted on 2021-12-17 | In Data Engineering 스파크(Spark)의 성능에 큰 영향을 미치는 셔플링과 파티셔닝의 개념, 셔플을 일으킬 수 있는 작업과 파티셔닝의 목적과 특징 Read more »
[스파크] 클러스터 내부 구조(Cluster Topology)와 리덕션(Reduction) Posted on 2021-12-16 | In Data Engineering 스파크(Spark)에서 클러스터의 내부 구조와 리덕션, 리덕션의 개념과 병렬에서의 리덕션 및 대표적인 리덕션 액션 Read more »
[스파크] Cache()와 Persist()란? Posted on 2021-12-16 | In Data Engineering 스파크(Spark)에서 데이터를 메모리에 남겨두고 싶을 때 사용할 수 있는 함수인 `Cache()`와 `Persist()`의 개념과 차이점 Read more »
[스파크] 트랜스포메이션(Transformations)과 액션(Actions) Posted on 2021-12-15 | In Data Engineering 스파크(Spark)의 트랜스포메이션(Narrow, Wide)과 액션에 대한 개념과 함수, 코드 예제, Paird RDD의 트랜스포메이션과 액션 Read more »
[스파크] 키-밸류 페어(Key-Value Pair) RDD란? Posted on 2021-12-14 | In Data Engineering 스파크(Spark)와 스트럭쳐(Structured) 데이터를 연결하여 사용할 수 있게 해주는 키-밸류 RDD의 개념과 기능, 코드 예제 Read more »
[스파크] 병렬(parallel)-분산(distribution) 처리란? Posted on 2021-12-13 | In Data Engineering 스파크(Spark)의 병렬 처리와 분산 처리의 개념과 분산 처리의 문제점 Read more »
[스파크] RDD(Resilient Distributed Data)란? Posted on 2021-12-12 | In Data Engineering 스파크(Spark)의 핵심 데이터 모델인 RDD의 개념과 5가지 특징 및 사용 이유, 예시 코드 활용 RDD의 사용 방법 Read more »