6mini.log

개발자 이윤민의 기술 블로그


  • Home

  • Categories

  • About

  • Archives

  • Tags

  • Search

[스파크] 백엔드 카탈리스트(Catalyst)와 텅스텐(Tungsten)

Posted on 2021-12-20 | In Data Engineering
스파크 백엔드에 대한 설명, 카탈리스트 옵티마이저와 텅스텐 프로젝트의 개념, 카탈리스트의 목적 및 단계, 파이프라인
Read more »

[DE 프로젝트: 실시간 빅데이터 처리 'SIXAT'] 3. 스파크(Spark) SQL

Posted on 2021-12-19 | In Project
아파치 스파크, 에어플로우, 플링크, 카프카를 활용하는 실시간 모빌리티 빅데이터 처리 프로젝트: 스파크 SQL을 활용하여 모빌리티 데이터 정제 및 분석, 시각화
Read more »

[스파크] Spark SQL 소개 및 튜토리얼

Posted on 2021-12-18 | In Data Engineering
정형, 비정형, 반정형과 RDD 및 스파크 SQL을 사용하는 이유와 목적, 스파크에서 사용할 수 있는 SQL문과 튜토리얼, 데이터 프레임
Read more »

[스파크] 셔플링(Shuffling)과 파티셔닝(Partitioning)

Posted on 2021-12-17 | In Data Engineering
스파크(Spark)의 성능에 큰 영향을 미치는 셔플링과 파티셔닝의 개념, 셔플을 일으킬 수 있는 작업과 파티셔닝의 목적과 특징
Read more »

[스파크] 클러스터 내부 구조(Cluster Topology)와 리덕션(Reduction)

Posted on 2021-12-16 | In Data Engineering
스파크(Spark)에서 클러스터의 내부 구조와 리덕션, 리덕션의 개념과 병렬에서의 리덕션 및 대표적인 리덕션 액션
Read more »

[스파크] Cache()와 Persist()란?

Posted on 2021-12-16 | In Data Engineering
스파크(Spark)에서 데이터를 메모리에 남겨두고 싶을 때 사용할 수 있는 함수인 `Cache()`와 `Persist()`의 개념과 차이점
Read more »

[스파크] 트랜스포메이션(Transformations)과 액션(Actions)

Posted on 2021-12-15 | In Data Engineering
스파크(Spark)의 트랜스포메이션(Narrow, Wide)과 액션에 대한 개념과 함수, 코드 예제, Paird RDD의 트랜스포메이션과 액션
Read more »

[스파크] 키-밸류 페어(Key-Value Pair) RDD란?

Posted on 2021-12-14 | In Data Engineering
스파크(Spark)와 스트럭쳐(Structured) 데이터를 연결하여 사용할 수 있게 해주는 키-밸류 RDD의 개념과 기능, 코드 예제
Read more »

[스파크] 병렬(parallel)-분산(distribution) 처리란?

Posted on 2021-12-13 | In Data Engineering
스파크(Spark)의 병렬 처리와 분산 처리의 개념과 분산 처리의 문제점
Read more »

[스파크] RDD(Resilient Distributed Data)란?

Posted on 2021-12-12 | In Data Engineering
스파크(Spark)의 핵심 데이터 모델인 RDD의 개념과 5가지 특징 및 사용 이유, 예시 코드 활용 RDD의 사용 방법
Read more »
1 … 8 9 10 … 21
6mini

6mini

Change the world with DATA

207 posts
19 categories
426 tags
RSS
GitHub Instagram SixTest Co-Ther19 FASI Sixpotify
© 2021 - 2023 6mini
0%