- 깃허브 레포지토리 바로가기
- 프로젝트 포스팅 목록
FHVHV 데이터
- 이전 포스팅에서 RDD를 이용하였는데, 스파크 SQL을 이용하여 데이터 분석을 진행해본다.
우버 트립 수
1 |
|
- 같은 기능이지만, 확실히 전에 봤던 RDD보다는 훨씬 간편하게 해결할 수 있다.
각 헹정구 별 데이터
- TLC Trip Record Data에서
Taxi Zone Lookup Table
CSV 파일을 다운로드 받는다.- 로케이션 아이디의 정보가 담겨있는 파일이다.
- 조인(join)하여 러프하게 분석한다.
1 |
|
- 승차든 하차든 맨해튼의 수가 굉장히 많은 걸 볼 수있다.
- 공항(EMR)의 하차 수가 많은 걸 볼 수 있다.
택시 데이터
- 본격적으로 택시 요금 예측 머신 러닝에 쓰일 데이터를 분석한다.
- 뉴욕의 택시 데이터 분석을 진행할 것이다.
- 데이터셋은 TLC Trip Record Data에서 2021년 1월부터 7월까지의 ‘Yellow Taxi Trip Records’ CSV파일을 다운받아 진행한다.
분석 준비
- 라이브러리와 데이터를 불러온다.
1 |
|
데이터 병합
- 불러온 두 데이터 프레임을 조인하고, 필요한 컬럼만 선택한다.
1 |
|
이상치 탐색
- 이상한 데이터가 있는 지 확인한다.
1 |
|
- 2021년 1월부터 7월까지의 데이터인데 옛날 데이터가 끼여있다.
1 |
|
- 금액인데 음수도 있고 최대값은 원화로 4억이 넘어간다.
- 택시 요금으로 4억….?
1 |
|
- 이동 거리에도 이상치가 있다.
- 최소값은 타자마자 내렸다 쳐도 최대값은 535,172km이다.
1 |
|
- 승객 수는 그럴싸 하지만, 택시에 9명이 타는 건 좀 무리라고 본다.
1 |
|
- 월 단위로 운행 수를 확인해보면 데이터셋 외 날짜의 데이터가 존재한다.
- 1월부터 7월 외의 데이터를 삭제해도 무방할 것으로 생각된다.
데이터 정제
- 위에서 확인한 이상치를 참고하여 정제한다.
1 |
|
분석 및 시각화
1 |
|
일 별 운행 수
1 |
|
- 코로나가 완화되며 택시 이용 수가 늘어나고 있는 것을 확인할 수 있다.
- 중간 중간 하락하는 것을 보며 위클리 패턴(weekly pattern)이 있음을 볼 수 있다.
요일 별 운행 수
1 |
|
- 요일 별 정렬을 위해 컬럼을 하나 만든다.
1 |
|
1 |
|
- 확실히 주말보다 평일이 택시 운행량이 많은 것을 확인할 수 있다.
- 일요일이 가장 적고, 금요일이 가장 많다.
요일 생성 함수
- 위에서 만든 쿼리 외에도 데이터 프레임에 함수를 이용하여 생성하는 방법도 있다.
1 |
|
결제 타입 패턴
1 |
|
- 신용 카드가 가장 많고 그 다음이 현금이다.
- 요금이 가장 많은 것은 Dispute이다. 아무래도 금액이 높으니 분쟁이 많았던 것 같다.