- 깃허브 레포지토리 바로가기
- 프로젝트 포스팅 목록
- 스파크(Spark)의 컴포넌트(Component) 중 하나인 MLlib을 활용하여 택시 요금을 예측하는 머신 러닝(Machine Learning) 선형 회귀 모델링을 진행한다.
베이스 라인
- 거리를 나타내는 컬럼만 사용하여 선형 회귀 모델을 만들어본다.
1 |
|
- 인스턴스 생성 시 부터 맥스 메모리(Max Memory)를 지정해준다.
- Out of Memory 증상을 미연에 방지한다.
1 |
|
- 만약 모든 컬럼의 타입으로 string이 나온다면, 폴더 내 파일이 이상할 수 있으니 확인할 필요가 있다.
1 |
|
- 이상치 제거를 했는데도 택시비 600만원 정도가 존재한다.
- 일단 넘어간다.
1 |
|
- 빅데이터를 처음 다뤄보는데 지금까지 보던 데이터양과 비교하니 정말 많아보인다.
1 |
|
- 성능이 생각보다 괜찮다.
실 서비스 테스크
- 이왕 만든 김에 실 서비스에서 사용하기 위한 작업도 진행한다.
1 |
|
성능 향상
- 예측에 쓰일 컬럼을 추가하고 전처리하여 성능을 올린다.
1 |
|
스테이지 파이프 라인
- 프리프로세싱을 위한 파이프 라인을 생성하여 전처리한다.
1 |
|
모델링
1 |
|
- 성능이 조금 올랐다.
하이퍼 파라미터 튜닝
- 성능을 조금 더 올리기 위하여 하이퍼 파라미터 튜닝을 진행한다.
1 |
|
모델 학습
- 하이퍼 파라미터 튜닝 결과로 나온 값으로 모델링을 진행한다.
1 |
|
- 오히려 성능이 약간 떨어졌다.
모델 저장 및 로드
1 |
|