- 깃허브 레포지토리 바로가기
- 프로젝트 포스팅 목록
에어 플로우(Airflow) 설치
1 |
|
- 위 명령어로 간단하게 설치할 수 있다.
1 |
|
- 위 명령어로 에어 플로우에 스파크 프로바이더(providers)를 설치하여 핸들링한다.
테스크(Task) 작성
- DAG를 구성하기 앞서, 플로우로 구성할 테스크들을 작성한다.
- 앞의 머신러닝 절차를 파이썬 파일로 간단하게 생성할 것이다.
전처리
1 |
|
하이퍼 파라미터 튜닝
1 |
|
모델 학습
1 |
|
DAG 작성
- 테스크를 작성했으니, DAG 파일을 생성하여 파이프 라인을 만든다.
1 |
|
- 의존성까지 구성하였으면 UI를 통해 확인한다.
테스트
1 |
|
- 에어 플로우의 웹 서버를 열고 스케쥴러를 실행한다.
트러블 슈팅
Cannot execute: spark-submit –master yarn –name arrow-spark
1 |
|
- 위와 같은 에러가 전시되어
connection
을 정비했다.
- 위 이미지와 같이 수정하니 정상 작동했다.
Task received SIGTERM signal
1 |
|
- 위와 같은 에러가 전시되어 찾아보니, 한 테스크에서 너무 오랜 시간을 보내게 되면 나오는 에러였다.
- 아무래도 하이퍼 파라미터를 튜닝할 때 시간이 오래 걸렸는데, 워크 플로우 구성이 목적이므로 파라미터의 갯수를 줄여서 해결했다.
- 모든 트러블 슈팅 후 위 이미지와 같이 모든 테스크가 정상적으로 진행됨을 확인할 수 있다.