- 웹 어플리케이션 바로가기
- 깃 허브 레포지토리 바로가기
- 프로젝트 포스팅 목록
프로젝트 개요
- 플라스크(Flask) 웹 구현을 목표로 시작하는 데이터 파이프라인 구축 프로젝트이다.
- 머신 러닝 모델을 서빙할 예정이고 머신 러닝 성능보다 무에서 파이프라인을 만들어 보는데 의의를 두려고 한다.
- 태블로를 활용한 분석 및 배포까지 해보고 싶다.
- 주제는 아무래도 코로나 때문에 굉장히 힘들어하고 있는 한 사람으로서, 기상 변인으로 서울시의 확진자 수를 예측하는 머신 러닝 모델을 만들어보려한다.
데이터 수집
- API 를 이용한 데이터 수집
- 일정 시간 간격으로 데이터 수집(Cronjob)
데이터 저장(Store)
- 관계형 데이터베이스 (postgreSQL)
- 로컬 데이터베이스를 배포(AWS)
API 서비스 개발 (Service)
- 수집된 데이터베이스의 데이터를 기반으로 머신러닝 모델을 구성
- 개발한 모델 API로 사용가능
- API를 다른 개발자들이 사용할 수 있도록 배포
- 서비스 사용자의 API 사용을 도와주기 위해, GUI 구성(부트스트랩)
데이터 분석용 대시보드 개발
- 데이터베이스의 데이터를 기반으로 대시보드에 자신의 의견을 피력하기 위한 그래프 구성
- 데이터베이스의 데이터를 기반으로 EDA
- API 서비스 개발(Service)의 모델 결과가 EDA에 포함되도록 그래프를 구성
- Tableau를 이용한 대시보드 개발
- 대시보드 배포
데이터 수집
구현 목표
- 각종 기상에 따른 서울시의 코로나 확진자 수 예측할 것이다.
필요 데이터
- 일별 확진자 수 및 기상데이터
일별 확진자 수
- 공공 데이터셋 사용
- 서울특별시 코로나19 확진자 발생동향
기상
- 공공 데이터 OPEN API 사용
- 기상청_지상(종관, ASOS) 일자료 조회서비스
데이터 저장
- API를 활용하여 클라우드 RDB에 스키마 형태로 저장해본다.
AWS RDS PostgreSQL
1 |
|
- 확진자 수는 csv파일로 제공되어있다.
1 |
|
- 정상동작 확인 결과 이상 없다.