준비사항
- AWS 계정
- boto3 (Python의 AWS SDK)
- pandas
1. Athena 설정
먼저, boto3를 사용하여 Athena 클라이언트를 설정한다. 이를 위해 AWS 액세스 키 및 비밀 키가 필요하다.
주의: AWS 액세스 키와 비밀 키는 민감한 정보이므로 코드 내에 직접 입력하지 말고, 환경 변수나 AWS Configuration을 사용하여 관리하는 것이 좋다.
1 |
|
2. Athena에서 쿼리 실행
Athena는 쿼리의 결과를 S3 버킷에 저장한다. 따라서 결과를 저장할 S3 경로를 지정한다.
1 |
|
3. 쿼리 실행 상태 체크
실행 중인 쿼리의 상태를 주기적으로 확인하여 결과가 준비되었는지 알 수 있다.
1 |
|
4. 결과를 Pandas DataFrame으로 변환
쿼리가 성공적으로 완료되면 S3에서 결과를 다운로드하여 Pandas DataFrame으로 읽는다.
1 |
|
결론
Python과 AWS Athena를 조합하면 대규모 데이터셋에 대한 인터랙티브한 쿼리를 수행하고, 그 결과를 편리하게 분석할 수 있다. 위 가이드를 통해 자신만의 데이터 처리 파이프라인을 구축해보길 바란다.
전체 코드
1 |
|
함수로 사용
1 |
|