728x90
반응형
1. 프로젝트 목표
제가 일하고 있는 은행의 ETL같은 경우에는 레거시한 프로그램 위에서 보수적으로 돌아갑니다. 그래서 데이터 파이프라인에 대한 경험하고고 airflow와 tableu의 숙련도를 올리고 싶었습니다.
이커머스 주문 데이터를 분석하고, 자동화된 ETL(Extract, Transform, Load) 파이프라인을 구축합니다. 이 과정에서 데이터 흐름을 최적화하고, 실시간 분석 및 시각화를 가능하게 하여 비즈니스 의사결정에 필요한 인사이트를 도출할 계획입니다. 데이터 선정부터 처리, tableu를 통한 시각화까지 데이터 엔지니어로써의 이해도를 높이고자 합니다.
2. 일정 및 단계별 계획
- 1주차: 데이터 수집 및 탐색 (Extract)
- 데이터셋 확보 및 구조 파악
- 데이터 로딩 및 기초 분석
- 데이터 시각화를 활용한 기본 통계 탐색
- 2주차: 데이터 처리 및 저장 (Transform & Load)
- 데이터 정제 및 변환
- KPI(주문 수, 매출 등) 계산
- 데이터베이스(PostgreSQL 또는 AWS S3) 설정 및 연동
- 데이터 저장 및 검증 테스트 실행
- 3주차: 자동화 및 시각화 (ETL + Dashboard)
- Apache Airflow를 활용한 ETL 워크플로우 자동화
- 오류 처리 및 로그 관리 설정
- Tableau 또는 Google Data Studio로 대시보드 구축
- 최종 검토 및 보고서 작성
3. 기술 스택 및 도구
- 프로그래밍 언어 및 라이브러리
- Python: 데이터 처리 및 분석
- Pandas, NumPy: 데이터 변환 및 분석
- PySpark: 대규모 데이터 처리
- 데이터베이스 및 저장소
- PostgreSQL: 구조화된 데이터 저장 및 관리
- AWS S3: 클라우드 기반 데이터 저장
- 워크플로우 및 자동화 도구
- Apache Airflow: ETL 프로세스 자동화 및 관리
- 시각화 도구
- Tableau: 데이터 시각화 및 대시보드 구축
- Google Data Studio: 보고서 및 대시보드 작성
- 개발 환경 및 관리 도구
- VS Code: 코드 편집 및 프로젝트 관리
- Jupyter Notebook: 데이터 분석 및 테스트
- Git/GitHub: 버전 관리 및 협업
4. 기대 효과 및 얻고 싶은 점
- 데이터 수집, 처리, 저장 및 분석에 대한 실무 경험 축적
- 자동화된 데이터 파이프라인 구축 역량 확보
- SQL 및 Python을 활용한 데이터 처리 및 최적화 능력 강화
- 대시보드 구축을 통해 비즈니스 인사이트 제공 능력 향상
- Apache Airflow 및 AWS 환경 경험
5. 프로젝트 일정
일단 계획은 2,3주내로 프로젝트를 끝내고 문서화까지 하는 게 목표입니다. 더 나아가 고도화를 한다면 추가적인 블로깅하겠습니다.
1주차: 데이터 수집 및 탐색 (Extract)
- Day 1-2: 데이터셋 선정 및 구조 파악.
- Day 3-4: 데이터 로딩 및 기초 분석 (결측치, 중복 데이터 확인).
- Day 5: 데이터 시각화로 기본 통계 탐색.
2주차: 데이터 처리 및 저장 (Transform & Load)
- Day 6-7: 데이터 정제 및 변환 로직 구현.
- Day 8-9: KPI(주문 수, 매출 등) 계산 코드 작성.
- Day 10: 데이터베이스(PostgreSQL 또는 AWS S3) 설정 및 연동.
- Day 11: 데이터 저장 및 검증 테스트 실행.
3주차: 자동화 및 시각화 (ETL + Dashboard)
- Day 12-13: Apache Airflow로 ETL 워크플로우 자동화.
- Day 14: 오류 처리 및 로그 관리 설정.
- Day 15-16: Tableau 또는 Data Studio로 대시보드 구성.
- Day 17: 최종 검토 및 리포트 작성.
728x90
반응형
'데이터분석' 카테고리의 다른 글
기술면접 준비하기 with GPT (0) | 2025.01.15 |
---|---|
프로젝트 데이터셋 선정 및 구조 파악 (1) | 2024.12.31 |
[합격 후기] ADsP 2일 벼락치기 (0) | 2023.03.19 |
[책 리뷰] 빅데이터 시대, 성과를 이끌어 내는 데이터 문해력 (3) | 2023.01.28 |
데이터리안 1월 세미나: 데이터 분석가 되면 어떤 일을 하나요? (0) | 2023.01.22 |