2023.06.02 (Fri) 학습정리 #Hadoop #Hive #AWS #HQL 1. Hive 를 이용한 데이터 처리 1-1 .활용 데이터 서울시 열린데이터 광장의 '서울시 부동산 실거래가 정보' 데이터를 활용하여 서초구 내 실거래가 요약 정보, 건물별 정보를 추출하는 pipeline을 생성 더보기 🔗 서울시 열린데이터 광장 '서울시 부동산 실거래가 정보' 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 1-2. pipeline - aws s3에서 데이터를 local에 저장 - hive에 해당 데이터가 존재하면 skip, 존재하지 않으면 전송 - 해당 데이터를 seoul table로 생성 - seoul table에서 서초구 정보 추출 후 조회 1-3. hql 문 📌 s..
2023.05.24 (WED) 학습 정리 #Pyenv #Airflow #AWS #S3 1. pyenv 프로젝트/파이프라인 환경 별로 파이썬 버전이 다르고 데이터 엔지니어는 여러 버전의 파이썬을 개발환경에 설치하여 개발/테스트 작업을 수행 해야하므로 pyenv를 활용하여 디렉토리별로 원하는 버젼으로 격리된 환경을 가능하게 함 pyenv 설치 curl https://pyenv.run | bash zshrc 설정 - vi ~/.zshrc 파일에 아래 내용 추가 export PYENV_ROOT="$HOME/.pyenv" command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH" eval "$(pyenv init -)" eval "$(pyenv virt..