aws

📊 Data/Engineering

[HIVE] Airflow / Hive를 이용한 데이터 처리

2023.06.02 (Fri) 학습정리 #Hadoop #Hive #AWS #HQL 1. Hive 를 이용한 데이터 처리 1-1 .활용 데이터 서울시 열린데이터 광장의 '서울시 부동산 실거래가 정보' 데이터를 활용하여 서초구 내 실거래가 요약 정보, 건물별 정보를 추출하는 pipeline을 생성 더보기 🔗 서울시 열린데이터 광장 '서울시 부동산 실거래가 정보' 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 1-2. pipeline - aws s3에서 데이터를 local에 저장 - hive에 해당 데이터가 존재하면 skip, 존재하지 않으면 전송 - 해당 데이터를 seoul table로 생성 - seoul table에서 서초구 정보 추출 후 조회 1-3. hql 문 📌 s..

📊 Data/Engineering

[Airflow/AWS] Airflow - Trigger Rule

2023.05.25 (Thu) 학습 정리 #Linux-if문 #chmod #TriggerRule 1. Linux 1-1. If문 기본 사용법 if [ 조건식1 -a 조건식2 ] then 수행문 elif [ 조건식 ] 수행문 else 수행문 fi 논리 연산자 and : -a or : -o input 값 받아서 처리하기 $n : n번째 값 $# : input 값의 수 📌 if문 활용 예제 if [[ $# != 3 ]] #input값의 수가 3이 아닐 경우 then echo "Oops!!! argument required." exit 1 fi echo $1 echo $2 echo $3 $ bash a.sh 1 2 Oops!!! argument required. $ bash a.sh 1 2 3 1 2 3 1-2..

📊 Data/Engineering

[AWS] Airflow를 활용하여 AWS S3로 파일 전송하기

2023.05.24 (WED) 학습 정리 #Pyenv #Airflow #AWS #S3 1. pyenv 프로젝트/파이프라인 환경 별로 파이썬 버전이 다르고 데이터 엔지니어는 여러 버전의 파이썬을 개발환경에 설치하여 개발/테스트 작업을 수행 해야하므로 pyenv를 활용하여 디렉토리별로 원하는 버젼으로 격리된 환경을 가능하게 함 pyenv 설치 curl https://pyenv.run | bash zshrc 설정 - vi ~/.zshrc 파일에 아래 내용 추가 export PYENV_ROOT="$HOME/.pyenv" command -v pyenv >/dev/null || export PATH="$PYENV_ROOT/bin:$PATH" eval "$(pyenv init -)" eval "$(pyenv virt..

subeen_byul
'aws' 태그의 글 목록