2023.06.14 (Wed) 학습정리 #Hive #Partition 1. Partition 파티셔닝으로 테이블을 분할하여 전체 탐색이 아닌 hierarchical구조로 탐색함으로써 빠른 검색이 가능 ex) 날짜 별로 파티셔닝하여 전체 테이블에서 특정 날짜의 데이터를 검색 partitioning 방식에는 아래와 같은 2가지 방식이 존재 정적 파티션 (Static Partition) data를 insert 할 때 어떤 partition에 data를 insert할지 명시 동적 파티션 (Dynamic Partition) data를 insert 할 때 partition 명시를 하지 않아도 자동으로 partition 이 나누어짐 1-1. 정적 파티션 (Static Partition) partition table에..
2023.06.12 (MON) 학습정리 #Airflow #Hive #HiveServer2Hook #HiveCliHook 지난 글에서 단순히 HiveOperator를 활용하여 단순히 query를 전달하는 방식으로 hive에 접근하였으나, 이번에는 HiveServer2를 통해 Hiveserver2Hook, HiveCliHook을 활용하고자함 1. HiverServer2 HiveServer2는 클라이언트가 하이브에 대해 쿼리를 실행할 수 있게 해주는 서비스로 HiveServer2Hook, HiveCliHook 사용 전 HiverServer2에 접근하기 위한 기본 설정을 진행해야 함 os 계정명 (username) 확인 $ hdfs dfs -ls -R /user/hive drwxr-xr-x - username ..
2023.06.09 (FRI) 학습정리 #Airflow #Hive 1. Airflow Operator 지금까지 BashOperator, EmptyOperator 같이 기본적인 operator만 사용했으나 조금 더 고도화 하기위해 다른 것들도 사용해보고자 함💪 2. Python Operator python operator는 추가 설치 없이 import 후 사용가능 📌 python operator를 사용한 간단한 예시 from airflow import DAG from airflow.operators.python import PythonOperator default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(20..
2023-06-05 (MON) 학습정리 #Hadoop #Hive #Zeppelin #Spark 1. Spark 정의 데이터 분석 작업의 개발을 단순화하여 효율성을 높이는 오픈소스 프레임워크 Spark SQL, 실시간 데이터 처리를 지원하는 Spark Streaming, ML 기법을 지원하는 Spark MLib 등의 라이브러리 지원 2. Spark 개요 2-1. spark 설치 (with. docker) 8080 port는 중복되어 18080으로 변경 후 설치 진행함 docker run -p 18080:8080 --name zeppelin apache/zeppelin:0.10.0 2-2. zeppelin notebook 파일 업로드 및 이동 docker cp 로컬경로/파일명 zeppelin:/opt/zep..
2023.06.02 (Fri) 학습정리 #Hadoop #Hive #AWS #HQL 1. Hive 를 이용한 데이터 처리 1-1 .활용 데이터 서울시 열린데이터 광장의 '서울시 부동산 실거래가 정보' 데이터를 활용하여 서초구 내 실거래가 요약 정보, 건물별 정보를 추출하는 pipeline을 생성 더보기 🔗 서울시 열린데이터 광장 '서울시 부동산 실거래가 정보' 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 1-2. pipeline - aws s3에서 데이터를 local에 저장 - hive에 해당 데이터가 존재하면 skip, 존재하지 않으면 전송 - 해당 데이터를 seoul table로 생성 - seoul table에서 서초구 정보 추출 후 조회 1-3. hql 문 📌 s..
2023.05.31 (Wed) 학습 정리 #Hive 1. Hive 개념 HiveQL(Hive Query Language)을 사용하여 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 하둡 기반의 데이터 웨어하우스솔루션 UI 사용자가 퀴리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 - CLI, Beeline, JDBC 등 Driver 쿼리를 입력받고 작업을 처리 Compiler Metastore를 참고하여 쿼리 구문을 분석하고 실행 계획을 생성 Metastore 디비, 테이블, 파티션의 정보를 저장 Execution Engie 컴파일러에 의해 생성된 실행 계획을 시행 2. Hive 설치 (ubuntu 환경) Hive 설치 전, Hadoop + mysql 설치하기 🔗 Hadoop 설치 2-1...