2023.06.20 (Mon) 학습정리 #Zeppelin #Spark 이전글에서 spark, zeppelin을 docker로 설치하여 간단히 활용해봤는데, 이번에는 hdfs와의 연동을 위해 로컬 (ubuntu) 환경에서 설치하고자 함 1. Zeppelin 설치 🔗 공식 설치 문서 설치 파일 다운 및 압축 해제 cd tmp # 임시파일로 이동 후 설치파일 다운로드 wget https://dlcdn.apache.org/zeppelin/zeppelin-0.10.1/zeppelin-0.10.1-bin-all.tgz tar zxvf zeppelin-0.10.1-bin-all.tgz # 압축 해제 및 설치 진행 mv zeppelin-0.10.1-bin-al /home/app/ # 경로 이동 (참고) path 설정 ..
2023.06.14 (Wed) 학습정리 #Hive #Partition 1. Partition 파티셔닝으로 테이블을 분할하여 전체 탐색이 아닌 hierarchical구조로 탐색함으로써 빠른 검색이 가능 ex) 날짜 별로 파티셔닝하여 전체 테이블에서 특정 날짜의 데이터를 검색 partitioning 방식에는 아래와 같은 2가지 방식이 존재 정적 파티션 (Static Partition) data를 insert 할 때 어떤 partition에 data를 insert할지 명시 동적 파티션 (Dynamic Partition) data를 insert 할 때 partition 명시를 하지 않아도 자동으로 partition 이 나누어짐 1-1. 정적 파티션 (Static Partition) partition table에..
2023.06.13 (TUE) 학습정리 #Hadoop #Pig 1. Pig 개념 Apache Pig는 하둡을 기반으로 실행되는 오픈 소스 Apache 라이브러리로, Java와 같은 낮은 수준의 컴퓨터 언어로 복잡한 코드를 작성할 필요가 없이 대규모 dataset을 변환하는 데 사용할 수 있는 script language를 제공 개발이 복잡하고 많은 시간을 소요하는 맵리듀스의 단점을 보완 다중 값과 중첩된 형태를 보이는 다양한 데이터 구조를 지원 사용자 정의 함수를 통해 확장 가능 2. Pig 설치 (ubuntu 환경) 🔗 설치 - 공식문서 설치 cd ~/tmp # 임시 폴더에 파일 다운로드 및 압축 해제 wget http://mirror.navercorp.com/apache/pig/pig-0.17.0/p..
2023.06.09 (FRI) 학습정리 #Airflow #Hive 1. Airflow Operator 지금까지 BashOperator, EmptyOperator 같이 기본적인 operator만 사용했으나 조금 더 고도화 하기위해 다른 것들도 사용해보고자 함💪 2. Python Operator python operator는 추가 설치 없이 import 후 사용가능 📌 python operator를 사용한 간단한 예시 from airflow import DAG from airflow.operators.python import PythonOperator default_args = { 'owner': 'airflow', 'depends_on_past': False, 'start_date': datetime(20..
2023-06-05 (MON) 학습정리 #Hadoop #Hive #Zeppelin #Spark 1. Spark 정의 데이터 분석 작업의 개발을 단순화하여 효율성을 높이는 오픈소스 프레임워크 Spark SQL, 실시간 데이터 처리를 지원하는 Spark Streaming, ML 기법을 지원하는 Spark MLib 등의 라이브러리 지원 2. Spark 개요 2-1. spark 설치 (with. docker) 8080 port는 중복되어 18080으로 변경 후 설치 진행함 docker run -p 18080:8080 --name zeppelin apache/zeppelin:0.10.0 2-2. zeppelin notebook 파일 업로드 및 이동 docker cp 로컬경로/파일명 zeppelin:/opt/zep..
2023.06.02 (Fri) 학습정리 #Hadoop #Hive #AWS #HQL 1. Hive 를 이용한 데이터 처리 1-1 .활용 데이터 서울시 열린데이터 광장의 '서울시 부동산 실거래가 정보' 데이터를 활용하여 서초구 내 실거래가 요약 정보, 건물별 정보를 추출하는 pipeline을 생성 더보기 🔗 서울시 열린데이터 광장 '서울시 부동산 실거래가 정보' 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 1-2. pipeline - aws s3에서 데이터를 local에 저장 - hive에 해당 데이터가 존재하면 skip, 존재하지 않으면 전송 - 해당 데이터를 seoul table로 생성 - seoul table에서 서초구 정보 추출 후 조회 1-3. hql 문 📌 s..
2023.05.31 (Wed) 학습 정리 #Hive 1. Hive 개념 HiveQL(Hive Query Language)을 사용하여 하둡 에코시스템 중에서 데이터를 모델링하고 프로세싱하는 하둡 기반의 데이터 웨어하우스솔루션 UI 사용자가 퀴리 및 기타 작업을 시스템에 제출하는 사용자 인터페이스 - CLI, Beeline, JDBC 등 Driver 쿼리를 입력받고 작업을 처리 Compiler Metastore를 참고하여 쿼리 구문을 분석하고 실행 계획을 생성 Metastore 디비, 테이블, 파티션의 정보를 저장 Execution Engie 컴파일러에 의해 생성된 실행 계획을 시행 2. Hive 설치 (ubuntu 환경) Hive 설치 전, Hadoop + mysql 설치하기 🔗 Hadoop 설치 2-1...
2023.05.30 (Tue) 학습 정리 #Hadoop 1. Hadoop 개념 여러 개의 저렴한 컴퓨터를 마치 하나인 것처럼 묶어 대용량 데이터를 처리하는 기술 수천대의 분산된 장비에 대용량 파일을 저장할 수 있는 기능을 제공하는 분산파일 시스템과, 저장된 파일 데이터를 분산된 서버의 CPU와 메모리 자원을 이용해 쉽고 빠르게 분석할 수 있는 컴퓨팅 플랫폼인 맵리듀스로 구성 HDFS (분산 파일 시스템) 대량의 데이터를 다양한 형식으로 저장하고 Hadoop 클러스터 전반에 걸쳐 분산 애플리케이션 데이터에 대한 여러 엑세스를 처리하며 데이터 셋이 큰 애플리케이션에 적합함 MapReduce 대용량 데이터 셋의 병렬 처리에 사용되는 프로그래밍 모델이자 빅데이터 처리 엔진 YARN 하둡에서 실행되는 클러스터 리..