2023.06.13 (TUE) ํ์ต์ ๋ฆฌ
#Hadoop #Pig
1. Pig ๊ฐ๋
Apache Pig๋ ํ๋ก์ ๊ธฐ๋ฐ์ผ๋ก ์คํ๋๋ ์คํ ์์ค Apache ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, Java์ ๊ฐ์ ๋ฎ์ ์์ค์ ์ปดํจํฐ ์ธ์ด๋ก ๋ณต์กํ ์ฝ๋๋ฅผ ์์ฑํ ํ์๊ฐ ์์ด ๋๊ท๋ชจ dataset์ ๋ณํํ๋ ๋ฐ ์ฌ์ฉํ ์ ์๋ script language๋ฅผ ์ ๊ณต
- ๊ฐ๋ฐ์ด ๋ณต์กํ๊ณ ๋ง์ ์๊ฐ์ ์์ํ๋ ๋งต๋ฆฌ๋์ค์ ๋จ์ ์ ๋ณด์
- ๋ค์ค ๊ฐ๊ณผ ์ค์ฒฉ๋ ํํ๋ฅผ ๋ณด์ด๋ ๋ค์ํ ๋ฐ์ดํฐ ๊ตฌ์กฐ๋ฅผ ์ง์
- ์ฌ์ฉ์ ์ ์ ํจ์๋ฅผ ํตํด ํ์ฅ ๊ฐ๋ฅ
2. Pig ์ค์น (ubuntu ํ๊ฒฝ)
- ์ค์น
cd ~/tmp # ์์ ํด๋์ ํ์ผ ๋ค์ด๋ก๋ ๋ฐ ์์ถ ํด์
wget http://mirror.navercorp.com/apache/pig/pig-0.17.0/pig-0.17.0.tar.gz
tar -xvf pig-0.17.0.tar.gz
# ํ๋ก ํด๋๋ก ์ด๋
mv pig-0.17.0 $HADOOP_HOME/
- path ์ค์
# ~/.zshrc ์ ์๋ ๋ด์ฉ ์์ฑ
# ping config
export PIG_HOME=$HADOOP_HOME/pig-0.17.0
export PATH=$PATH:$PIG_HOME/bin
- ์ค์น ํ์ธ
$ source ~/.zshrc
$ pig
2023-06-13 07:30:01,355 INFO pig.ExecTypeProvider: Trying ExecType : LOCAL
2023-06-13 07:30:01,358 INFO pig.ExecTypeProvider: Trying ExecType : MAPREDUCE
...
& grunt> ls /sub #hadoop dir ํ์ธ
hdfs://localhost:9000/sub/hive <dir>
...
'๐ Data > Engineering' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
| [Zeppelin / Spark] ubuntu ํ๊ฒฝ์์ Apache Zeppelin / Spark ์ค์นํ๊ธฐ (0) | 2023.06.20 |
|---|---|
| [Hive] Hive table์์ partition ์ฌ์ฉํ๊ธฐ (0) | 2023.06.14 |
| [Airflow] HiveServer2Hook, HiveCliHook ์ฌ์ฉํ์ฌ Hive์ ์ ๊ทผํ๊ธฐ (0) | 2023.06.12 |
| [Airflow] Airflow์ Python Operator / Hive Operator ์ฌ์ฉํ๊ธฐ (0) | 2023.06.09 |
| [Sqoop] Sqoop ์ค์น ๋ฐ ๊ฐ์ (0) | 2023.06.08 |