Apache Flume 설치

Tips 2021. 10. 18. 22:42

Apache Flume을 이용하면 Hadoop에 수집된 로그를 자동으로 올릴 수 있다.

설치는 아래와 같이 하자.

아래와 같이 Flume을 설치하면 Local에 새롭게 생성되는 파일을 Hadoop으로 올려준다.

 

Flume 설치 및 설정

\$ wget https://dlcdn.apache.org/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz

\$ tar -xzvf apache-flume-1.9.0-bin.tar.gz

\$ mv apache-flume-1.9.0-bin.tar.gz /usr/local/flume

\$ vim ~/.bashrc

export $FLUME_HOME=/usr/local/flume
export PATH=\$PATH:\$FLUME_HOME/bin

\$ source ~/.bashrc

\$ cd $FLUME_HOME/conf

\$ vim hdfs.properties

myhdfs.sources=fileSrc
myhdfs.channels=memoryChannel
myhdfs.sinks=hdfsSink

myhdfs.sources.fileSrc.type=spoolDir 
myhdfs.sources.fileSrc.spoolDir=/data

myhdfs.sinks.hdfsSink.type=hdfs
myhdfs.sinks.hdfsSink.hdfs.path=hdfs://master:9000/flume/output
myhdfs.sinks.hdfsSink.hdfs.fileType=DataStream
myhdfs.sinks.hdfsSink.hdfs.writeFormat=text
myhdfs.sinks.hdfsSink.callTimeout=3600000

myhdfs.channels.memoryChannel.type=memory
myhdfs.channels.memoryChannel.capacity=1000
myhdfs.channels.memoryChannel.transactionCapacity=100

myhdfs.sources.fileSrc.channels=memoryChannel
myhdfs.sinks.hdfsSink.channel=memoryChannel

spoolDir로 설정하면 지정된 경로의 파일에서 데이터를 추출하여 하둡으로 올린다.

 

Flume 실행

\$ cd \$FLUME_HOME/bin

\$ flume-ng agent -c conf -f ../conf/hdfs.properties -n myhdfs

아래 오류가 발생하면 $FLUME_HOME/lib/guava-11.0.2.jar을 제거 후 다시 실행
java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument

 

설치는 간단하지만,

spoolDir에 있는 File 그대로를 올리지 않고 Stream으로 끊어서 올린다.

다시 말해, File 하나는 여러 개의 File로 하둡에 올라간다. 참고하자.

 

https://flume.apache.org/FlumeUserGuide.html

 

Flume 1.9.0 User Guide — Apache Flume

The file_roll sink and the hdfs sink both support the EventSerializer interface. Details of the EventSerializers that ship with Flume are provided below. Body Text Serializer Alias: text. This interceptor writes the body of the event to an output stream wi

flume.apache.org

https://hmariya.tistory.com/98

 

폴더에서 hdfs로 저장

[ 폴더에서 hdfs로 저장 ] 1)source spoolDir 2) sink hdfs [속성] hdfs.path = 저장할 hdfs경로 ----------------- hdfs://namenode정보/flume/output ------------------- --------------- namenode의 └hdfs상..

hmariya.tistory.com

 

'Tips' 카테고리의 다른 글

UCINET CONCOR 분석  (0) 2021.11.09
Apache Hadoop Cluster 구성  (1) 2021.10.10
Apache Spark Cluster 구성  (1) 2021.10.10
Hadoop의 standalone 설치 방법  (0) 2021.10.08
Python의 가독성과 OOP에 대한 개인적인 견해  (0) 2021.09.29
admin