Apache Flume 설치
Tips 2021. 10. 18. 22:42Apache Flume을 이용하면 Hadoop에 수집된 로그를 자동으로 올릴 수 있다.
설치는 아래와 같이 하자.
아래와 같이 Flume을 설치하면 Local에 새롭게 생성되는 파일을 Hadoop으로 올려준다.
Flume 설치 및 설정
\$ wget https://dlcdn.apache.org/flume/1.9.0/apache-flume-1.9.0-bin.tar.gz
\$ tar -xzvf apache-flume-1.9.0-bin.tar.gz
\$ mv apache-flume-1.9.0-bin.tar.gz /usr/local/flume
\$ vim ~/.bashrc
export $FLUME_HOME=/usr/local/flume export PATH=\$PATH:\$FLUME_HOME/bin |
\$ source ~/.bashrc
\$ cd $FLUME_HOME/conf
\$ vim hdfs.properties
myhdfs.sources=fileSrc myhdfs.channels=memoryChannel myhdfs.sinks=hdfsSink myhdfs.sources.fileSrc.type=spoolDir myhdfs.sources.fileSrc.spoolDir=/data myhdfs.sinks.hdfsSink.type=hdfs myhdfs.sinks.hdfsSink.hdfs.path=hdfs://master:9000/flume/output myhdfs.sinks.hdfsSink.hdfs.fileType=DataStream myhdfs.sinks.hdfsSink.hdfs.writeFormat=text myhdfs.sinks.hdfsSink.callTimeout=3600000 myhdfs.channels.memoryChannel.type=memory myhdfs.channels.memoryChannel.capacity=1000 myhdfs.channels.memoryChannel.transactionCapacity=100 myhdfs.sources.fileSrc.channels=memoryChannel myhdfs.sinks.hdfsSink.channel=memoryChannel |
spoolDir로 설정하면 지정된 경로의 파일에서 데이터를 추출하여 하둡으로 올린다.
Flume 실행
\$ cd \$FLUME_HOME/bin
\$ flume-ng agent -c conf -f ../conf/hdfs.properties -n myhdfs
아래 오류가 발생하면 $FLUME_HOME/lib/guava-11.0.2.jar을 제거 후 다시 실행 java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument |
설치는 간단하지만,
spoolDir에 있는 File 그대로를 올리지 않고 Stream으로 끊어서 올린다.
다시 말해, File 하나는 여러 개의 File로 하둡에 올라간다. 참고하자.
Flume 1.9.0 User Guide — Apache Flume
The file_roll sink and the hdfs sink both support the EventSerializer interface. Details of the EventSerializers that ship with Flume are provided below. Body Text Serializer Alias: text. This interceptor writes the body of the event to an output stream wi
폴더에서 hdfs로 저장
[ 폴더에서 hdfs로 저장 ] 1)source spoolDir 2) sink hdfs [속성] hdfs.path = 저장할 hdfs경로 ----------------- hdfs://namenode정보/flume/output ------------------- --------------- namenode의 └hdfs상..
'Tips' 카테고리의 다른 글
UCINET CONCOR 분석 (0) | 2021.11.09 |
Apache Hadoop Cluster 구성 (1) | 2021.10.10 |
Apache Spark Cluster 구성 (1) | 2021.10.10 |
Hadoop의 standalone 설치 방법 (0) | 2021.10.08 |
Python의 가독성과 OOP에 대한 개인적인 견해 (0) | 2021.09.29 |