Flume 개요

Flume은 Hadoop 빅데이터 환경에서 준 실시간으로 데이터 수집을 위해서 사용 됩니다. 기본적으로 제공하고 있는 Source, Channel, Sink는 설정을 통해서 간단하게 사용할 수 있으며 구성이 간단하므로 Customize을 통한 확장이 용이 합니다.

Flume Architecture


Source

  • 데이터를 수집 합니다.

Interceptor

  • 수집한 데이터를 변경 또는 삭제 합니다.
  • 종류 – 삽입 : Timestamp, Host, Static, UUID
  • 종류 – 변형/삭제 : Morphline, Regex Filtering, Regex Extractor

Channel Selector

  • Source에서 Channel로 연동시 Channel을 지정 합니다.
  • 종류 : Replicating (Default), Multiplexing, Custom

Channel

  • 데이터를 Source에서 Sink로 전달하는 통로

Sink

 

Sink Processor

  • Sink할 대상을 다중 선택 합니다.
  • 종류 : Default, Failover, Loadbalancing, Custom
  • Sink Group : 여러개의 Sink를 하나의 그룹으로 관리

Source/Channel/Sink 종류

Source

Channel

Sink

Avro : Avro 프로토콜로 수집 Memory : Memory 사용 Avro : Avro 프로토콜로 전송
Thrift : Thrift 프로토콜로 수집 JDBC : DB 사용 Thrift : Thrift 프로토콜로 전송
Syslog : Syslog 프로토콜로 수집

  • Syslog TCP, Multiport Syslog TCP
  • Syslog UDP
File : File 사용 IRC : IRC 프로토콜로 전송
HTTP : HTTP 프로토콜로 수집   ElasticSearch : Elastic에 저장
JMS : JMS 프로토콜로 수집

  • Pluggable converter 지원
  MorphlineSolr : Solr에 저장
NetCat : TCP/IP 데이터 수집   HDFS : HDFS에 저장
Exec : Linux 명령어로 수집  

HBase : HBase에 저장

  • HBaseSink, AsyncHBaseSink
Spooling Directory : 폴더에 신규로 추가된 파일 수집   Logger : 테스트 또는 디버깅을 위해 로깅
Sequence Generator : 0부터 1씩 증가하는 event 생성   File Roll : 파일로 저장
Legacy : 이전 버전의 Flume으로부터 데이터 수집

  • Avro Legacy, Thrift legacy
  Null : 아무 일도 하지 않음
Custom Custom Custom



Namecard 10.png

0 답글

댓글을 남겨주세요

토론에 참여하고 싶으세요?
마음껏 기여하세요!

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다