R – 데이터 종류 1

  R에서 사용하는 데이터와 변수를 정리해 보았습니다. 데이터 속성 비율식 (Ratio) < 구간식 (Interval) < 순서식 (Ordinal) < 명명식 (Nominal) 데이터 속성 상세 명명식 (Nominal) 명목척도 이름으로 구분되는 자료, 예) 성별 순서식 (Ordinal) 서열척도 순서가 있는 명명식, 예) 소득의 상, 중, 하 구간식 (Interval) 간격척도 순서의 간격을 측정할 수 있는 순서식, 예) 온도 비율식 (Ratio) […]

[무료세미나] 데이터분석 전문가로 가는길

http://www.dbguide.net/offline.db?cmd=seminar 일시 : 2014년 2월 7일 금요일 13:30 ~ 17:30 장소 : 한국과학기술단체총연합회 국제회의실

Flume Agent 실행해 보기

Flume 개요 라는 글을 작성 했는데 예제 하나를 올려 달라는 요청이 있어서 예제를 올립니다. Flume 설치 폴더 : /nas/appl/flume/ 아래 Flume Agent의 사례는 Linux의 명령을 주기적으로 실행하고 실행된 결과(표준 출력)를 수집하고 file 채널을 통해 트랜잭션을 관리하고 최종적으로 수집된 데이터를 지정한 폴더에 파일로 저장하는 Agent의 사례 입니다.   예제에서 사용할 폴더를 생성 합니다. mkdir /nas/appl/flume/storage mkdir […]

Flume 개요

Flume은 Hadoop 빅데이터 환경에서 준 실시간으로 데이터 수집을 위해서 사용 됩니다. 기본적으로 제공하고 있는 Source, Channel, Sink는 설정을 통해서 간단하게 사용할 수 있으며 구성이 간단하므로 Customize을 통한 확장이 용이 합니다. Flume Architecture Source 데이터를 수집 합니다. Interceptor 수집한 데이터를 변경 또는 삭제 합니다. 종류 – 삽입 : Timestamp, Host, Static, UUID 종류 – 변형/삭제 : Morphline, Regex […]

하둡 업무 영역과 Architecture

하둡의 업무 영역과 각 구성요소의 Architecture를 그려 보았습니다. 전체 관점에서 하둡을 이해하는데 도움이 됩니다.   Hadoop 업무 영역   HDFS Architecture   MapReduce Architecture   YARN Architecture    

빅데이터 개요

빅데이터의 정의 기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합 초점 정의 데이터 규모 (맥킨지, 2011.5) 기존 데이터베이스 관리 도구의 데이터 수집, 저장, 관리, 분석하는 역량을 넘어서는 데이터 업무 수행 방식 (IDC, 2011.6) 다양한 종류의 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고, […]

하둡에서 한글 사용 설정

문자셋과 인코딩 문자셋 (charset, Character Set) 하나의 언어권에서 사용하는 언어를 표현하기 위한 모든 문자(활자)의 모임을 문자셋이라고 합니다. 다시 말하면 우리가 얘기하는 언어를 책으로 출판할 때 필요한 문자(활자)를 모두 모은 것이라고 보면 됩니다. 그러므로 부호와 공백 등과 같은 특수 문자도 문자셋에 포함 됩니다. 영어의 경우 알파벳 대소문자와 특수 문자 등으로 간단하게 문자셋을 구성할 수 있지만 한글의 […]