[R Language] BigData 정의

 

BigData의 정의

기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합

학문적으로 빅데이터를 정의하면 현 시스템에서 가용할 범위의 크기를 넘어선 데이터를 의미합니다. 현업에서의 빅데이터는 매우 큰 데이터이면서 처리(분석) 난이도가 높은 데이터를 의미합니다.

 

BigData의 특성

 

규모 (Volume)

저장 장치의 용량이 커지고 저렴해져 기존 수집하지 않던 대용량의 데이터를 수집, 저장, 처리하게 되었습니다. 또한 세상이 똑똑해져서 SNS 등을 통한 대규모의 데이터가 폭발적으로 증가하고 있습니다.
IDC에 따르면, 2009년 한해 동안 800 Exa bytes의 데이터가 생성이 되었으나 2020년에는 35 Zetta bytes의 데이터가 생성될 것이라고 합니다. (1 Exa bytes는 백만 Tera bytes. 1 Zeta bytes는 10억 Tera bytes)

 

속도 (Velocity)

SNS, IoT 데이터 등 BigData의 생성 속도가 빨라지고 변경 주기가 짧아지고 있습니다. 따라서 대용량의 배치 처리도 중요하지만 실시간 또는 스트리밍 처리가 점차 중요해지고 있습니다. 관련하여 CEP(Complex Event Processing)와 Machine Learning(기계학습) 기법이 사용되고 있습니다.

 

다양성 (Variety)

데이터 소스의 수와 종류가 다양해 지고 있습니다. Database에 저장된 정형 데이터, XML 또는 JSON 형태의 반정형 데이터, 파일과 이미지 같은 비정형 데이터와 같이 다양한 형태의 데이터가 발생하고 있습니다.

 

가치 (Value)

규모, 속도, 다양성 중 2가지 이상을 충족하면 빅데이터라고 볼 수 있습니다. 빅데이터를 수집, 저장, 처리하기 위한 다양한 기술이 있지만 비즈니스 측면에서는 빅데이터로부터 기업이 원하는 비즈니스 목표에 부합되는 가치를 제공하는 것이 중요합니다. 그러기 위해서 빅데이터 분석 방법론을 적용하여 체계적으로 진행해야 합니다.

 

오비컨

2018.05.03 ~ 2018.05.03, ver 0.01

 

 

지식DB포럼 12월 세미나 안내

Captionless Image
파일
 

 

Ignite_y "사물인터넷(IoT)은 기업 경쟁구도를 어떻게 바꾸고 있을까?"

파일

 

빅데이터 온라인 교육

관심 있으신 분은 한번 들어 보세요.
파일

 

빅데이터 아카데미 사례 발표회

개 요
  • 목적 : 빅데이터 아카데미 한해의 성과를 정리하고, 연수기간 중 실시된 파일럿 프로젝트 대표사례 공유 및 빅데이터 미래비전 등 연수생들간의 공감의 장 마련
  • 주최 : 미래창조과학부
  • 주관 : 한국데이터베이스진흥원
  • 일시/장소 : 2014년 12월 11일(목) 14:00 ~ 17:30 / 페럼타워 3층
  • 대상 : 빅데이터 관련 산업 종사자 및 학생 등
시상내역

– 대상(진흥원장상) 200만원
– 최우수상(DB산업협의회장상) 100만원
– 우수상(경영정보학회장상, 통계학회장상) 각 50만원

프로그램
시간 세부내용 비고
14:00~14:05 인사말 서강수 원장
14:05~14:10 축사 미래부
14:10~14:20 빅데이터 아카데미 PJT 우수팀 시상식 KODB, 연수생 대표
14:20~15:10 빅데이터 아카데미 PJT 우수 사례 발표
– 우수사례 발표(대상)
– 우수사례 발표(최우수상)
연수생 대표
15:10~15:40 Big data & Advanced Analytics의 미래 비전 한국IDG 이대영 선임 기자
15:40~16:00 Break Time
16:00~17:20 빅데이터 전문가 토크(Q&A)
– 기술·분석 전문가 초청 4인 4색 토크
– 연수생 질의사항 응답
심탁길 교수, 김경태 교수,삼성생명
김기온 책임, 클루닉스 권대석 대표
17:20~17:30 빅데이터 아카데미 성과 및 계획 최종성 부실장
참가혜택

1.R을 이용한 통계 분석 무료 수강권
2.Python을 이용한 데이터 분석 무료 수강권
3.2014 빅데이터 아카데미 우수 프로젝트 사례집
4.기념품 증정(셀카봉 블루투스 일체형)

※ 상기 내용은 사정에 따라 변동될 수 있습니다.

파일

 

Windows에서 ElasticSearch 설치

ElasticSearch 설치

ElasticSearch는 JDK 7 이상에서 실행되는 Java 기반의 애플리케이션으로 별도의 설치 과정 없이 소스를 다운로드 받아 실행하면 됩니다. 다운로드 사이트(http://www.elasticsearch.org/download/)에서 최신 버전(elasticsearch-1.3.2.zip)의 ElasticeSearch를 다운로드 합니다. 압축을 풀어 c:/appl/elasticsearch/ 폴더를 생성 합니다.

실행 및 확인

bin/ 폴더에서 elasticsearch.bat 파일을 실행 합니다.

브라우저에서 http://localhost:9200/ 로 접속하여 확인 합니다.

ElasticSearch_Install_Windows_001.png

Cluster 정보 확인

Node 정보 확인

한글 형태소 분석기 Plugin

Korean Analysis for ElasticSearch (http://github.com/chanil1218/elasticsearch-analysis-korean) 사이트에서 한글 형태소 분석기 Plugin을 설치 합니다. ElasticSearch용 한글 형태소 분석기 Plugin은 “루씬 한글분석기 오픈소스 프로젝트”를 가져와 작성이 되었습니다.

루씬 한글분석기 오픈소스 프로젝트

한글 형태소 분석기 Plugin 설치

bin/plugin -install chanil1218/elasticsearch-analysis-korean/1.3.0

만일 위 명령어로 설치시 오류가 발생하면 아래와 명령어로 설치를 다시 진행 합니다.
bin/plugin -url https://dl-web.dropbox.com/spa/grpekzky9x5y6mc/elastic-analysis-korean/public/elasticsearch-analysis-korean-1.3.0.zip -install analysis-korean

설치가 정상적으로 완료되면 plugins/analysis-korean/elasticsearch-analysis-korean-1.3.0.jar 파일을 확인할 수 있습니다.

파일

 

ElasticSearch 개요

Lucene은 널리 알려진 Java 기반의 오픈소스 검색 엔진 라이브러리 입니다. 많은 곳에서 사용 되고 있지만 라이브러리 형태라 사용에 불편함이 있고 BigData 시대를 맞아 분산 환경을 지원하지 않아 새로운 대안 솔루션이 필요하게 되었습니다. 오픈소스 진영에서는 분산 환경을 지원하는 SolrElasticSearch가 Lucene 기반으로 작성이 되었습니다. ElasticSearch는 RESTful API를 지원하는 특성으로 인하여 여러 환경으로 포팅이 될 수 있어서 사용이 편리한 분산 검색 엔진 입니다.

ElasticSearch의 특징

  • 실시간 검색 및 분석
  • 분산 구성 및 병렬 처리
  • index (Database)와 Type (Table)을 사용하여 다양한 문서 처리
  • JSON을 사용하는 RESTful API 지원
  • Plugin 방식의 기능 확장

ElasticSearch 용어

용어 상세
Cluster
  • Node의 집합으로 유일한 이름을 가짐
Node
  • Cluster를 이루는 물리적인 서버
Index
(indice)
  • 유사한 특징을 가진 문서들의 모음으로 DBMS에서 데이터베이스와 유사한 개념
  • Term, Count, Docs로 구성
Shard
  • Index의 subset 개념으로 Lucene을 사용하여 구성
  • 실제 데이터와 색인을 저장하고 있으며 Primary Shard와 Replica Shard로 분류
  • Primary Shard : Shard를 구성하는 기본 인덱스
  • Replica Shard : 분산된 다른 node에 저장된 Primary Shard의 복제본
    • 서비스 장애시 서비스의 영속성 보장
Type
(Document Type)
  • 데이터 (Document)의 종류로 index 내에서의 논리적인 category/partition
  • DBMS에서 테이블과 유사한 개념
Mapping
  • DBMS에서 테이블 스키마와 유사한 개념
Route
  • 색인 필드 중 unique key에 해당하는 값을 routing path로 지정한 후, 이 path를 사용하여 인덱싱과 검색에 사용할 shard를 지정하여 성능할 향상할 수 있습니다.
  • Routing Field : 스토어 옵션을 yes로 index not_analyzed로 설정
Document
  • ElasticSearch에서 관리하는 기본적인 데이터(정보)의 저장 단위
  • JSON (JavaScript Object Notaion)으로 표현
  • DBMS에서 레코드와 유사한 개념
Field
  • Document를 구성하고 있는 항목으로 name과 value로 구성
  • DBMS에서 컬럼과 유사한 개념
Gateway
  • Cluster 상태, Index 설정 등의 정보를 저장
Query
  • 검색어
TermQuery
  • 검색어의 종류
Term
  • 검색어의 항목
Token
  • 검색어의 항목을 구성하는 요소

ElasticSearch의 개념적 구성도

ElasticSearch.png
파일:LuceneIndex01.png

  • ElasticSearch Architecture

ElasticSearchArchitecture.png

  • _index : index 이름
  • _type : type 이름
  • _id : Document ID
  • _score
  • _source : Document 저장
  • properties
  • 필드명 (field)
  • type : string

ElasticSearch 관련 오픈소스

ElasticSearch Environment.png

 

 

파일

 

[ADP 실기] 시험 후기 – 3. 시험 문제

 
 

 

 
 
 
고객세분화 (45점)

 
 
가. 세분화 변수의 생성 및 선정
     –   요약 변수 및 파생 변수의 생성
         예) 카테고리별 점유율, 주 인터넷 사용 시간대, 인터넷 사용 일수, 검색 패턴, 쇼핑단계별 이용 패턴,
              주 쇼핑 시간대, 주 관심 상품 카테고리, 구매 상품 가격대
     –   EDA, 상관분석, Decision Tree 등을 통하여 적절한 세분화 변수 선정
 
나. 군집 분석 및 최적 세분화 집단 생성
     –   적절한 군집 분석 기법 제시 및 분석 수행
     –   세분화 집단의 최적 개수 결정 및 기준 설명
 
다. 각 세분화 집단의 특성 분석, 정의 및 마케팅 인사이트
     –   각 세분화 집단에 대한 특성 분석 및 시각화
     –   특성 분석 결과를 기반으로 각 세분화 집단에 대한 마케팅 관점에서의 정의
     –   세분화 분석 결과를 토대로 타당한 마케팅 인사이트 제시
 
 
 
 
예측 (45점)

 
 
가. 세분화 집단별 예측 모형 (구매, 이탈, 등급 변동, 우수 고객 예측 등) 개발을 위한 종속 변수 정의 및 독립 변수 선정
     –   해당 예측을 위한 타당한 종속 변수의 정의
     –   해당 예측을 위한 독립 변수의 생성 및 선정
          요약 변수 및 파생 변수의 생성, EDA/상관분석/Decision Tree 등을 통한 적절한 변수 선정
 
나. 세분화 집단별 예측 모형 개발
     –   종속 및 독립 변수의 성격에 따른 적절한 모델링 기법 제시
     –   샘플링, 파티션 등 모델링 데이터 준비 및 모형 생성
     –   적절한 평가 기준에 의한 모델 평가 및 최종 모델의 선택
 
다. 예측 모형 분석 및 마케팅 인사이트 제시
     –   세분화 집단별 예측 모형의 특성 분석 및 시각화
     –   세분화 집단간 예측 모형의 비교 분석
     –   예측 모형 분석 결과를 토대로 적절한 마케팅 인사이트 제시
 
 
 
텍스트 마이닝 (10점)

 
 
가. 포털 사이트 검색 기록을 활용한 토픽 분석
     –   한 고객이 일정 기간 동한 포털 사이트에서 입력한 전체 검색 리스트를 하나의 문서(Document)로 간주
     –   위의 문서에 기반을 두어 고객의 관심 주제를 파악하기 위한 토픽 분석을 수행
 
나. 토픽 분석 결과의 해석 및 마케팅에서의 활용 방안 제시
     –   도출된 토픽 리스트의 의미를 마케팅 관점에서 해석
     –   분석 결과를 고객 세분화 및 예측 등에서 활용할 수 있는 구체적인 방안 제시

 
 
 
 
 
 
파일

 

 

 

[ADP 실기] 시험 후기 – 2. 시험용 데이터

 

 
 
 
마케팅 전략 수립
 
패널 1,000명의 1년간 온라인 이용 행태 데이터
 
1.  이용자의 인구통계학
    –   이용자 ID (Numeric)
    –   성별 (Character) : 남, 여
    –   직업 (Character)
    –   지역 (Character)
    –   나이 (Numeric)
 
2.  인터넷 접속 기록
    –   이용자 ID (Numeric)
    –   접속시각 (yyyymmddhh)
    –   접속횟수 (Numeric)
    –   체류시간 (Numeric)
    –   사이트 (Character)
    –   사이트 대분류 (Character) 
    –   사이트 중분류 (Character) 
    –   사이트 소분류 (Character) 
 
3.  오픈마켓 접속 기록
    –   이용자 ID (Numeric)
    –   접속시각 (yyyymmddhhMMss)
    –   체류시간 (Numeric)
    –   마켓이름 (Character)
    –   쇼핑 단계 (Character) : 가격비교, 검색, 상품 목록, 상품 상세, 장바구니, 구매, 구매 취소
    –   상품 페이지 ID (Numeric) : NA 존재
    –   검색어 (Character) : 마켓에서 사용자가 입력한 검색어
 
4.  오픈마켓에서 열람한 상품 정보
    –   상품 페이지 ID (Numeric)
    –   마켓 이름 (Character)
    –   상품 페이지 제목 (Character)
    –   상품 대분류 (Character)
    –   상품 중분류 (Character)
    –   상품 소분류 (Character)
    –   정가 (Numeric) : NA 존재
    –   판매가 (Numeric) : NA 존재
    –   판매자 명 (Character0
    * 상품의 분류는 마켓에 따라 다를 수 있음
    * 정가와 판매가가 NA이면 판매 중단된 상품임 (이 부분을 안 적어 왔네요, 제가 기억하고 있는 내용 입니다.)
 
5.  포털 사이트 검색 기록
    –   이용자 ID (Numeric)
    –   접속 시각 (yyyymmddhh)
    –   검색어 (Character0
 
 
위 5개의 데이터는 UTF-8로 인코딩된 csv 파일로 제공이 됩니다.
각 파일은 헤더가 존재하며 rownames은 저장되지 않았습니다.
 
 
 
평가 기준
 
–   적절한 분석 기법 사용
–   제공 데이터의 다각적 활용
–   다양한 분석 기법 활용 및 평가
–   결측치 및 이상치 처리
–   분석 언어 활용의 능숙도 및 코드의 효율성
–   분석 결과의 논리적 해석 및 활용 방안 제시
 
 
 
관련 글
 
 
 
 
 
파일

 

 

 
 

[ADP 실기] Cheat Sheet for R

 
 
예전에 ADP 필기를 위해서 
약 1200 페이지의 책을 꼭 기억해야 할 6 페이지의 Cheat Sheet로 정리한 적이 있습니다.
 
이번에 ADP 실기를 위해서
꼭 기억해야 할 R 명령어를 2 페이지로 정리를 하여 보았습니다.
(Shiny, D3.js 등 제외)
 
 
 
 
 
파일