[R Language] BigData 정의

 

BigData의 정의

기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합

학문적으로 빅데이터를 정의하면 현 시스템에서 가용할 범위의 크기를 넘어선 데이터를 의미합니다. 현업에서의 빅데이터는 매우 큰 데이터이면서 처리(분석) 난이도가 높은 데이터를 의미합니다.

 

BigData의 특성

 

규모 (Volume)

저장 장치의 용량이 커지고 저렴해져 기존 수집하지 않던 대용량의 데이터를 수집, 저장, 처리하게 되었습니다. 또한 세상이 똑똑해져서 SNS 등을 통한 대규모의 데이터가 폭발적으로 증가하고 있습니다.
IDC에 따르면, 2009년 한해 동안 800 Exa bytes의 데이터가 생성이 되었으나 2020년에는 35 Zetta bytes의 데이터가 생성될 것이라고 합니다. (1 Exa bytes는 백만 Tera bytes. 1 Zeta bytes는 10억 Tera bytes)

 

속도 (Velocity)

SNS, IoT 데이터 등 BigData의 생성 속도가 빨라지고 변경 주기가 짧아지고 있습니다. 따라서 대용량의 배치 처리도 중요하지만 실시간 또는 스트리밍 처리가 점차 중요해지고 있습니다. 관련하여 CEP(Complex Event Processing)와 Machine Learning(기계학습) 기법이 사용되고 있습니다.

 

다양성 (Variety)

데이터 소스의 수와 종류가 다양해 지고 있습니다. Database에 저장된 정형 데이터, XML 또는 JSON 형태의 반정형 데이터, 파일과 이미지 같은 비정형 데이터와 같이 다양한 형태의 데이터가 발생하고 있습니다.

 

가치 (Value)

규모, 속도, 다양성 중 2가지 이상을 충족하면 빅데이터라고 볼 수 있습니다. 빅데이터를 수집, 저장, 처리하기 위한 다양한 기술이 있지만 비즈니스 측면에서는 빅데이터로부터 기업이 원하는 비즈니스 목표에 부합되는 가치를 제공하는 것이 중요합니다. 그러기 위해서 빅데이터 분석 방법론을 적용하여 체계적으로 진행해야 합니다.

 

오비컨

2018.05.03 ~ 2018.05.03, ver 0.01

 

 

R 데이터셋 전처리용 패키지 : plyr, dplyr

오늘 제가 정리해 봤던 R 패키지인 plyr과 dplyr를 올려 봅니다.
plyr
Hadley Wickham가 R Language로 작성한 데이터 처리에 특화된 R 패키지
xyply
데이터의 분할, 함수 적용, 재조합 등에 사용하는 함수
x : 입력 데이터 타입, y : 출력 데이터 타입
a. 배열, d. data.frame, l. 리스트, _. 없음
m. data.frame 또는 배열의 각 컬럼에 함수 적용한 후 그 결과를 조합(추가)
데이터셋의 행별로 함수 적용 (.margins 인자 값이 1)
library(plyr)
adply(iris, 1, function(row) { row$Sepal.Length })
데이터셋의 열별로 함수 적용 (.margins 인자 값이 2)
adply(iris[, 1:4], 2, function(col) { sum(col) })
데이터를 group by 하여 함수 적용
ddply(iris, .(Species), # Species로 group by
         function(group) { data.frame(mean=mean(group$Sepal.Length)) })
ddply(iris, .(Species), transform, valA=Sepal.Length)
ddply(iris, .(Species), mutate, valA=Sepal.Length)
dplyr
Hadley Wickham가 C++로 작성한 데이터 처리에 특화된 R 패키지
dplyr 패키지 로드
detach(“package:plyr”, unload=TRUE) # plyr 패키지 unload
library(dplyr) # dplyr 패키지 로드
data <- iris %>% filter(Species == “setosa” | Species == “versicolor”) %>% select(Sepal.Length, Sepal.Width, Species) %>% mutate(Sepal = Sepal.Length + Sepal.Width) %>% arrange(Sepal) %>% group_by(Species) %>% summarise(SepalSum=sum(Sepal), SepalMean=mean(Sepal))
filter(Species == “setosa” | Species == “versicolor”) # 필터링
select(Sepal.Length, Sepal.Width, Species)         # 열 추출
mutate(Sepal = Sepal.Length + Sepal.Width)         # 열 추가
arrange(Sepal)                                # 정렬
group_by(Species)                        # 그룹핑
summarise(SepalSum=sum(Sepal), SepalMean=mean(Sepal)) # 집계
%>%를 사용하여 함수를 연결하여 사용하지 않고 개별 함수를 호출하여 사용할 수도 있습니다. 이 경우 함수의 첫번째 인자는 처리할 데이터셋으로 지정 합니다.
data <- filter(iris, Species == “setosa” | Species == “versicolor”) # 필터링
data <- select(data, Sepal.Length, Sepal.Width, Species)         # 열 추출
data <- mutate(data, Sepal = Sepal.Length + Sepal.Width)         # 열 추가
data <- arrange(data, Sepal)                                 # 정렬
data <- group_by(data, Species)                                 # 그룹핑
data <- summarise(data, SepalSum=sum(Sepal), SepalMean=mean(Sepal)) # 집계
파일
 

 

빅데이터 분석활용센터 이용자를 위한 지원 방안 소개 및 기술세미나

목적 및 대상
○ (목적) 빅데이터 분석활용센터의 이용자 지원방안을 소개 및 빅데이터 기술 세미나를 통하여 이용자의 사용을 촉진함
○ (대상) 빅데이터 분석활용센터 이용자 대상
□ 일시 및 장소
○ 2014년 12월 11일(목요일) 19:00 ~ 21:00 NIA 강당
□ 주요 내용 : 빅데이터 분석활용센터 이용자를 위한 지원 방안 소개 및 기술세미나
○ 빅데이터 분석활용센터 이용자 지원 방안소개(NIA)
○ 빅데이터 저장기술 & NoSQL : 주종면 대표(플랜정보기술, 초대 시삽)
□ 행사일정
시간
주요내용
비고
19:00~19:15
      빅데이터 분석활용센터 이용자 지원 방안 소개
– 빅데이터 분석활용센터 고도화 내용 소개
– 빅데이터 분석활용센터 온라인 커뮤니티 소개
– 향후 지원 방안 소개
NIA
19:15~19:30
      이용자 커뮤니티 활성화를 위한 제언 및 간담회
NIA
19:30~20:45
      빅데이터 분석활용센터 이용자 지원 세미나
– 빅데이터 저장기술&NoSQL
주종면 대표
(플랜정보기술, 초대시삽)
20:45~21:00
      질의응답
파일
 

 

지식DB포럼 12월 세미나 안내

Captionless Image
파일
 

 

2014 근거리 무선통신기술 및 IoT 융합 세미나

파일
 
 

 

Ignite_y "사물인터넷(IoT)은 기업 경쟁구도를 어떻게 바꾸고 있을까?"

파일

 

빅데이터 온라인 교육

관심 있으신 분은 한번 들어 보세요.
파일

 

빅데이터 아카데미 사례 발표회

개 요
  • 목적 : 빅데이터 아카데미 한해의 성과를 정리하고, 연수기간 중 실시된 파일럿 프로젝트 대표사례 공유 및 빅데이터 미래비전 등 연수생들간의 공감의 장 마련
  • 주최 : 미래창조과학부
  • 주관 : 한국데이터베이스진흥원
  • 일시/장소 : 2014년 12월 11일(목) 14:00 ~ 17:30 / 페럼타워 3층
  • 대상 : 빅데이터 관련 산업 종사자 및 학생 등
시상내역

– 대상(진흥원장상) 200만원
– 최우수상(DB산업협의회장상) 100만원
– 우수상(경영정보학회장상, 통계학회장상) 각 50만원

프로그램
시간 세부내용 비고
14:00~14:05 인사말 서강수 원장
14:05~14:10 축사 미래부
14:10~14:20 빅데이터 아카데미 PJT 우수팀 시상식 KODB, 연수생 대표
14:20~15:10 빅데이터 아카데미 PJT 우수 사례 발표
– 우수사례 발표(대상)
– 우수사례 발표(최우수상)
연수생 대표
15:10~15:40 Big data & Advanced Analytics의 미래 비전 한국IDG 이대영 선임 기자
15:40~16:00 Break Time
16:00~17:20 빅데이터 전문가 토크(Q&A)
– 기술·분석 전문가 초청 4인 4색 토크
– 연수생 질의사항 응답
심탁길 교수, 김경태 교수,삼성생명
김기온 책임, 클루닉스 권대석 대표
17:20~17:30 빅데이터 아카데미 성과 및 계획 최종성 부실장
참가혜택

1.R을 이용한 통계 분석 무료 수강권
2.Python을 이용한 데이터 분석 무료 수강권
3.2014 빅데이터 아카데미 우수 프로젝트 사례집
4.기념품 증정(셀카봉 블루투스 일체형)

※ 상기 내용은 사정에 따라 변동될 수 있습니다.

파일

 

[ElasticSearch] 개요 – Lucene

Lucene 용어
 
용어 상세
Document
(DBMS의 record)
  • 기본적인 정보의 저장 단위로써, 수집한 row content를 Field의 집합으로 관리
  • Field  : Document를 구성하고 있는 항목
  • name, fieldType, value로 구성
Analyzer
  • Field의 value (text)로 부터 token을 추출
  • Analyzer 구성
  • CharFilter  : 전체 문자열 전처리 (복수)
  • Tokenizer  : 전체 문자열을 Token으로 분할
  • TokenFilter  : Token에 대한 필터링 처리 (복수)
Index
(DBMS의 database)
  • Directory  : Lucene 인덱스가 저장된 폴더
  • Segment  : Index를 구성하는 요소로 독립적인 index 정보를 가짐
  • Term  : 저장과 검색을 위한 기본 단위
  • field name과 word (text)로 구성
Query
  • 검색어 : Search String을 Lucene에서 사용하는 문법으로 변환한 것
  • 종류 : TermQuery, BooleanQuery, WildcardQuery, PhraseQuery, PrefixQuery, MultiPhraseQuery, FuzzyQuery, RegexpQuery, TermRangeQuery, NumericRangeQuery, ConstantScoreQuery, DisjunctionMaxQuery, MatchAllDocsQuery
Filter
  • 종류 : CachingWrapperFilter, DocTermOrdsRangeFilter, FieldCacheRangeFilter, FieldCacheTermsFilter, FieldValueFilter, MultiTermQueryWrapperFilter, NumericRangeFilter, PrefixFilter, QueryWrapperFilter, TermRangeFilter
TopDocs
  • 검색한 문서의 ID (docID)를 저장
Scorer
  • 종류 : BoostScorer, BulkScorer, ConjunctionScorer, DisjunctionMaxScorer, DisjunctionScorer, DisjunctionSumScorer, ExactPhraseScorer, FakeScorer, MinShouldMatchSumScorer, ReqExclScorer, ReqOptSumScorer, ScoreCachingWrappingScorer, SloppyPhraseScorer, TermScorer
  • Lucene Process 이해
LuceneProcess.png
  • Lucene Score

LuceneScore.png

파일

 

EMC Effect Day 2014.11.11

EMC Effect Day 2014

파일