[R Language] BigData 정의

 

BigData의 정의

기존 데이터에 비해 너무 방대해 일반적으로 사용하는 방법이나 도구로 수집, 저장, 처리, 분석, 시각화 등을 하기 어려운 정형 또는 비정형 데이터의 집합

학문적으로 빅데이터를 정의하면 현 시스템에서 가용할 범위의 크기를 넘어선 데이터를 의미합니다. 현업에서의 빅데이터는 매우 큰 데이터이면서 처리(분석) 난이도가 높은 데이터를 의미합니다.

 

BigData의 특성

 

규모 (Volume)

저장 장치의 용량이 커지고 저렴해져 기존 수집하지 않던 대용량의 데이터를 수집, 저장, 처리하게 되었습니다. 또한 세상이 똑똑해져서 SNS 등을 통한 대규모의 데이터가 폭발적으로 증가하고 있습니다.
IDC에 따르면, 2009년 한해 동안 800 Exa bytes의 데이터가 생성이 되었으나 2020년에는 35 Zetta bytes의 데이터가 생성될 것이라고 합니다. (1 Exa bytes는 백만 Tera bytes. 1 Zeta bytes는 10억 Tera bytes)

 

속도 (Velocity)

SNS, IoT 데이터 등 BigData의 생성 속도가 빨라지고 변경 주기가 짧아지고 있습니다. 따라서 대용량의 배치 처리도 중요하지만 실시간 또는 스트리밍 처리가 점차 중요해지고 있습니다. 관련하여 CEP(Complex Event Processing)와 Machine Learning(기계학습) 기법이 사용되고 있습니다.

 

다양성 (Variety)

데이터 소스의 수와 종류가 다양해 지고 있습니다. Database에 저장된 정형 데이터, XML 또는 JSON 형태의 반정형 데이터, 파일과 이미지 같은 비정형 데이터와 같이 다양한 형태의 데이터가 발생하고 있습니다.

 

가치 (Value)

규모, 속도, 다양성 중 2가지 이상을 충족하면 빅데이터라고 볼 수 있습니다. 빅데이터를 수집, 저장, 처리하기 위한 다양한 기술이 있지만 비즈니스 측면에서는 빅데이터로부터 기업이 원하는 비즈니스 목표에 부합되는 가치를 제공하는 것이 중요합니다. 그러기 위해서 빅데이터 분석 방법론을 적용하여 체계적으로 진행해야 합니다.

 

오비컨

2018.05.03 ~ 2018.05.03, ver 0.01

 

 

0 답글

댓글을 남겨주세요

토론에 참여하고 싶으세요?
마음껏 기여하세요!

댓글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다