[ADP 실기] D3.js 발표 자료

 
 
예전에 작성 하였던 발표 자료를 첨부 합니다.
 
 
확인 가능한 코드는 아래 링크를 참조 하세요.
 
 
 
 
 
파일

 

데이터 분석 전문가 (ADP) 학습 가이드 Ver 2.0

예전에 데이터 분석 전문가 (ADP) 학습 가이드를 카페에 올린 적이 있습니다.
 
오늘 다른 스터디에서도 출제 경향을 설명해 달라는 요청이 있어서 잠깐 설명을 해 주었습니다.
 
예전에 작성한 문서에
다른 분들이 ADP와 ADsP를 1차 시험에 응시한 후 남긴 후기와 키워드 등을 취합하여 문서를 보완 하였습니다.
 
제이콥님이 작성한 키워드를 공개하는 것이 염려가 되었지만
다행히 "전 아무것도 몰라요 ㅎㅎ"라며 간접적으로 허락을 하셨네요.
제이콥님 감사 합니다.
 
 
참고 문헌
 
 
 
 
 
 
파일

 

 

 

 

 

 

[ADP 실기] 연관 분석

 
 
 

연관 분석

 ###—————————————————————————–
 ### 연관 분석
 ###     트랜잭션 데이터 : items, transactionID, TimeStamp
 ###         items : 트랜잭션(rows)에 속한 항목(columns)의 이름과 값
 ###         transactionID : 트랜잭션 아이디 (rows 이름)
 ###         TimeStamp : 트랜잭션이 발생한 시간
 ###—————————————————————————–
 
 ###— 데이터 준비
 data(Epub, package = "arules")
 (data <- Epub)
 
 length(data)                            #— transactions 데이터 개수
 size(data[1])                           #— 첫번째 트랜잭션의 항목수
 
 data[1]                                 #— 첫번째 트랜잭션 데이터 조회
 inspect(data[1])                        #— 첫번째 트랜잭션 데이터 상세 조회
 transactionInfo(data[1])                #— transactions 데이터 조회
 itemsetInfo(data[1])                    #— 첫번째 트랜잭션 아이디
 itemInfo(data[1])                       #— 모든 항목의 목록 
 
 summary(data[1])                        #— 첫번째 트랜잭션 데이터 요약
 summary(data)                           #— 트랜잭션 데이터 요약
 
 as(data, "list")[1]                     #— list로 변환한 후 첫번째 데이터 조회
 format(as.POSIXlt(transactionInfo(data[1])[[“TimeStamp”]]), "%Y-%m-%d %H:%M:%S")   #— TimeStamp를 문자열로 변환
 
 #— support = 0.1 : 최소지지도 10% 이상
 #— cex.names = 0.8 : 글씨 크기
 itemFrequencyPlot(data, support = 0.1, cex.names = 0.8)   #— 항목별 빈도수
 
 #— support = 0.01 : 최소지지도 1% 이상, 최소신뢰도 60% 이상인 연관 규칙 탐색
 (m <- apriori(data, parameter = list (support = 0.01, confidence = 0.6)))
 summary(m)
 length(m)                               #— 연관규칙의 개수
 inspect(m[1:10])                        #— 10개의 연관규칙 조회
 #— 연관규칙 : lhs 발생 후에 rhs 발생
 #— support : 지지도, confidence : 신뢰도, lift. 향상도
 inspect(sort(m[1:10]))                      #— 지지도 내림 차순으로 정렬후 조회
 inspect(sort(m[1:10], by = "confidence"))   #— 신뢰도 내림 차순으로 정렬후 조회
 inspect(sort(m[1:10], by = "lift"))         #— 향상도 내림 차순으로 정렬후 조회
 
 #— rhs가 "income=small"이고 향상도(lift)가 1.2 이상이 연관규칙 추출
 (small <- subset(m, subset = rhs %in% "income=small" & lift > 1.2))
 inspect(small[1:10])                    #— 10개의 연관규칙 조회
 
 #— rhs가 "income=large"이고 향상도(lift)가 1.2 이상이 연관규칙 추출
 (large <- subset(m, subset = rhs %in% "income=large" & lift > 1.2))
 inspect(large[1:10])                    #— 10개의 연관규칙 조회
 
 write(m[1:10], file="m.txt", sep = "t", col.names = NA)   #— 연관규칙을 파일로 저장
 library("pmml")
 saveXML(pmml(m[1:10]), file = "m.xml")  #— 연관규칙을 XML로 변환한 후, XML 파일로 저장

 

 

 
 
파일
 
 

[R] 기본 군집 분석 방법

 
 
R Language에서 군집 분석을 하기 위해서 여러가지 기법을 사용할 수 있습니다.
 
여기서는 가장 기본이 되고 사용하기 쉬운 몇가지 군집 분석 방법을 살펴 보려고 합니다.
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
#— 데이터 준비
data <- iris[, 1:4] #— 원본 데이터
cls <- iris[, 5] #--- 원본 데이터의 분류
group <- 3 #--- 군집수, Clustering - 군집수 결정 참조
 
 
#--- 군집 분석 (아래에서 한가지 선택)
library(stats)
m <- kmeans(data, group) #--- K-평균군집
 
library(cluster)
m <- pam(data, group) #--- PAM (Partitioning Around Medoids)
 
library(cluster)
m <- fanny(data, group) #--- Fuzzy Clustering
 
library(fpc)
m <- dbscan(data, eps = 0.5), MinPts = 5) #--- Density-based Clustering
#— eps : Maximum distance
#— MinPts : 최소 데이터 개수
#— eps 범위내에 MinPts 개수의 데이터가 있으면 군집으로 분류
 
#--- data로부터 군집 산정
pred <- m$cluster

 
 
시각화를 위해서는 아래 방식을 사용해 보세요.
  plot(m)                         #— pam, fanny
  plot(data, col = pred)     #— kmeans, pam, fanny
  plot(m, data)                 #— dbscan
  plotcluster(data, pred)   #— dbscan
 
 
군집 분석의 제대로 되고 있는지 확인 하려면 아래와 같이 수작업을 하세요.
table(pred, cls)
#— predStr : 숫자로 표시된 pred를 문자로 변경하기 위해 사용
#— data 별로 다르므로 매번 수작업이 필요 합니다.
predStr <- c("setosa", "versicolor", "virginica")   
print(paste(round(mean(predStr[pred] == cls) * 100, 2), "% of predicted clusters correct", sep=""))

 
 
 
파일
 

[서평] 앞으로 데이터 분석을 시작하려는 사람을 위한 책

 
 
 
구도 다쿠야 지음
   액센추어 경영 컨설팅 본부
   액센추어 애널리틱스 일본 총괄
 
 
 
[서평이벤트] 앞으로 데이터 분석을 시작하려는 사람을 위한 책에 응모를 했는데 2차로 당첨이 되었습니다. 책을 택배로 받아서 지난 며칠간 읽었고 간단하게 나마 서평을 남기고자 합니다.

이 책의 저자는 미국에서 활동을 하다가 2011년  3월 11일 발생한 동일본 대지진을 계기로 일본의 재건을 위해서 미력하게나마 도움이 되고자 귀국을 하였다고 합니다. 경영 컨설턴트로 활동한 경력도 있어서 그런지 책에서도 커뮤니케이션의 중요성에 대해서 많이 강조를 하고 있습니다.

책은 크게 3개의 영역으로 나누어져 있습니다.

제1장  왜 국내 기업은 데이터 분석에 취약한가에서는 일본과 미국의 데이터 분석 환경을 인재부족, 개인 정보 활용의 차이 그리고 데이터를 바탕으로한 의사결정 지원 문화를 꼽고 있습니다. 그리고 데이터 분석에서 중요한 사항이 무엇인지 간략하게 설명하고 있습니다.

저자의 데이터 분석 환경에 대한 평가는 대한민국의 상황에서도 적용이 되는 말이라 생각 됩니다. 

정부는 빅데이터 산업 발전 전략(2013.12.11)을 통해서 지속 가능한 데이터 생태계 조성을 추진하고 빅데이터를 창조 경제 및 정부 3.0의 핵심 동력으로 육성 하겠다고 발표 하였습니다. 빅데이터 분석 활용 센터 (www.kbig.kr, 2013.10.24), 공공데이터 포털 (www.data.go.kr), 서울 열린 데이터 광장 (data.seoul.go.kr) 등 몇가지 성과도 있었습니다.

그렇지만 민간부분에서는 여신전문금융업법 개정 (2013.3.22 개정, 2013.9.23 시행)을 통해 카드사가 매출정보(빅데이터)를 활용한 컨설팅 사업을 할 수 있도록 허가를 하였지만 개인정보보호법 제3조에 명시된 "금융사는 필요한 범위에서 최소한의 개인 정보만을 수집해야 한다"라는 조항으로 인해 제약을 받고 있습니다.

제2장  이것만큼은 알아 두자! 기본적인 통계 지식에서는 데이터 분석가가 기본적으로 알아야 하는 통계 지식을 초보자도 이해하기 쉽도록 사례를 들어 설명하고 있습니다. 특히 단순히 통계 기법만 설명한 것이 아니라 저자의 오랜 경험을 바탕으로 이러한 통계 기법이 어떤 분야에 활용이 될 수 있는지 설명을 하고 있어, 앞으로 데이터 분석을 시작하는 사람들에게 유용 합니다. 제2장만 두세번 읽어 의미를 명확히 이해한다면 데이터 분석시 통계를 몰라 어려움을 겪는 일은 없을 것 입니다.

제3장  데이터 분석을 실천한다.에서는 데이터 분석의 목적을 명확히 하고 분석을 위한 과제와 과제의 우선 순위를 선정하는 것이 왜 중요하지 설명하고 있습니다. 그리고 데이터 과학자가 하는 일을 실제 현장 적용을 중심으로 상세히 기술하고 있습니다. 

여기서 저자는 데이터 분석을 성공 시키기 위한 5단계를 제시하고 있습니다.
   단계 1 필요한 멤버를 모은다.
   단계 2 목적을 정한다.
   단계 3 데이터를 처리한다.
   단계 4 모델링을 한다.
   단계 5 운용을 최적화한다.

책을 읽으면서 이 책처럼 책의 제목과 내용이 일치한다는 느낌의 책은 처음 이었습니다. 

데이터 분석가로써의 자세와 기본적으로 지녀야 통계를 쉽고 간단하게 설명하고 있습니다. 데이터 분석을 위해 팀을 구성하고 어떤 단계를 거쳐 데이터 분석을 진행해야 하는지 눈높이를 낮추어 설명하고 있습니다. 

더구나 데이터 분석을 시작하려는 사람들을 위해 이해하기 쉽게 설명을 하고 있으면서도, 저자의 경험이 녹아든 여러가지 핵심 사항을 제시하고 있어 데이터 분석가로서 나아가고자 하는 명확한 방향을 제시하고 있습니다.

데이터 과학자가 되고자 하는 사람은 이 책을 두세번 음미해 가며 읽어볼 만 합니다.

 

 
 
 
 
파일
 

[서평이벤트 – 산사랑] 앞으로 데이터 분석을 시작하려는 사람을 위한 책

 
[서평이벤트] 앞으로 데이터 분석을 시작하려는 사람을 위한 책에 응모를 했었습니다.

 

 

 

 

당첨자 명단에 없어서 다음 기회를 기약하고 있었는데
당첨자 중에 이후 소식 불통(?)이라 탈락된 사람이 여럿 있었나 본데 
저를 포함한 약 5명(기억이 잘 안남) 2차로 당첨이 되었습니다.

 

어제 소포로 책이 도착을 했었는데, 바쁜 관계로 지금 확인을 했습니다.

 

첫인상은 재미없는 책의 분위기 였습니다.
디자인도 그림도 컬러도 없는 …
약 240페이지 정도의 책인데, 저자가 독자에게 전달하려는 내용으로만 채워져 있다는 느낌을 받았습니다.

 

그나마 다행인 것은 목차를 읽어 보았는데 한번 읽어 볼만하다는 생각이 들었습니다.

 

"앞으로 데이터 분석을 시작하려는 사람을 위한 책"
구도 다쿠야 지음, 김정환 옮김

 

제1장  왜 국내 기업은 데이터 분석에 취약한가?
   일본식 데이터 분석이란 무엇인가?
   미국이 가르쳐 준 데이터 분석

 

제2장  이것만큼은 알아 두자! 기본적인 통계 지식
   '평균', '분산', '표준 편차'를 이해한다.
   알아두면 도움이 되는 분석 수법

 

제3장  데이터 분석을 실천한다.
   데이터 분석의 실천 요건
   데이터 분석을 경영에 활용한다.
   단계 1 필요한 멤버를 모은다.
   단계 2 목적을 정한다.
   단계 3 데이터를 처리한다.
   단계 4 모델링을 한다.
   단계 5 운용을 최적화한다.

 

마무리  확대되는 데이터 분석 영역
   데이터 분석이 안전과 풍요를 가져온다.

 

 

3주간 책을 읽고 서평을 써야 하는데, 이글의 댓글로 서평을 남길 생각 입니다.
 
 
 
 
 
 
파일

[무료세미나] 데이터분석 전문가로 가는길

http://www.dbguide.net/offline.db?cmd=seminar

일시 : 2014년 2월 7일 금요일 13:30 ~ 17:30

장소 : 한국과학기술단체총연합회 국제회의실