- Dacon
- 주요 일정
- 주요 데이터
- 평가 기준
- 인사이트
- 2021년 7월 26일 1차 미팅
- 2021년 7월 28일 2차 미팅
- 대외 결과물 제출 방법
- 2021년 8월 9일 3차 미팅
- 협업 도구
- Business Understanding
- Data Understanding
- Data Preparation
- 운행 기록 데이터
- Trip 단위 위험운전 행동 통계데이터
- 1초 단위 위험운정 행동 데이터
- Modeling
- 2021년 8월 17일 4차 미팅
- Evaluation
- Deployment
Dacon
주요 일정
2021.07.09 : 대회 시작
- 2021.07.26 : 제1차 참가주체 선정 미팅
2021.08.24 : 팀 병합 마감
2021.08.31 : 대회 종료
2021.09.07 : 1차 평가 종료
2021.09.15 : 2차 평가 종료
주요 데이터
- 데이터 종류
국토교통 데이터
- 전국 사업용 차량 데이터
- 고속도로 데이터 : 하이패스, 소통, 교통량, 공사, 교통소통
코레일
- 수송실적, 승하차 인원
항공기
- 운항정보, 수송실적, 소요시간/거리
- 온실가스
- 항공통계
부동산
- 실거래가, 주택 가격
- 전출입 현황
- 주거실태
- 소비심리
평가 기준
- 평가 기준
- 데이터 (15점) -> 분석 기법 (20점), 시각화 (20점)
- 분석 결과와 활용 (20점)
인사이트
2021년 7월 26일 1차 미팅
- 임창현
- 화학 : 온실가스
- 상업용 항공기의 탄소 배출량은 전체 배출량의 2.5%
- CORSIA (국제항공 탄소 상쇄/감축 제도)
- 비행기(244g/km)와 자동차(240g/km)의 탄소 배출량이 비슷 by 유럽환경청
- 철도 : 저탄소 녹색 교통 수단으로 각광
- 교통량
- 지도에 시각화
- 지능형 교통 시스템
- 자율주행
- 화학 : 온실가스
- 해피바이러스
- 산사랑
- 국토 교통
- 지역별 신규 업체 정보 수집
- 지도에 교통량 시각화
- 지도에 물류 흐름 시각화
- 자율주행 보조 서비스 구축
- 모빌리티 구독 서비스
- 교통 정보와 관광 정보 연계
- 부동산 정보
- 부동산 가상 투어 정보 제공
- 표준화된 정보를 담당자가 방문하여 등록
- 사진과 동영상 포함
- 부동산 전자계약 시스템
- 확정 일자 자동 부여
- 부동산 거래 자동 신고
- 대출 등 우대
- 수수료 절감
- 데이터 유통 플랫폼
- 수상한 부동산 거래 탐지
- 교통량과 부동산 가격 관계
- 부동산 가상 투어 정보 제공
- 부동산 중개
- 적정 주택 가격 산출 by AI
- 종속 변수
- 국토교통부 실거래가 정보 : 매매, 전월세
- 공동주택 공시 가격
- 개별/표준 공시 지가
- 독립 변수
- 인구 현황
- 시군구별 전출입 지역 현황
- 건축물 통계, 건축 허가/착공 현황
- 미분양 주택 현황
- 유동 현황
- 지역별 도로 현황
- 유동 인구 내역
- 소통 정보 및 교통량 통계
- 사업용 차량의 운행 기록
- 교통 데이터
- 코레일 전철력 시간대별 이용 인원
- 국토교통부 자동차 등록 현황
- 항공기 운항 정보, 전국 공항 수송 실적
- GIS 건물 정보
- 인구 현황
- 종속 변수
- 부동산 컨설팅
- 부동산 공유
- 부동산 경매/공매
- 적정 주택 가격 산출 by AI
- 부동산 관리
- 부동산 임대 관리 : 분양과 임대 대행
- 리모델링 (인테리어)
- 부동산 정보 공유 플랫폼
- 부동산 정책 컨설팅 : 세무
- 부동산 수익 증권(DABS, Digital Asset Backed Securities) 거래
- 자산 유동화 증권 : 매도시 15.4% 소득세, 매매시 0.2% 매매수수료
- 3개월마다 임대배당수익
- REITs : 부동산 임대소득, 개발 이득, 매매 차익을 투자자에게 배당
- 해외 부동산
- 국토 교통
2021년 7월 28일 2차 미팅
- 교통 관련 추가 검토
- 운행 기록 데이터 등
- 회의 내용
- 권한 신청은 하였으나 아직 데이터를 받아 보지 못함
- 데이터를 받으면 추가 검토할 예정
- 적정 주택 가격 산출 추가 검토
- 회의 내용
- 주택 가격에 영향을 주는 요인이 많아 주어진 데이터로는 한정적임
- 추가로 1~2개의 데이터를 선정해 수집한 후 분석하는 것은 가능하나 유의미한 결과를 도출할 수 있을지는 현재로서는 알 수 없음
- 데이터를 수집한 후 시각화하여 추가 검토할 예정
- 주택 시장 영향 요인 by 국토연구원
- 거시경제와 유동성
- 주택 수급
- 수요
- 인구 및 가구의 변화, 소득의 변화, 멸실량
- 지역 경제 여건 : 이자율, 거시 경제 여건, 지역 기업의 성과
- 외국인
- 공급
- 인구 추계 대비 공급물량, 멸실
- 공동주택 분양률, 청약률, 입주율, 미분양 등 인근지역 사업결과
- 거래 규모와 거래 가격
- 입지 요건, 개발 및 투자 이슈
- 수요
- 정책
- 신도시
- 지역
- 지역 경제 여건
- 지역 산업 성과
- 일자리, 주민소득, 지역내 총생산
- 지역 개발 사업
- 산업단지, 뉴타운, 기업도시, 혁신도시 조성
- 도로, 항망, KTX, 공항 등 SOC
- 문화체육시설, 도서관, 공공시설, 상업시설, 교육시설 등 편의 시설
- 쓰레기매립장, 오폐수처리장, 교도소, 소각장, 화장터 매립장 등 혐오시설
- 인구와 가구의 특성
- 인구수, 가구수, 전입/전출 인구수, 상주 인구수
- 주거 환경적 특성
- 교통편리성
- 문화와 교육 여건
- 주택의 노후도
- 지역 경제 여건
- 심리
- 주택 가격 결정 요인
- 물리적 특성
- 총세대수, 주택면적, 해당 층, 방 수, 세대수, 난방형태
- 단지 최고층수, 세대당 주차수, 시공사 브랜드
- 임대주택 비율, 재건축 특성(용적율, 준공년수)
- 주변 지역 특성
- 버스노선수, 편의시설수, 공원수, 대형할인매장수
- 유흥가, 전통시장 유무
- 도심, 지하철, 공원, 강, 산, 공업지역(기피시설 등)과의 거리 접근성
- 교육 특성
- 학교수, 인문계고 학생비율, 학원수, 고학력 비율, 명문대진학율
- 특목고 진학 현황, 방과후 교실수, 평균수능점수
- 경관 특성
- 하천 및 산지의 조망 여부
- 국가
- 국내총생산, 회사채 수익률
- 국가 및 광역
- 지역내 총생산, 인구, 순인구 유입, 주택공급실적, 미분양율
- 경제성장율, 건설성장율, 건설수주액, 건설기성액
- 물리적 특성
- 분석
- 최소자승법, 공간시차모형, 공간오차모형, 지리적 가중회귀모형
- 좌표 평활 지리적 가법모형, 연속 변수 평활한 지리적 가법 모형
- 높은 가격
- 학군(서울), 교육 특구(지방)
- 큰 평균 평형, 큰 단지규모, 높은 층수
- 가까운 지하철역 입구, 하천 경계, 백화점, 학교/도서관, 공원/유적지, 구청, 공항, 은행
- 상위 30위권 내의 시공사가 건설
- 낮은 가격
- 개별 난방
- 먼 종합병원, 여관, 사회복지시설, 축사, 공동묘지, 소음시설
- 회의 내용
- 이전 시상 데이터 확인
- 데이터 마이닝을 통한 합리적 주거지 선정 방안 제시
- 보호 종료 청소년을 위한 ...
대외 결과물 제출 방법
- PPT 파일
- ipynb (쥬피터 노트북 파일) 파일
- Python 파일(~.py)을 ~.ipynb 파일로 변환 가능
- R 파일(~.Rmd)을 ~.ipynb 파일로 변환 가능
- 쥬피터 노트북에서 tensorflow 등을 사용 가능
- 기본적으로 Python에서 되는 것은 모두 된다고 생각하면 됨
- 쥬피터 노트북에서 R Language 실행 가능
- R language and r-essentials packages 설치 필요
- 쥬피터 노트북에서 Markdown을 사용하여 주석 추가 가능
2021년 8월 9일 3차 미팅
2차 회의 결과를 추가로 검토한 후 2021년 8월 9일 오후 6시에 다시 협의 한다.
- 데이터셋을 검토한 후 다시 미팅
- 위 2가지 의견외에 추가 아이디어가 있으면 제시
데이터
- 위험운전행동 데이터 <- 운행 기록 데이터
모델
- 위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악 (최종 결정함)
- 그룹, 분류 등 검토 중
데이터
- 국토교통부 실거래가 정보
- Excel로 계약 일자를 기준으로 Excel로 다운로드
- 시군구, 번지, 본번, 부번, 단지명, 전용면적
- 계약년월, 계약일, 거래금액, 층, 건축년도, 도로명
- 도로명 주소로 좌표(위경도) 구하기
- 도로명 주소 개발자센터에서 제공하는 좌표제공API를 사용하여 좌표(ITRF2000 - GRS80(기준타원체))를 구한다.
- 단독 건물인 경우 건물중심 좌표
- 집합 건물인 경우 주출입구 좌표
- proj4j 오픈소스를 사용하여 위도/경도로 변환 한다.
- 도로명 주소 개발자센터에서 제공하는 좌표제공API를 사용하여 좌표(ITRF2000 - GRS80(기준타원체))를 구한다.
- 위경도로 주소간 거리를 계산 한다.
- Excel로 계약 일자를 기준으로 Excel로 다운로드
분석과 시각화
- 적정 주택 가격 산출
- 다양한 종류의 독립 변수를 개발하여야 하므로 시간이 오래 걸림
- 수상한 부동산 거래 탐지 <- 국토교통부 실거래가 정보
- STR (Suspicious Transaction Report, 의심거래보고제도)
- 지도에서 실거래가 제공
- 2020년 9월 29일 법정 전월세 전환율 : 2.5%
- 전월세 전환율 : 한국은행 기준 금리 + 월차임전환시 산정율의 합
- 보증금 * 2.5% = 12 * 월세
- 보증금 = 12 * 월세 / 2.5%
- 월세 = 보증금 * 2.5% / 12
- 매매 가격과 전월세 가격간의 Gap 표시
- 2020년 9월 29일 법정 전월세 전환율 : 2.5%
협업 도구
두레이 : 25명까지 무료
- https://docs.toast.com/ko/Dooray/Common/ko/overview/
- 메신저
- 메일, 캘린더, 개인 드라이브, 주소록
- 프로젝트 (드라이브, 위키)
- 메시지 (할일, 번역), 화상회의
- 근태 관리, 전자결제, 조직도
- 커스텀 앱 개발, Open API
- 사내 시스템 연동, 확장 서비스 (GitHub, 구글 드라이브, 캘린더 연동)
- 메신저
- 게시판, 캘린더, 주소록, 할일, 설문
- 프로젝트 (캘린더, To-Do, 스토리지)
- 메신저, 화상회의
- 토픽별 대화방
Business Understanding
- 선택: 위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악
- 보류: 수상한 부동산 거래 탐지
Data Understanding
- 공공데이터포털
- 국가통계포털
- 국토교통부: 데이터 통합채널 : 9,710 데이터셋
- 국토교통부: 실거래가 공개시스템
- 주택매매 실거래가 자료
- 전월세 실거래가 자료
- 한국부동산원
- 공동주택 공시 가격
- 표준 단독주택 공시 가격
- 개별 단독주택 공시 가격
- 표준지 공시 지가
- 개별 공시 지가
- 공동주택가격정보 서비스 등
- 주택정보포털
- 주택보증 통계 정보
- 분양 이력 정보
- 주택 금융 정보
- 시군구별 전출입 지역현황
- 사업용 차량 운행기록 데이터 개방시스템
- 사업용 차량의 운행기록 데이터
- 사업용 차량의 위험운전행동 데이터
- eTAS (운행기록분석시스템)
- 교통 데이터 거래소 : 274 데이터셋
- 마이크로 데이터 통합서비스 (MDIS)
- 국토연구원: 부동산시장연구센터
- 한국공항공사
- LH 등 유관기관 데이터(기관별 홈페이지)
- 교육
- 교육부
- KESS 교육통계서비스
- 시도 유초중등 교육 통계
- 한국교육개발원
- 회원 가입 후 교육 통계 신청
- 학교알리미
- 학교별/지역별 공시정보 > 졸업생의 진로 현황
- 전문대 진학률이 중요함
- 종로학원 하늘교육
- 교육
Data Preparation
운행 기록 데이터
Key
- 자동차 등록 번호
- 정보발생일시 : YYMMDDhhmmssss
운행 기록 : 1초, 5초, 10초, 30초 수집간격 중 선택
일일주행거리 (KM)
누적운행거리 (KM)
정보발생일시 (년월일시분초ss)
운행속도 (KM)
RPM
브레이크 신호
시작 GPS (X좌표)
시작 GPS (Y좌표)
GPS 방위각
가속도 Vx
가속도 Vy
운행지역코드
차대번호, 자동차 등록 번호
정보발생일시 : YYMMDDhhmmssss
GPS X, GPS Y : 정수로 표시. 소수점 아래 6자리
방위각 : 0 ~ 360
가속도 (m/sec2) Vx : - 100.0 ~ 100.0
가속도 (m/sec2) Vy : -100.0 ~ 100.0
통신상태 코드
- 00 - 운행기록장치 정상
- 11 - 위치추적장치(GPS수신기) 이상
- 12 - 속도센서 이상
- 13 - RPM 센서 이상
- 14 - 브레이크 신호감지 센서 이상
- 21 - 센서 입력부 장치 이상
- 31 - 데이터 출력부 장치 이상
- 32 - 통신 장치 이상
- 41 - 운행거리 산정 이상
- 99 - 전원 공급 이상
운행지역 코드
운수회사 지역 코드 (운수회사 소재지 코드)
운수회사 코드, 사업자 등록번호
DTG 모델 (운행기록장치 모델명)
자동차 유형
- 11 - 시내버스, 12 - 농어촌버스, 13 - 마을버스, 14 - 시외버스
- 15 - 고속버스, 16 - 전세버스, 17 - 특수여객자동차, 21 - 일반택시
- 22 - 개인택스, 31 - 일반화물자동차, 32 - 개별화물자동차
- 41 - 비사업용자동차
일일주행거리 (km) : 0 ~ 9999
누적주행거리 (km) : 0 ~ 9999999
차량속도 (km/h) : 0 ~ 255
분당 엔진회전수 (RPM) : 0 ~ 9999
브레이크 신호 : 0. off, 1. on
연료 코드, 연식, 배기량
Trip 단위 위험운전 행동 통계데이터
- 운행일자
- 운수회사 코드
- 자동차 등록번호
- 사업자 등록번호
- 차대번호
- 자동차 유형코드
- DTG 모델명
- 자료제출일시
- 접수번호
- 수집파일코드
- 시동 on 일시, 시동 off 일시
- 시작 GPS X 좌표, 시작 GPS Y 좌표
- 종료 GPS X 좌표, 종료 GPS Y 좌표
- Trip 운행 거리, 누적 운행 거리
- 평균 운행 속도, 최고 속도
- Trip 운행 시간, 장기 운행 유무
- 운행중 정지 건수, 운행중 정지 시간, 운행중 정비 비율, 운행중 주행 시간
- 재동 건수, 재동 시간
- 최고 RPM, 평균 RPM, 2000RPM 초과 시간, 2500RPM 초과 시간
- 공회전 건수, 공회전 시간
- 과속유무
- 20KM 초과 건수와 초과 시간
- 25KM 초과 건수와 초과 시간
- 30KM 초과 건수와 초과 시간
- 35KM 초과 건수와 초과 시간
- 40KM 초과 건수와 초과 시간
- 45KM 초과 건수와 초과 시간
- 50KM 초과 건수와 초과 시간
- 55KM 초과 건수와 초과 시간
- 60KM 초과 건수와 초과 시간
- 장기과속유무, 장기과속시간
- 급가속 건수, 급출발 건수, 금박속 건수, 급정지 건수
- 급좌회전 건수, 급우회전 건수, 급유턴 건수
- 급앞지르기 건수, 급진로변경 건수
- 중립기어 건수, 중립기어 시간, 운수회사 소재지 코드
1초 단위 위험운정 행동 데이터
- Key
- 자동차 등록 번호
- 운행일자, 운행시분초
- 운수회사 코드
- 자동차 등록번호
- 운수회사 소재지 코드
- 운행일자, 운행시분초
- GPS X, GPS Y
- 운전자코드
- 운행속도
- 과속유무
- 20KM 초과 여부와 초과 시간
- 40KM 초과 여부와 초과 시간
- 60KM 초과 여부와 초과 시간
- 장기과속유무, 장기과속시간
- 급가속 유무, 급출발 유무, 급감속 유무, 급정지 유무
- 급좌회전 유무, 급우회전 유무, 급유턴 유무
- 급앞지르기 유무, 급진로변경 유무
Modeling
주제 : 위험이 발생할 때 지역과 시간 그리고 운전 패턴 파악
데이터 : 위험운전행동 데이터 <- 운행 기록 데이터
분석 모델 : 그룹, 분류 등 검토 예정
- 위험운전행동 통계
- 연비 통계
- 위험운전 행동 분석
- 사고지점 중첩 분석
- 자동차 운행 정보 통계
- 위험운전 행동 통계
- 운행기록 분설 결과 화면
2021년 8월 17일 4차 미팅
데이터 포맷 공유 <- 임창현 부장
각자 분석 모델 제안 후 협의
임창현
해피바이러스
산사랑
- 위험 지역과 요일/시간
- 위험운전행동 데이터에서 통계 처리
- 위험 운전 알림 : 이상 탐지
- 종속 변수 : 위험 운전에서 자체 정의
- 초과 속도 * 시간
- ARIMA (Auto Regressive Integrated Moving Average)
- CNN (Convolutional Neural Network)
- RNN (Recurrent Neural Networks, 재귀신경망)
- LSTM (Long Short-Term Memory, 장단기 메모리)
- LSTM AE(Autoencoder)
- DeepAR : Amazon Sagemaker에서 제공
- 자기 회귀 순환 네트워크를 사용한 확률적 예측
- GAN (Generative Adversarial Network, 적대적 생성 신경망)
- HTM (Hierarchical Temporal Memory) : 예측 기반 이상 탐지 방법
- XGBoost
- 종속 변수 : 위험 운전에서 자체 정의
- 위험 지역과 요일/시간