데이터마트 2

[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리

1. Data Exploration - 데이터 분석을 위해 변수들의 상태를 파악 - 중요 함수들 ① head(데이터셋) / tail(데이터셋) : 시작/마지막 6개의 record만 조회하는 함수 ② summary(데이터셋) ⓐ 수치형 변수 : 최대값, 최소값, 평균, 1사분위수 등 ⓑ 명목형 변수: 명목값, 데이터 개수 2. 변수 중요도 - 변수 선택법과 유사한 개념으로, 모형을 생성하여 사용된 변수의 중요도를 살피는 과정 - 종류 : klaR 패키지 - 특정 변수가 주어졌을 때 클래스가 어떻게 분류되는지에 대한 '에러율'을 계산, 그래픽으로 결과 보여줌 - greedy. wilks() : 세분화를 위한 stepwise forward 변수선택을 위한 패키지. 종속변수에 가장 영향을 주는 변수를 'wilk..

ADsP/3과목 2022.09.21

[3과목] 3-3. 데이터마트

1. R reshape을 이용한 데이터 마트 개발 1) 데이터마트 - DW(전사적인 통합베이스) 와 사용자 사이의 중간층에 위치함 - 하나의 주제나 부서 중심으로 특화되어 있는 데이터 - DM의 데이터는 대부분 DW에서 복제되며 얘네가 DM에서 가장 중요한 데이터 - 하지만 자체적으로 수집될 수도 있고, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축 - CRM관련 업무 중에서는 고객DM구축이 핵심임 -DM을 어떻게 구축하는가에 따라 데이터 분석 효과가 크게 차이남 2) 변수 - 받아온 데이터를 처리과정을 통해 분석에 적절하게 활용할 수 있는 자료로 변환해야 -이렇게 만들어지는 변수는 요약변수와 파생변수로 나뉨 ① 요약변수 -DM에서 가장 기본적인 변수로 '총구매금액' '금액' '횟수' '구매여..

ADsP/3과목 2022.09.19