ADsP/3과목

[3과목] 3-3. 데이터마트

RECORD WHO (레코드후) 2022. 9. 19. 23:53

1. R reshape을 이용한 데이터 마트 개발

 

1) 데이터마트

- DW(전사적인 통합베이스) 와 사용자 사이의 중간층에 위치함

- 하나의 주제나 부서 중심으로 특화되어 있는 데이터

- DM의 데이터는 대부분 DW에서 복제되며 얘네가 DM에서 가장 중요한 데이터

- 하지만 자체적으로 수집될 수도 있고, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축

- CRM관련 업무 중에서는 고객DM구축이 핵심임

-DM을 어떻게 구축하는가에 따라 데이터 분석 효과가 크게 차이남

 

2) 변수

- 받아온 데이터를 처리과정을 통해 분석에 적절하게 활용할 수 있는 자료로 변환해야 

-이렇게 만들어지는 변수는 요약변수와 파생변수로 나뉨

① 요약변수

-DM에서 가장 기본적인 변수로 '총구매금액' '금액' '횟수' '구매여부' 등 사칙연산을 통해 만들어내는 데이터

-합계나 횟수 같은 간단한 구조여서 자동화하여 상황에 맞게 사용 가능

- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음

기간별 구매금액, 횟수 고객의 구매 패턴을 볼 수 있는 변수
위클리쇼퍼 구매 시기를 통해 고객 특성을 추정
상품별 구매금액, 횟수 고객 라이프 스테이지, 라이프 스타일 등의 이해에 도움
상품별 구매순서 고객 이해와 해석력 증가
유통 채널별 구매금액 온오프라인 사용 고객에게 모두 사용 가능
단어빈도 텍스트 자료에서 단어 출현 빈도 데이터화해서 사용
초기 행동변수 고객 가입, 첫거래 초기 1개월간 거래 패턴에 대한 변수
트렌드변수 추이값 나타내는 변수
결측값과 이상값 처리 무리해서 처리하려 하면 위험하기에, 데이터 내용 파악하여 처리 필요
연속형 변수의 구간화  연령/비용 등 연속형 변수를 구간화 하는 과정이 필요

 

② 파생변수

- 사용자의 지식, 노하우 등으로 만들어낸 맞춤화된 정보를 얻기위한 데이터

- 의미가 부여된 변수로 매우 주관적일 수 있어 논리적 타당성을 갖춘 개발이 필요

- 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용됨

근무시간 구매자수 근무시간대에 거래가 발생하는 비율 산출하여 활용
주 구매 매장변수 고객의 주거래 매장을 예측하여 적절한 분석에 활용
주 활동지역 변수 고객 정보나 거래내용을 통해 주 활동지역을 예측하여 분석에 활용
주 구매상품 변수 상품 추천하는데 활용 (1순위 상품 구매하고 2순위 상품 구매 안한 고객에게 추천)
구매상품 다양성 변수 고객의 상품, 브랜드 구매 성향 파악해서 변수로 변환
선호하는 가격대 고객이 많이 투자하는 상품군이 무엇인지

 

3) reshape 활용

- r프로그램에서 제공하는 패키지

-2개의 핵심함수: melt() cast()

-변수를 조합해 변수명을 만들고 변수들을 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 DM 구성

 melt함수

-원데이터 형태로 만드는 함수로 쉽게 적당한 형태로 녹이는 함수라고 생각하기

melt(data, id=...)

> melt(airquality, id=c("Month", "DAY"), na.rm=T)

②  cast함수

-데이터를 원하는 형태로 계산 또는 변형시켜주는 함수 

cast(data, formula=...~variable, fun) 

> cast(aqm, Day~Month~variable) 

 

2. sqldf를 이용한 데이터 분석

- sqldf는 r에서 sql의 명령어를 사용 가능하게 해주는 패키지

-SAS에서 proc sal과 같은 역할을 하는 패키지 

 

*sql과 r의 명령어 비교 

sql 명령어 r에서 사용하는 명령어
select*from[data frame] sqldf("select*from[data frame]")
select*from[data frame] numrows 10 sqldf("select*from[data frame] limit = 10")
select*from[data frame] where [col] = 'char%' saldf("select*from[data frame] where [col] like 'char%' ")

 

3. plyr을 이용한 데이터 분석

- plyr은 apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지 

- 대표적으로 ddply 함수가 있음

 

4. 데이터 테이블

- R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나

- 데이터를 탐색, 연산, 병합하는데 매우 유용

- 특정 column을 key 값으로 색인을 지정한 후 데이터를 처리함

- 데이터프레임과의 비교 

빠른 그루핑과, ordering, 짧은 문장 지원 측면에서 df보다 유용

② df 방식보다 월등히 빠른 속도