1. R reshape을 이용한 데이터 마트 개발
1) 데이터마트
- DW(전사적인 통합베이스) 와 사용자 사이의 중간층에 위치함
- 하나의 주제나 부서 중심으로 특화되어 있는 데이터
- DM의 데이터는 대부분 DW에서 복제되며 얘네가 DM에서 가장 중요한 데이터
- 하지만 자체적으로 수집될 수도 있고, 관계형 데이터베이스나 다차원 데이터베이스를 이용하여 구축
- CRM관련 업무 중에서는 고객DM구축이 핵심임
-DM을 어떻게 구축하는가에 따라 데이터 분석 효과가 크게 차이남
2) 변수
- 받아온 데이터를 처리과정을 통해 분석에 적절하게 활용할 수 있는 자료로 변환해야
-이렇게 만들어지는 변수는 요약변수와 파생변수로 나뉨
① 요약변수
-DM에서 가장 기본적인 변수로 '총구매금액' '금액' '횟수' '구매여부' 등 사칙연산을 통해 만들어내는 데이터
-합계나 횟수 같은 간단한 구조여서 자동화하여 상황에 맞게 사용 가능
- 많은 모델을 공통으로 사용될 수 있어 재활용성이 높음
기간별 구매금액, 횟수 | 고객의 구매 패턴을 볼 수 있는 변수 |
위클리쇼퍼 | 구매 시기를 통해 고객 특성을 추정 |
상품별 구매금액, 횟수 | 고객 라이프 스테이지, 라이프 스타일 등의 이해에 도움 |
상품별 구매순서 | 고객 이해와 해석력 증가 |
유통 채널별 구매금액 | 온오프라인 사용 고객에게 모두 사용 가능 |
단어빈도 | 텍스트 자료에서 단어 출현 빈도 데이터화해서 사용 |
초기 행동변수 | 고객 가입, 첫거래 초기 1개월간 거래 패턴에 대한 변수 |
트렌드변수 | 추이값 나타내는 변수 |
결측값과 이상값 처리 | 무리해서 처리하려 하면 위험하기에, 데이터 내용 파악하여 처리 필요 |
연속형 변수의 구간화 | 연령/비용 등 연속형 변수를 구간화 하는 과정이 필요 |
② 파생변수
- 사용자의 지식, 노하우 등으로 만들어낸 맞춤화된 정보를 얻기위한 데이터
- 의미가 부여된 변수로 매우 주관적일 수 있어 논리적 타당성을 갖춘 개발이 필요
- 세분화, 고객행동 예측, 캠페인 반응 예측에 매우 잘 활용됨
근무시간 구매자수 | 근무시간대에 거래가 발생하는 비율 산출하여 활용 |
주 구매 매장변수 | 고객의 주거래 매장을 예측하여 적절한 분석에 활용 |
주 활동지역 변수 | 고객 정보나 거래내용을 통해 주 활동지역을 예측하여 분석에 활용 |
주 구매상품 변수 | 상품 추천하는데 활용 (1순위 상품 구매하고 2순위 상품 구매 안한 고객에게 추천) |
구매상품 다양성 변수 | 고객의 상품, 브랜드 구매 성향 파악해서 변수로 변환 |
선호하는 가격대 | 고객이 많이 투자하는 상품군이 무엇인지 |
3) reshape 활용
- r프로그램에서 제공하는 패키지
-2개의 핵심함수: melt() cast()
-변수를 조합해 변수명을 만들고 변수들을 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 DM 구성
① melt함수
-원데이터 형태로 만드는 함수로 쉽게 적당한 형태로 녹이는 함수라고 생각하기
melt(data, id=...)
> melt(airquality, id=c("Month", "DAY"), na.rm=T) |
② cast함수
-데이터를 원하는 형태로 계산 또는 변형시켜주는 함수
cast(data, formula=...~variable, fun)
> cast(aqm, Day~Month~variable) |
2. sqldf를 이용한 데이터 분석
- sqldf는 r에서 sql의 명령어를 사용 가능하게 해주는 패키지
-SAS에서 proc sal과 같은 역할을 하는 패키지
*sql과 r의 명령어 비교
sql 명령어 | r에서 사용하는 명령어 |
select*from[data frame] | sqldf("select*from[data frame]") |
select*from[data frame] numrows 10 | sqldf("select*from[data frame] limit = 10") |
select*from[data frame] where [col] = 'char%' | saldf("select*from[data frame] where [col] like 'char%' ") |
3. plyr을 이용한 데이터 분석
- plyr은 apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
- 대표적으로 ddply 함수가 있음
4. 데이터 테이블
- R에서 가장 많이 사용하는 데이터 핸들링 패키지 중 하나
- 데이터를 탐색, 연산, 병합하는데 매우 유용
- 특정 column을 key 값으로 색인을 지정한 후 데이터를 처리함
- 데이터프레임과의 비교
① 빠른 그루핑과, ordering, 짧은 문장 지원 측면에서 df보다 유용
② df 방식보다 월등히 빠른 속도
'ADsP > 3과목' 카테고리의 다른 글
[3과목] 3-4. 통계분석 (1)통계분석 이해 (1) | 2022.09.25 |
---|---|
[3과목] 3-3.데이터 마트 (2) 데이터 가공&관리 (0) | 2022.09.21 |
[3과목] 3-2. R기초 (2) 매트릭스 & 데이터프레임 (0) | 2022.09.18 |
[3과목] 3-2. R 기초 (1) 변수& 벡터 (0) | 2022.09.17 |
[3과목] 3-1. 데이터분석 개요 (0) | 2022.09.15 |