ADsP 17

[3과목] 3-2. R기초 (2) 매트릭스 & 데이터프레임

#2차원 데이터의 저장 [매트릭스/ 행렬] matrix: 전체의 데이터 타입이 동일한 구조여야 함. (숫자로만 or 문자로만) - 행과 열이 존재 - nrow 행의수 / ncol 열의수 = 지정을 통해서 행과 열의 갯수 설정 가능 - 근데 행열을 직접 만드는 경우는 거의 없이 데이터를 파일에서 불러옴 z m1 m1 [데이터프래임 data frame] - 숫자와 문자를 섞어서 저장 가능, 하지만 column 내에서는 동일한 타입이어야! -data.frame() 함수로 생성 ciry

ADsP/3과목 2022.09.18

[3과목] 3-1. 데이터분석 개요

1. 데이터 처리 1) 활용 - 데이터웨어하우스 (DW)나 데이터마트(DM)을 통해 분석 데이터를 가져온다. - 신규 시스템이나 DW에 포함되지 못한 경우, 기존 운영시스템 / 스테이징영역 / ODS에서 데이터를 가져와 DW의 내용과 결합하여 활용 가능하다 - 기존 운영시스템에 직접 접근하는 건 위험한 일이고, 스테이징 영역 데이터는 운영시스템 내용이 임시 저장된 것이기 때문에, 가장 이상적인 활용법은 클린징 영역인 'ODS'에서 데이터의 전처리 후 DW나 DM과 결합해 사용하는 것. 2) 최종 데이터 구조로의 가공 ① 데이터 마이닝 분류 : 분류값과 입력변수를 연관시켜 인구통계, 요약변수, 파생변수 등을 산출 ② 정형화된 패턴 처리 : 비정형데이터/ 소셜데이터는 정형화한 패턴으로 처리 필요 ⒜ 비정형 ..

ADsP/3과목 2022.09.15

2-2. 분석과제 발굴 방법론 (하향식, 상향식)

[분석과제 발굴 방법론] 1. 개요 - 분석 과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 수행할 수 있는 '과제 정의서 형태'로 도출됨 - 분석과제를 도출하기 위한 방식으로는 크게 하향식 접근방법 / 상향식 접근방법이 존재 - 최적의 의사결정은 두 접근 방식이 상호 보완관계에 있을 때 가능 대상 방법 최적화 통찰 솔루션 발견 TOP-DOWN 접근 (Problem Solving) Bottom-UP 접근 (Problem Creator) [하향식 접근방법] - 논리적인 단계별 접근법으로, 각 과정이 체계적으로 단계화되어 수행하는 방식 - 솔루션 도출에는 유용하나 새로운 문제 탐색에는 한계 존재 문제탐색 문제정의 해결방안탐색 타당성검토 1) 비즈니스모델기반 문제탐색 2) 분석기회 발..

ADsP/2과목 2022.09.12

2-1. 분석 기획& 분석방법론 (KDD, CRISP-DM, 빅데이터)

[분석 기획] 1. 분석기획 - 실제 분석을 수행하기에 앞서 '분석 과제 정의' 하고, 의도한 결과를 도출하고 관리할 수 있는 방안을 사전에 계획하는 것 - 데이터 사이언티스트는 '수학/통계지식' + ' 정보기술' + '비즈니스에 대한 이해' 가 필요 2. 분석 주제의 4가지 유형 : 분석의 대상(what)과 방법(how)에 따라 4가지로 나뉘어짐 대상 방법 최적화 통찰(인사이트) 솔루션 발견 3. 목표시점 별 분석 기획 방안 1) 과제 중심적 접근 방법: 당면한 분석 주제의 해결 2) 장기적인 마스터 플랜: 지속적인 분석 내재화 과제 중심적 방식 마스터플랜 방식 1차목표 스피드, 테스트 정확도, 효율적사용 과제 유형 quick, win long term view 접근 방식 problem solving ..

ADsP/2과목 2022.09.12

ADsp 1과목 요약 정리 (3)

1절/ 빅데이터 분석과 전략 인사이트 1. 빅데이터 열풍과 회의론 회의론이 나오고 있으나, 우리가 빅데이터 분석에서 찾을 수 있는 수많은 가치들을 제대로 발굴해 보기도 전에 그 활용 자체를 차단해 버릴 수 있다. 2. 빅데이터 회의론의 원인 및 진단 1) 투자 효과를 거두지 못했던 부정적 학습효과 - 과거의 고객관계관리CRM 2) 빅데이터 성공사례 중 기존 분석 프로젝트를 포함해 놓은 것이 많다. - 굳이 빅데이터가 필요 없는 경우, 국내 빅데이터 업체들의 과대포장 : 단순히 빅데이터에 포커스를 두지 말고, 분석을 통해 '가치를 만드는 것'에 집중해야 한다. 3. 빅데이터 분석, BIG이 핵심이 아니다. 데이터는 크기의 이슈가 아니라, 거기서 어떤 시각과 통찰을 얻을 수 있느냐의 문제가 중요함. 4. 일..

ADsP/1과목 2022.09.01

ADsp 1과목 요약 정리 (1)

1절. 데이터와 정보 1. 데이터의 정의와 특성 1) 데이터의 정의 - 과거의 관념적이고 추상적인 개념에서 > 기술적이고 사실적인 의미로 변화 - 데이터는 추론과 추정의 근거를 이루는 사실이다 (옥스퍼드 대사전) - 다른 객체와의 상호관계 속에서 가치를 갖는 것 2) 데이터의 특성 - 존재적 특성: 객관적 사실 (fact, raw material) - 당위적 특성 : 추론, 예측, 전망, 추정을 위한 근거 (basis) 2. 데이터의 유형 1) 정성적 데이터 - 언어, 문자등의 형태로 비정형데이터 - 주관적 내용이며 통계 분석이 어려움 2) 정량적 데이터 -수치, 도형, 기호등의 정형데이터 -객관적 내용이며 통계 분석이 용이함 3. 지식 경영의 핵심 이슈 - 데이터는 지식 경영의 핵심 이슈인 '암묵지'와..

ADsP/1과목 2022.08.28