ADsP/1과목

ADsp 1과목 요약 정리 (2)

RECORD WHO (레코드후) 2022. 8. 28. 21:26

[1절/ 빅데이터의 이해] 

 

1. 빅테이터의 정의

1) 관점에 따른 정의

① 좁은 범위의 정의: 데이터 자체의 '특성 변화'에 초점을 맞춘 3V 로 요약되는 내용

② 중간 범위의 정의 : 처리, 분석 기술적 변화까지 포함되는 정의

③ 넓은 범위의 정의 : 인재, 조직변화까지 포함한 정의 

 

**3V란 

ⓐ 양 Volume

- 데이터의 규모 측면에서 바라본 것 / 센싱데이터, 비정형데이터

- 맥킨지 정의: 이란적 데이터베이스로 저장, 관리할 수 있는 범위를 초과한 규모의 데이터를 의미

ⓑ 속도 Velocity 

- 데이터의 수집과 처리 측면 / 추출 및 분석 속도

- IDC 정의: 빅데이터는 대규모 데이터로부터 저렴한 비용으로 가치를 추출하고 초고속 수집, 발굴이 되도록 고안된 기술

ⓒ 다양성 Variety

- 데이터 유형과 소스 측면 / 정형, 비정형데이터 

 

2) 빅데이터 정의의 범주 및 효과

데이터 변화 (좁은의미)  기술 변화 (중간의미)  인재, 조직 변화 (넓은의미) 
3V :
양(규모), 다양성(형태), 속도  
데이터 처리, 저장, 분석 기술
클라우드 컴퓨팅 활용
데이터사이언티스트 같은 인재 필요
데이터 중심 조직 

 

2. 출현 배경과 변화

1) 출현 배경

① 산업계: 고객 데이터 축적 - 데이터에 숨어있는 가치를 발굴해 새로운 성장동력원으로서의 기술 확보

② 학계: 거대 데이터 활용 및 과학 확산 - 거대 데이터를 다루는 분야가 늘어나면서 기술 아키텍처 및 통계 도구 발전

③ 기술발전 : 관련 기술의 발전 - 인터넷 보급, 모바일 혁명, 클라우드 컴퓨팅 등

 

3. 빅데이터의 기능 (빅테이터에 거는 기대를 표현한 비유) 

산업혁명의 석탄과 철 : 제조업 뿐 아니라 서비스 분야의 생산성을 끌어올려 사회, 경제, 문화 전반에 변화를 가져올 것

21세기의 원유: 경제 성장에 필요한 정보를 제공해 산업 생산성을 향상시키고, 새로운 범주의 산업을 만들어낼 것

렌즈: 렌즈를 통해 현미경이 생물학 발전에 미친 영향만큼이나 데이터가 산업 발전에 영향을 미칠 것 (ex. 구글 Ngram Viwer) 

플랫폼: 공동 활용의 목적으로 구축된 구조물로써, 다양한 써드파티 비즈니스에 활용되어 플랫폼 역할을 할 것 (ex. 카카오톡, 페이스북 등) 

 

4. 빅데이터가 만들어 내는 본질적 변화 

① 사전 처리 -> 사후처리

② 표본조사 -> 전수조사

③ 질 -> 양

④ 인과관계 -> 상관관계 

 

[2절/ 빅데이터의 가치와 영향] 

 

1. 빅테이더 가치 산정이 어려운 이유

① 데이터 활용 방식: 특정 데이터를 언제 어디서 누가 사용할 지 알 수 없기에

② 새로운 가치 창출: 데이터가 '기존에 없던 가치'를 창출함에 따라 그 가치 측정이 어려움 

③ 분석 기술 발전 : 현재는 가치가 없는 데이터라도, 추후 분석 기법 발전 시 가치를 지닌 데이터가 될 수도 있음 

 

2. 빅데이터의 영향 

기업은 혁신, 경쟁력 제고, 생산성 향상

정부는 환경탐색, 상황분석, 미래 대응

개인은 목적에 따른 활용

-> 생활 전반의 스마트화

 

* 맥킨지가 언급한 빅데이터가 가치를 만들어내는 5가지 방식

- 투명성 제고로 연구개발 및 관리 효율성 제고

- 시뮬레이션을 통한 수요 포착 및 주요 변수 탐색으로 경쟁력 강화 

- 고객 세분화 및 맞춤 서비스 제공

- 알고리즘을 활용한 의사결정 보조 혹은 대체 

- 비즈니스 모델과 제품, 서비스의 혁신

 

3. 비즈니스 모델

1) 빅데이터를 활용한 기본 테크닉

① 연관 규칙 학습 

-변인들 간에 주목할 만한 상관관계가 있는지를 찾아내는 방법

-커피를 구매하는 사람이 탄산음료를 많이 마시는가? 

 

② 유형 분석

-문서 분류, 조직 그룹화 등 분류시 활용

-이 사용자는 어떤 특성을 가진 집단에 속하는가? 

 

③ 유전자 알고리즘

- 최적화가 필요한 문제의 해결책을 메커니즘을 통해 점진적으로 진화시켜 나가는 방법

- 최대의 시청률을 얻으려면 어떤 프로그램을 어떤 시간대에 방송해야 하는가? 

 

④ 기계학습

- 훈련 데이터로부터 학습한 알려진 특성을 활용해 예측하는 방법

- 기존의 시청 기록을 바탕으로 시청자가 현재 보유한 영화 중 어떤 것을 가장 보고 싶어 할까? 

 

⑤ 회귀분석

- 독립변수를 조작함에 따라 종속변수가 어떻게 변화하는지 보면서, 두 변인 간의 관계 파악할 때 활용

- 구매자의 나이가 구매 차량의 타입에 어떤 영향을 미치는가 

 

⑥ 감정분석

- 특정 주제에 대해 말하거나 글을 쓴 사람의 감정을 분석

- 새로운 환불 정책에 대한 고객평가는 어떤가? 

 

⑦ 소셜네트워크 분석

- 몇 촌의 관계인 지, 영향력 있는 사람 찾을 때 활용

- 고객들 간 관계망은 어떻게 구성되어 있는가? 

 

* 빅데이터가 등장하기 이전엔 정형데이터를 주료 이용 (1~5번)했으나 최근 sns 발달에 따라 비정형화된 데이터를 많이 이용하면서 6,7의 테크닉 등장

 

4. 위기 요인과 통제 방안

1) 빅데이터 시대의 위기 요인

① 사생활 침해

- 개인정보가 포함된 데이터를 목적 외에 활용할 경우 사생활 침해 및 사회 경제적 위협으로 변형 가능

- 여행 사실을 트위터에 올린 걸 보고 강도가 집을 노리는 사례 (익명화 기술 발전의 필요) 

 

② 책임 원칙 훼손

- 분석대상이 되는 사람들이 예측 알고리즘의 희생양이 될 가능성 존재. 민주주의 국가에서는 '잠재적 위험'이 아닌 '명확한 결과에 대한 책임'을 붇기에 이에 따른 원리 훼손 가능성이 존재

- 범죄 예측 프로그램에 의해 범행을 저지르기 전에 체포한다면? 

 

③ 데이터 오용

- 일어난 일에 대한 데이터에 의존하기에, 이를 바탕으로 미래를 예측하는 것은 항상 맞을 수는 없음 

 

2) 위기 요인에 따른 통제 방안 

① 동의에서 책임으로

- 개인정보 '제공자의 동의' 에서 -> 개인정보 '사용자의 책임' 

* 참고:  소비자 프라이버시 보호 3대 권고사항 

-기업은 상품 개발 단게에서부터 소비자 프라이버시 보호 방안을 적용

-기업은 소비자에게 공유정보 선택 옵션을 제공

-소비자에게 수집된 정보 내용 공개 및 접근권을 부여 

 

② 결과 기반 책임 원칙 고수

-예측 자료에 의한 불이익을 당할 가능성을 최소화하는 장치 마련이 필요

- 잘못된 예측 알고리즘을 통한 판단을 근거로 불이익을 줄 수 없으며, 이에 따른 피해 최소화 장치 마련 필요

 

③ 알고리즘 접근 허용

- 데이터 오용의 위기요소에 대한 대응책으로 '알고리즘에 대한 접근권'을 제공하여 예측 알고리즘의 부당함을 반증할 수 있는 방법을 명시해 공개할 것을 주문

- 불이익을 당한 사람들을 대변할 전문가 (알고리즈미스트)가 필요하게 됨 

 

[5절/ 미래의 빅데이터] 

1. 빅데이터 활용의 3요소 

① 데이터: 모든 것의 데이터화

② 기술: 진화하는 알고리즘, 인공지능의 출현

③ 인력: 데이터 사이언티스트, 알고리즈미스트 - 이들의 역할을 통해 다각적 분석을 통한 인사이트 도출이 중요

'ADsP > 1과목' 카테고리의 다른 글

ADsp 1과목 요약 정리 (3)  (0) 2022.09.01
ADsp 1과목 요약 정리 (1)  (0) 2022.08.28