We go high

2강 탐색적 자료분석 (EDA)의 시각화 본문

방통대 22.1학기/데이터시각화

2강 탐색적 자료분석 (EDA)의 시각화

Joe_HD 2022. 4. 3. 21:47

EDA란?

존 튜키

탐색적 자료분석(Exploratory Data Analysis)

데이터 특징과 내재하는 구조적 관계를 알아내기 위한 분석방법

데이터 스스로 말하도록 유도하는 분석법

 

비교) CDA: 기존 전통적 분석과정. 관측된 자료 형태로 효과의 재현성 평가하고 추정함. 신뢰구간의 추정이나 유의성 검정에 의한 분석

2. EDA의 4가지 주제

-저항성 Resistance : 손상된 데이터가 있어도 해석할 수 있어야함

자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때, 영향 적게 받는 성질.

저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음

 

-잔차의 해석 Residual : 잔차란 관찰값들이 주경향으로부터 얼마나 벗어났는지를 말해줌. 

잔차를 구해서 데이터의 보통과 다른 특징을 찾아내야함

 

-자료의 재표현 Re expression : 새로운 루트, 제곱 등 바꿀 수 있음

데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그변한, 제곱근변환, 역수변환)로 바꿈.

분포의 선형성, 분산의 안정성, 관련변수의 가법성, 분포의 대칭성 등 데이터 구조파악과 해석에 도움됨

 

-자료의 현시성 Grapic Representation : 자료의 그래프에 의한 표현. 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 잘 파악하게 해줌. 

 

 

3. 자료 그래프에 의한 표현

R에 의한 원그래프 작성

시각화의 목표: 데이터의 통계적 정보를 그림 형태로 나타내서 분포의 구성을 상대적으로 비교하는 데 유용

 

막대 그래프 barplot : 항목별 도수를 막대 상대적인 길이로 표현. 제일 높은 도수 항목 찾을 때 용이

barplot