| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 티아시아커리
- ajax호출
- 캄테크놀로지
- 빅스비
- 냉동식품
- csv db import
- Ajax
- 데이터센터화재
- 네이버도착보장
- 인수금융
- HBM
- 메모리반도체
- 피카드
- 물류
- 납품대금연동제
- 스파르타코딩클럽 #웹개발 #코딩
- 스마트싱스
- 밀키트
- 메이킹챌린지
- 삼성전자
- 현대제뉴인
- 현대건설기계
- 스파르타코딩클럽
- restapi
- O4O
- 펫토이
- 카카오데이터센터
- LX판토스
- 예대금리
- LPDDR 5X
- Today
- Total
We go high
2강 탐색적 자료분석 (EDA)의 시각화 본문
EDA란?
존 튜키
탐색적 자료분석(Exploratory Data Analysis)
데이터 특징과 내재하는 구조적 관계를 알아내기 위한 분석방법
데이터 스스로 말하도록 유도하는 분석법
비교) CDA: 기존 전통적 분석과정. 관측된 자료 형태로 효과의 재현성 평가하고 추정함. 신뢰구간의 추정이나 유의성 검정에 의한 분석

2. EDA의 4가지 주제
-저항성 Resistance : 손상된 데이터가 있어도 해석할 수 있어야함
자료의 일부가 기존과 현격히 다른 값으로 대체되었을 때, 영향 적게 받는 성질.
저항성 있는 통계 또는 통계적 방법은 데이터의 부분적 변동에 민감하게 반응하지 않음
-잔차의 해석 Residual : 잔차란 관찰값들이 주경향으로부터 얼마나 벗어났는지를 말해줌.
잔차를 구해서 데이터의 보통과 다른 특징을 찾아내야함
-자료의 재표현 Re expression : 새로운 루트, 제곱 등 바꿀 수 있음
데이터분석과 해석을 단순화할 수 있도록 원래 변수를 적당한 척도(로그변한, 제곱근변환, 역수변환)로 바꿈.
분포의 선형성, 분산의 안정성, 관련변수의 가법성, 분포의 대칭성 등 데이터 구조파악과 해석에 도움됨
-자료의 현시성 Grapic Representation : 자료의 그래프에 의한 표현. 자료 안에 숨어있는 정보를 시각적으로 나타내줌으로써 자료의 구조를 효율적으로 잘 파악하게 해줌.
3. 자료 그래프에 의한 표현
R에 의한 원그래프 작성
시각화의 목표: 데이터의 통계적 정보를 그림 형태로 나타내서 분포의 구성을 상대적으로 비교하는 데 유용


막대 그래프 barplot : 항목별 도수를 막대 상대적인 길이로 표현. 제일 높은 도수 항목 찾을 때 용이

'방통대 22.1학기 > 데이터시각화' 카테고리의 다른 글
| 6강 시계열의 시각화1 (0) | 2022.04.08 |
|---|---|
| 4강 5강 이변량 데이터의 시각화 (0) | 2022.04.06 |
| 3강 탐색적 자료분석 (EDA)의 시각화2 (0) | 2022.04.05 |
| 1강 데이터시각화란 무엇인가 (0) | 2022.03.28 |