Notice
Recent Posts
Recent Comments
Link
«   2024/07   »
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
Archives
Today
Total
관리 메뉴

브래의 슬기로운 코딩 생활

빅데이터 6주차 정리 - 데이터 전처리 본문

3-1/빅데이터

빅데이터 6주차 정리 - 데이터 전처리

김브래 2024. 4. 5. 22:24

데이터 전처리


결측값의 개념

결측값(missing value)은 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생

 

통계조사 응답자가 어떤 문항에 대해 응답을 안했다고 하면, 그 문항의 데이터값은결측값이 됨

 

데이터셋에 결측값이 섞여 있으면, 데이터 분석 시 여러 가지 문제를 야기

 

- 결측값의 처리 1: 결측값을 제거하거나 제외하고, 데이터를 분석
- 결측값의 처리 2: 결측값을 추정하여 적당한 값으로 치환한 후, 데이터를 분석

특이값의 개념

 

특이값(outlier) : 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값들을 말하며, ‘이상치’라고도 부름

 

특이값은 입력 오류에 의해 발생하기도 하고,

일반인의 몸무게 자료에 씨름선수의 몸무게가 합쳐진 경우처럼 실제로 특이한 값일 수도 있음

 

제조 공정에서 불량인 제품을 선별하거나 은행거래 시스템에서 사기거래를 탐지할 때 사용하기도 함

 

데이터 분석에서는 특이값을 포함한 채 평균 등을 계산하면 전체 데이터의 양상을 파악하는 데 

왜곡을 가져올 수 있으므로 분석할 때 특이값을 제외하는 경우가 많음

 

샘플링(sampling): 통계용어로, 주어진 값들이 있을 때 그중에서 임의의 개수의 값들을 추출하는 작업

 

데이터 집계
2차원 데이터는 데이터 그룹에 대해서 합계나 평균을 계산해야 하는 일이 많음

이와 같은 작업을 집계(aggregation)라고 함

 

R에서는 aggregate() 함수를 통해서 사용 가능

 

데이터 병합

 

병합(merge) : 분리된 데이터 파일을 공통 열을 기준으로 하나로 합치는 작업