목록3-1/빅데이터 (6)
브래의 슬기로운 코딩 생활

데이터 전처리 결측값의 개념 결측값(missing value)은 데이터를 수집하고 저장하는 과정에서 저장할 값을 얻지 못하는 경우 발생 통계조사 응답자가 어떤 문항에 대해 응답을 안했다고 하면, 그 문항의 데이터값은결측값이 됨 데이터셋에 결측값이 섞여 있으면, 데이터 분석 시 여러 가지 문제를 야기 - 결측값의 처리 1: 결측값을 제거하거나 제외하고, 데이터를 분석 - 결측값의 처리 2: 결측값을 추정하여 적당한 값으로 치환한 후, 데이터를 분석 특이값의 개념 특이값(outlier) : 정상적이라고 생각되는 데이터의 분포 범위 밖에 위치하는 값들을 말하며, ‘이상치’라고도 부름 특이값은 입력 오류에 의해 발생하기도 하고, 일반인의 몸무게 자료에 씨름선수의 몸무게가 합쳐진 경우처럼 실제로 특이한 값일 수도..

자료의 특성에 따른 분류 #막대그래프 barplot(데이터셋, main='타이틀') #원그래프 pie(데이터셋, main='타이틀') 평균과 중앙값 연속형 자료는 관측값들이 크기를 가지기 때문에 범주형 자료에 비해 다양한 분석 방법이 존재 평균, 중앙값 : 전체 데이터를 대표할 수 있는 값 - 평균 : 자료의 값들을 모두 더한후 자료의 개수로 나눈 값 - 중앙값(median) : 자료의 값들을 크기순으로 일렬로 줄 세웠을 때, 가장 중앙에 위치하는 값 사분위수 사분위수(quatile)란 주어진 자료에 있는 값들을 크기순으로 나열했을 때 이것을 4등분하는 지점에 있는 값들을 의미 자료에 있는 값들을 4등분하면 등분점이 3개 생기는데, 앞에서부터 ‘제1사분위수(Q1)’, ‘제2사분위수(Q2)’, ‘제3사분위..

if-else문 조건문(conditional statement)에 따라 특정 명령을 실행을 하도록 하는 프로그래밍 명령문 조건에 따라 실행할 명령문을 달리해야 하는 경우에 사용 ifelse문 조건에 따라 둘 중 하나의 값 또는 변수를 선택할 때 사용 if-else문에서 발생할 수 있는 오류 else는 반드시 if문의 코드블록이 끝나는 부분에 있는 }와 같은 줄에 작성해야 함 for문 반복문(repetitive statement)은 정해진 동작을 반복적으로 수행할 때 사용하는 명령문 동일 명령문을 여러 번 반복해서 실행할 때 사용 while문 while문은 어떤 조건이 만족하는 동안 코드블록을 수행하고, 해당 조건이 거짓일 경우 반복을 종료하는 명령문 break와 next apply() 함수의 개념 반복 ..

행과 열에 지정한 이름을 이용하여 매트릭스값 추출하기 데이터셋의 기본 정보 확인 행별, 열별 합계와 평균 계산 행과 열의 방향 전환 조건에 맞는 행과 열의 값 추출 매트릭스와 데이터프레임의 자료구조 확인 파일 데이터 읽기 - 엑셀 파일에 테이블 형태의 데이터가 저장되어 있는 경우를 가정 - 엑셀 파일을 .csv 형태로 변환하여 저장 후 R에서 .csv 파일을 읽음 - 읽어온 파일은 데이터프레임 형태로 저장됨

기초이론 벡터에 적용 가능한 함수 벡터에 논리연산자 적용 리스트와 팩터 매트릭스의 개념 매트릭스 만들기 데이터프레임의 개념 매트릭스에 저장되는 모든 값들이 동일한 자료형인 것과는 달리 데이터프레임에는 서로 다른 자료형의 값들이 함께 저장 iris 데이터셋 R에서 제공하는 실습용 데이터셋 중의 하나로 데이터프레임으로 되어 있음

RStudio의 창 구성 편집(Script) 창 R 명령문(‘R 스크립트’ 라고도 한다.)들을 작성하고 실행하는 영역 콘솔(Console) 창 편집 창에서 R 명령문을 편집하고 실행 버튼을 클릭했을 때, 명령문의 실행 과정 및 결과를 표시하는 창 환경(Environment) 창 R 명령문이 실행하는 동안 만들어지는 각종 변수나 자료구조의 내용을 보여주는 영역 파일(Files) 창 도움말, 패키지 설치 및 조회, 그래프 실행 내용 조회 등 유용한 기능을 제공하는 창 RStudio 다루기 RStudio에서의 저장과 종료 - 메뉴에서 [File]-[Save] 또는 [File]-[Save As] - R 스크립트 파일의 확장자 이름은 일반적으로 ‘.R’을 붙임 패키지의 설치 - R에서는 데이터 분석을 위해서 매우..