반응형

데이터 분석/R 데이터 처리 & 분석 34

[R데이터분석] dplyr 패키지를 활용한 데이터전처리(3)(arrange,mutate)

이번에 소개할 함수는 arrange, mutate 함수입니다. arrange 함수는 데이터를 정렬할 때 쓰이며, mutate는 새로운 변수를 추가할 때 이용합니다. R 기본 내장 데이터인 mtcars 에 적용해보겠습니다. 이 데이터는 1974 년 Motor Trend US 잡지에서 발췌되었으며 연료 소비량과 자동차 디자인 및 성능에 관한 자동차의 10 가지 특징과 32 대의 자동차 (1973-74 모델)로 구성되어 있습니다. 이 데이터셋은 32개의 11개의 숫자형 변수로 이루어져 있습니다. 만약 연비 순으로 정렬하여 자동차의 리스트를 보고 싶다면 다음과 같이 입력합니다. mtcars %>% arrange(mpg) mpg 순으로 정렬을 하고나니 행별로 이름이 붙어있었던 게 숫자로 바뀌었습니다!! 이 문제를..

[R데이터분석] dplyr 패키지를 활용한 데이터전처리(2) (group_by, summarise)

group_by 와 summarise 함수를 활용한다면 범주별로 요약통계량을 계산할 수 있습니다. 예를 들어 R 내장 데이터인 iris 데이터셋을 이용해보겠습니다. iris 데이터셋에는 Species 라는 범주형 변수와 꽃받침(Sepal) 의 길이와 너비, 꽃잎(Petal) 의 길이와 너비를 포함하고 있습니다. iris 데이터의 구조를 보기 위해 str(iris) 라고 써주면 다음과 같은 결과가 나옵니다. 5개의 변수에 150개의 관측치과 각 변수 유형이 나와있습니다. Species 변수 유형은 factor 이고 나머지는 숫자형 변수로 구성되어 있네요. 이 때 Species 별로 각 변수의 요약통계량을 계산할 수 있습니다. * 본격적으로 들어가기 전에 파이프라인(%>%) 에 대한 내용을 알아보겠습니다. ..

[R데이터분석] dplyr 패키지를 활용한 데이터전처리(1)

dplyr 패키지는 데이터전처리에 유용한 함수들이 많습니다. 대표적으로 쓰이는 함수는 select, filter, group_by, summarise, arrange 와 같은 함수들이 있습니다. dplyr에 쓰이는 함수들은 이름만 보아도 그 쓰임새를 추측할 수 있습니다. dplyr 패키지의 R문서에는 다음과 같은 목표로 제작되었다고 합니다. 오늘은 먼저 select와 filter 함수 내용을 정리하겠습니다. 예제를 통해 test1 이라는 데이터를 생성하여 활용 방법을 알아봅시다. test1

[R데이터분석] factor함수 범주형 변수 다루기

[R데이터분석] 범주형 변수 다루기 (factor함수 활용) 이번 포스팅은 factor형 데이터 타입에 대해 자세히 알아보겠습니다. R의 factor형은 범주화된 변수의 종류를 나타내기 위해 사용합니다. 범주형 자료란 변수를 특정 기준으로 배타적으로 나눌 수 있는 자료입니다. 예를 들면 다음과 같은 자료입니다. 성별(남/여), 학점(A/B/C/D/…), 지역(서울시/경기도/충청도/강원도/…) R에서 범주형자료를 다룰 때는 문자형 자료와 잘 구별할 수 있어야 합니다. 미리 범주형인지 문자형인지 확인하고 적절하게 분석 목적에 맞게끔 변환시켜야 합니다. 이러한 과정들이 모두 데이터전처리의 일부입니다. factor 함수 형태는 다음과 같습니다. 여기서 예제를 하나 보겠습니다. 데이터에는 카페 별 커피 가격이 나..

[R 데이터분석] 조인(join) 을 이용하여 데이터 병합하기(inner join, full join, left join, right join)

join 을 활용한 데이터 병합하기 데이터 병합에 대한 내용을 알아보겠습니다. 이전에 cbind 함수를 통해 데이터 병합에 대한 내용을 다룬 적이 있었죠. cbind는 테이블과 테이블을 바로 옆에 붙이는 역할이었는데요. 데이터 병합 시에 cbind보다는 join 방법을 많이 씁니다. join은 키(key)를 기준으로 데이터를 병합하는 역할인데요. cbind는 키를 고려하지 않고 행의 수가 반드시 같아야 합니다. Join 을 알아보기 위해 아래의 예시를 보도록 하겠습니다. 위와 같이 각 테이블별로 이름이 있고 수학점수와 영어점수가 따로 나뉘어져 있습니다. 그런데 각 테이블을 병합하여 한 번에 보고 싶을 수도 있겠죠? 이 때 join 방법을 쓰는데 몇 가지 종류가 있습니다. inner join full ou..

[R 데이터분석] transform 함수 이용하기(새로운변수 생성)

[R 데이터분석] transform 함수(새로운 변수 생성) transform 함수는 새로운 데이터의 생성에 용이합니다. transform은 ‘변형시키다’ 라는 뜻입니다. 즉 원래 데이터에서 변형을 시켜서 새로운 정보를 얻을 수 있습니다. 예를 들어, 학생들이 중간고사를 보았는데 다음과 같이 수학점수가 있다고 해봅시다. 여기서 학생들의 수학점수에 10점씩 더해준 열을 추가해보겠습니다. test1

[R] subset 함수로 데이터 추출하기

subset 함수는 변수 선택 및 조건에 맞는 데이터 추출에 유용합니다. 따라서 데이터전처리시에 필수적으로 알아놓아야 하는 내용이기도 합니다. subset을 사전에 쳐보면 ’부분집합’이라고 합니다. subset함수를 사용하면 원래있던 데이터셋에서 ’추출’을 하기 때문에 부분집합이라는 개념이 됩니다. 수학적 정의로 접근하면 더 쉽습니다. “집합 B의 부분집합 A는, 모든 원소가 B에도 속하는 집합이다. 이런 관계를 주로 A ⊆ B라 표기한다. 예를 들어 집합 {1, 2}는 {1, 2, 3}의 부분집합이다.” 부분집합의 정의를 subset 함수에 적용하겠습니다. “원시 데이터(집합B)에서 추출한 데이터(집합A)는 모든 요소가 원시 데이터(집합B)에도 속하는 데이터이다.” 이 개념은 원시 데이터로부터 특정 조..

R 패키지 설치하기/불러오기

데이터 전처리에 대한 내용을 본격적으로 실습하기 전에 패키지를 설치하는 방법을 알아보도록 하겠습니다. 예를 들어 데이터 전처리에 탁월한 dplyr 패키지를 설치해보겠습니다. 설치하는 방법은 R 콘솔창에서 install.packages(“dplyr”) 을 입력하면 됩니다. 또는 상단바를 이용하는 방법이 있습니다. 아래 그림을 순차적으로 보면 메뉴에서 패키지 설치를 클릭합니다. 그러면 미러(mirror)를 선택하는 화면이 나오고 ‘Korea’ 를 찾아 선택합니다. 이제 패키지 종류들이 나오는데, dplyr 이라고 써진 패키지를 클릭합니다. 주의할 점은 설치만 하면 끝나는게 아니라 설치된 패키지를 불러와야 합니다. 만약 패키지를 불러오지 않으면 library(dplyr) 이라는 명령어를 입력하면 패키지를 불러..

R 데이터타입 소개

R 데이터타입 데이터타입에 대해 숙지하는 것은 R을 본격적으로 시작하기 전에 기초 및 기본이 되는 내용입니다. 길게 말고 간단명료하게 알아보도록 하겠습니다. R에는 다음과 같은 데이터타입이 존재합니다. 스칼라(Scala) 벡터(Vector) 데이터프레임(Dataframe) 리스트(List) 행렬(Matrix) 배열(Array) 1. 스칼라(Scala) 데이터 구성요소가 하나인 데이터타입 "c" # 문자 $ [1] "c" 1 # 숫자 $ [1] 1 2. 벡터(Vector) 스칼라가 모이면 벡터라고 부릅니다. 여러 개의 스칼라를 하나의 벡터로 만들기 위해서 c(스칼라, 스칼라, 스칼라, …) 라는 명령어를 사용합니다. "c" # 문자 $ [1] "c" 1 # 숫자 $ [1] 1 # 이렇게 하나씩 있는게 스칼..

반응형