반응형

분류 전체보기 51

[R데이터분석] factor함수 범주형 변수 다루기

[R데이터분석] 범주형 변수 다루기 (factor함수 활용) 이번 포스팅은 factor형 데이터 타입에 대해 자세히 알아보겠습니다. R의 factor형은 범주화된 변수의 종류를 나타내기 위해 사용합니다. 범주형 자료란 변수를 특정 기준으로 배타적으로 나눌 수 있는 자료입니다. 예를 들면 다음과 같은 자료입니다. 성별(남/여), 학점(A/B/C/D/…), 지역(서울시/경기도/충청도/강원도/…) R에서 범주형자료를 다룰 때는 문자형 자료와 잘 구별할 수 있어야 합니다. 미리 범주형인지 문자형인지 확인하고 적절하게 분석 목적에 맞게끔 변환시켜야 합니다. 이러한 과정들이 모두 데이터전처리의 일부입니다. factor 함수 형태는 다음과 같습니다. 여기서 예제를 하나 보겠습니다. 데이터에는 카페 별 커피 가격이 나..

[R 데이터분석] 조인(join) 을 이용하여 데이터 병합하기(inner join, full join, left join, right join)

join 을 활용한 데이터 병합하기 데이터 병합에 대한 내용을 알아보겠습니다. 이전에 cbind 함수를 통해 데이터 병합에 대한 내용을 다룬 적이 있었죠. cbind는 테이블과 테이블을 바로 옆에 붙이는 역할이었는데요. 데이터 병합 시에 cbind보다는 join 방법을 많이 씁니다. join은 키(key)를 기준으로 데이터를 병합하는 역할인데요. cbind는 키를 고려하지 않고 행의 수가 반드시 같아야 합니다. Join 을 알아보기 위해 아래의 예시를 보도록 하겠습니다. 위와 같이 각 테이블별로 이름이 있고 수학점수와 영어점수가 따로 나뉘어져 있습니다. 그런데 각 테이블을 병합하여 한 번에 보고 싶을 수도 있겠죠? 이 때 join 방법을 쓰는데 몇 가지 종류가 있습니다. inner join full ou..

[R 데이터분석] transform 함수 이용하기(새로운변수 생성)

[R 데이터분석] transform 함수(새로운 변수 생성) transform 함수는 새로운 데이터의 생성에 용이합니다. transform은 ‘변형시키다’ 라는 뜻입니다. 즉 원래 데이터에서 변형을 시켜서 새로운 정보를 얻을 수 있습니다. 예를 들어, 학생들이 중간고사를 보았는데 다음과 같이 수학점수가 있다고 해봅시다. 여기서 학생들의 수학점수에 10점씩 더해준 열을 추가해보겠습니다. test1

[R] subset 함수로 데이터 추출하기

subset 함수는 변수 선택 및 조건에 맞는 데이터 추출에 유용합니다. 따라서 데이터전처리시에 필수적으로 알아놓아야 하는 내용이기도 합니다. subset을 사전에 쳐보면 ’부분집합’이라고 합니다. subset함수를 사용하면 원래있던 데이터셋에서 ’추출’을 하기 때문에 부분집합이라는 개념이 됩니다. 수학적 정의로 접근하면 더 쉽습니다. “집합 B의 부분집합 A는, 모든 원소가 B에도 속하는 집합이다. 이런 관계를 주로 A ⊆ B라 표기한다. 예를 들어 집합 {1, 2}는 {1, 2, 3}의 부분집합이다.” 부분집합의 정의를 subset 함수에 적용하겠습니다. “원시 데이터(집합B)에서 추출한 데이터(집합A)는 모든 요소가 원시 데이터(집합B)에도 속하는 데이터이다.” 이 개념은 원시 데이터로부터 특정 조..

R 패키지 설치하기/불러오기

데이터 전처리에 대한 내용을 본격적으로 실습하기 전에 패키지를 설치하는 방법을 알아보도록 하겠습니다. 예를 들어 데이터 전처리에 탁월한 dplyr 패키지를 설치해보겠습니다. 설치하는 방법은 R 콘솔창에서 install.packages(“dplyr”) 을 입력하면 됩니다. 또는 상단바를 이용하는 방법이 있습니다. 아래 그림을 순차적으로 보면 메뉴에서 패키지 설치를 클릭합니다. 그러면 미러(mirror)를 선택하는 화면이 나오고 ‘Korea’ 를 찾아 선택합니다. 이제 패키지 종류들이 나오는데, dplyr 이라고 써진 패키지를 클릭합니다. 주의할 점은 설치만 하면 끝나는게 아니라 설치된 패키지를 불러와야 합니다. 만약 패키지를 불러오지 않으면 library(dplyr) 이라는 명령어를 입력하면 패키지를 불러..

R 데이터타입 소개

R 데이터타입 데이터타입에 대해 숙지하는 것은 R을 본격적으로 시작하기 전에 기초 및 기본이 되는 내용입니다. 길게 말고 간단명료하게 알아보도록 하겠습니다. R에는 다음과 같은 데이터타입이 존재합니다. 스칼라(Scala) 벡터(Vector) 데이터프레임(Dataframe) 리스트(List) 행렬(Matrix) 배열(Array) 1. 스칼라(Scala) 데이터 구성요소가 하나인 데이터타입 "c" # 문자 $ [1] "c" 1 # 숫자 $ [1] 1 2. 벡터(Vector) 스칼라가 모이면 벡터라고 부릅니다. 여러 개의 스칼라를 하나의 벡터로 만들기 위해서 c(스칼라, 스칼라, 스칼라, …) 라는 명령어를 사용합니다. "c" # 문자 $ [1] "c" 1 # 숫자 $ [1] 1 # 이렇게 하나씩 있는게 스칼..

R 데이터프레임(data.frame)의 모든 것(행추가,열추가,삭제)

R 데이터프레임(data.frame)의 모든 것(행추가,열추가) 이번에는 R 데이터프레임에 대해 알아볼 것인데요. 데이터프레임은 R에서 가장 많이 쓰고 중요한 데이터 구조입니다. 지난 포스팅에서 데이터프레임에 대해 간단하게 다루었는데, 이번 글은 데이터프레임만을 다루는 주제로 정했습니다. 1. 데이터프레임의 생성 데이터프레임을 생성하기 위해서는 data.frame() 이라는 함수를 쓰게 됩니다. 생성방법: data.frame(벡터,벡터,벡터...) 벡터 생성과 관련된 포스팅은 jobmanager1.tistory.com/71 을 참고해주세요. [R] 벡터 생성과 인덱싱(Indexing) 및 추출 R 사용자라면 벡터(Vector)의 개념을 잘 이해하고 있는 것이 필수적입니다. R에서 벡터란 하나의 타입으로 ..

R 데이터 불러오기/파일 읽기

R 파일 읽기(xls,xlsx,csv) 이번 포스팅은 데이터를 읽는 방법에 대해 알아보겠습니다. 보통 데이터분석에서 많이 쓰는 데이터는 엑셀파일이나 csv 파일을 불러오는 일이죠. 물론 그 외 다양한 확장자를 가진 데이터를 불러올 수 있지만 가장 기본적이고 자주 쓰는 데이터는 위와 같다고 할 수 있을 것 같습니다. 1. 엑셀문서(xlsx,xls) 읽기 R에서 엑셀파일을 불러오기 위해서는 readxl 이라는 패키지를 활용하는 것이 쉽습니다. 그 전에 패키지를 설치할 것인데요. “readxl” 이라는 패키지를 설치하도록 하겠습니다. 패키지 설치는 install.packages(‘패키지명’) 을 입력하면 됩니다. install.packages(‘readxl’) library(readxl) # library(패..

R 데이터타입2 (문자,숫자,범주,날짜형)

R 데이터타입2 지난 포스팅에서는 R의 데이터 타입에 대해 알아보았습니다. 정확히 말하면 사실 ‘데이터 구조’ 타입에 대한 것들이고, 이번 주제는 변수의 타입에 대한 내용입니다. 1. 문자형 문자형 변수 타입은 문자로 구성된 데이터를 말합니다. 문자형으로 만들어주기 위해서는 따옴표(" ")를 사용하면 됩니다. "문자실습1" [1] "문자실습1" "문자실습2" [1] "문자실습2" 2. 숫자형 숫자형은 사칙연산이 가능한 변수 타입입니다. 2 라는 숫자를 따옴표(" ") 안에 넣으면 문자타입이므로 숫자라는 개념이 아님을 주의합니다. "2" # 문자 [1] "2" 2 # 숫자 [1] 2 "2" + 3 #계산 불가 Error in "2" + 3: 이항연산자에 수치가 아닌 인수입니다 3. 범주형 범주형은 특정 기..

반응형