반응형

dplyr 3

[R데이터분석] R 특정 문자열을 포함한 변수 선택하기

변수명에서 특정 문자를 포함한 변수를 선택하기 위한 방법에 대해 알아보도록 하겠습니다. 크게 두 가지 방법이 있는데 names 와 grep 함수를 이용한 방법과 dplyr 패키지의 select 함수를 이용하는 방법입니다. 아래와 같은 iris 데이터가 있을 때 "Sepal" 을 포함한 변수를 선택하겠습니다. 1. grep(문자열패턴, 문자벡터, ...) grep함수는 문자벡터의 특정 문자열을 찾아 해당 위치의 인덱스를 반환합니다. value = TRUE 를 추가적인 인자로 입력하면 해당 값을 반환합니다. > char_test 첫번째와 네번째 위치에 있음 > grep('a',char_test) [1] 1 4 # 첫번째와 네번째 위치에 있는 'a' 와 'ab'를 반환 > grep('a',char_test,v..

[R데이터분석] dplyr 패키지를 활용한 데이터전처리(2) (group_by, summarise)

group_by 와 summarise 함수를 활용한다면 범주별로 요약통계량을 계산할 수 있습니다. 예를 들어 R 내장 데이터인 iris 데이터셋을 이용해보겠습니다. iris 데이터셋에는 Species 라는 범주형 변수와 꽃받침(Sepal) 의 길이와 너비, 꽃잎(Petal) 의 길이와 너비를 포함하고 있습니다. iris 데이터의 구조를 보기 위해 str(iris) 라고 써주면 다음과 같은 결과가 나옵니다. 5개의 변수에 150개의 관측치과 각 변수 유형이 나와있습니다. Species 변수 유형은 factor 이고 나머지는 숫자형 변수로 구성되어 있네요. 이 때 Species 별로 각 변수의 요약통계량을 계산할 수 있습니다. * 본격적으로 들어가기 전에 파이프라인(%>%) 에 대한 내용을 알아보겠습니다. ..

[R데이터분석] dplyr 패키지를 활용한 데이터전처리(1)

dplyr 패키지는 데이터전처리에 유용한 함수들이 많습니다. 대표적으로 쓰이는 함수는 select, filter, group_by, summarise, arrange 와 같은 함수들이 있습니다. dplyr에 쓰이는 함수들은 이름만 보아도 그 쓰임새를 추측할 수 있습니다. dplyr 패키지의 R문서에는 다음과 같은 목표로 제작되었다고 합니다. 오늘은 먼저 select와 filter 함수 내용을 정리하겠습니다. 예제를 통해 test1 이라는 데이터를 생성하여 활용 방법을 알아봅시다. test1

반응형