반응형

데이터 분석/R 데이터 처리 & 분석 34

[R] separate_longer_delim 함수 (구분자로 된 변수 처리하기)

separate_longer_delim 함수 (구분자로 된 변수 처리하기) 1. 구분자(콤마, 빈칸 등)로 구분된 데이터셋 아래 그림처럼 데이터셋에 구분자가 포함된 변수들이 있습니다. 이 데이터셋은 각각의 사람이 어떤 과일을 좋아하는지를 나타낸 것입니다. Q) 만약 성별에 따라 어떤 과일을 좋아하는지 빈도를 구하려면? table() 함수를 이용해서 빈도 수를 구할 수 있습니다. 하지만 이 상태에서는 table 함수를 쓰면.. 안됩니다. 왜냐하면 콤마를 포함해서 한 문자열로 인식하기 때문에 각각의 과일 구분이 어렵습니다. 이 형태가 각 과일과 성별에 대한 빈도표입니다. 빈도표를 만들기 위해 데이터셋을 long format으로 만들어주는 과정이 필요합니다. 이 작업을 일일히 하기 어렵습니다. 이 때 꽤 좋은..

[R] merge 함수를 이용한 조인 (데이터셋 결합)

R merge 함수로 조인하기 이전에 R을 이용한 Join 방법 내용을 포스팅을 했었는데요. 이번에는 R에 기본적으로 내장되어 있는 함수인 'merge'를 이용해서 해보려고 합니다. 1. merge 함수의 쓰임새 merge 함수는 다수의 데이터셋을 결합해야 하는 경우에 쓰입니다. 예를 들어, 1) 학생들의 시험 성적 데이터셋 2) 학생들의 신장, 몸무게 데이터셋 여기서 데이터셋을 한 번에 볼 수 있도록 결합하는 것이 목적입니다. 우선 아래 코드에 따라 데이터셋을 생성합니다. df1

[R] duplicated 함수 끝내기 (중복 데이터 확인하기)

R duplicatd 함수 1. duplicated 함수 duplicated 함수는 반복적으로 나타나는 요소를 보여주는 함수입니다. 함수의 결과 형태는 논리형 벡터(Logical vector)로 나타납니다. # 1~4의 반복요소 만들기 dup 위에서 TRUE로 반환된 숫자들이 나옴. dup[dup_logic] [1] 1 1 1 2 2 2 2 3 4 여기서 중복된 요소를 하나씩만 추출하려면 다음같이 합니다. duplicated(dup) [1] FALSE TRUE TRUE TRUE FALSE TRUE TRUE TRUE TRUE FALSE TRUE FALSE TRUE # 방법1. # 느낌표(!)를 붙이면 논리형 연산자들이 반대로 나오죠 # TRUE -> FALSE // FALSE->TRUE !duplicate..

[R] seq 함수 (숫자 연속으로 나열하기)

seq 함수(숫자 연속으로 나열하기) 1. seq 함수 seq 함수는 숫자를 연속적으로 생성하기 위한 것입니다. 시작번호와 끝번호를 지정하면 순차적으로 수가 나열되며 by 인자를 통해 간격 조정도 가능합니다. 아래는 seq 함수 사용을 위한 각 인자에 대한 설명입니다. seq( from = # 시작 번호 to = # 끝 번호 by = # 간격 length. out = # 결과값(벡터)의 길이 2. seq 함수 예시 from에 1을 지정하고 to에 5를 지정하면 1부터 5까지의 순열이 생성됩니다. 이 때 by를 생략하면 기본값으로 1이 인식됩니다. 만약 숫자 간격을 1 이 외의 수로 지정하고 싶다면 by 인자에 수를 따로 지정해야 합니다. length.out 인자는 결과값(벡터)의 길이를 지정합니다. 예를..

[R] rep 함수 (반복적으로 값 산출하기)

rep 함수 (반복적으로 값 산출하기) 숫자나 문자열을 반복적으로 산출하는 작업 시에는 rep 함수를 사용합니다. 1. rep 함수 2. rep 함수 예시(숫자형) 1) 3을 5회 반복 rep(x=3, times=5) [1] 3 3 3 3 3 2) 1~3을 4회 반복 rep(x=1:3, times=4) [1] 1 2 3 1 2 3 1 2 3 1 2 3 3) 1~3의 각 요소를 4회씩 반복 rep(x=1:3, each=4) [1] 1 1 1 1 2 2 2 2 3 3 3 3 4) 1~3의 각 요소를 4회씩 반복 & 전체를 3회 반복 rep(x=1:3, each=4, times=3) [1] 1 1 1 1 2 2 2 2 3 3 3 3 1 1 1 1 2 2 2 2 3 3 3 3 1 1 1 1 2 2 2 2 3 3..

[R] 작업 디렉토리에서 파일 찾기 및 변수 할당하기

작업 디렉토리에서 특정 문자열을 포함한 파일을 찾고 싶을 때가 있는데요. 이 때는 작업디렉토리에서 파일 이름을 먼저 불러와야 합니다. 아래 단계를 통해 간단하게 알 수 있는 방법이 있습니다. 1. getwd()로 작업 디렉토리 확인하기 작업 디렉토리는 사용자마다 다를 수 있습니다. getwd() 는 현재 작업 디렉토리로 지정된 주소를 확인합니다. 저는 "C:/love_R" 이라는 곳에 지정되어 있습니다. 2. dir()로 작업 디렉토리 파일 확인하기 dir() 함수는 작업 디렉토리 안에 있는 파일들을 확인할 수 있습니다. 이 때 "covid" 문자를 포함한 파일들만 보고 싶다면 어떻게 할까요? 3. grep 함수로 문자 찾기 dir() 로 화면에 보여지는 파일들은 문자형 벡터로 주어집니다. test_di..

[R] 엑셀 파일 불러오기와 저장하기 (xls, xlsx)

엑셀 파일 불러오기와 저장하기(xls, xlsx) R로 데이터 처리할 시에는 직접 데이터를 입력하는 것보다 외부 파일을 불러오는 경우가 훨씬 많습니다. 보통 데이터는 엑셀 형식이나 텍스트 파일 형식으로 많이 저장이 됩니다. 일단 파일을 불러와야 뭘 어떻게든 해볼 수 있기 때문에 꼭 알고 있어야 하는 내용입니다. 1. 엑셀 파일 불러오기 1.1. readxl 패키지 - read_excel readxl 패키지를 설치 후 read_excel 이라는 함수를 이용하면 손쉽게 파일을 불러올 수 있습니다. read_excel 함수는 확장자가 xlsx 또는 xls 인 엑셀 파일 형식을 불러옵니다. read_xlsx 및 read_xls 함수를 직접 이용해도 사용 방법은 동일합니다. 경로명 지정시에는 getwd() 함수를..

[R] 반복문 사용하기 (for, while, break, next)

[R] 반복문 사용하기 (for, while, break, next) 다른 프로그래밍 언어와 마찬가지로 R에서도 반복문을 사용할 수 있습니다. 문법 자체는 크게 다를 바 없기 때문에 기존에 프로그래밍 언어 경험이 있는 분들은 쉽게 쓸 수 있습니다. 1. for 반복문 1.1. 용법 # data의 값을 x에 할당한 후 문장 수행 for( x in data) { 수행문장 } 1.2. 예시 1~5까지의 수를 print함수를 이용하여 각각 결과를 찍어보겠습니다. 변수 x에 1부터 5까지 각각 할당하면서 print(x) 함수로 각 결과가 나옵니다(변수명은 어떤 걸 써도 상관없음!). # 1부터 5까지 print for(x in 1:5){ print(x) } [1] 1 [1] 2 [1] 3 [1] 4 [1] 5 #..

반응형