R/기본이론

R 기본 함수

peach_h 2022. 8. 13. 17:26

※ 공부하면서 새롭게 발견한 함수를 계속 추가할 예정

 

 

# 데이터프레임 관련 함수 ( 중요함 !! )

• head(x) : 데이터의 앞부분 6개 출력
• tail(x) : 데이터의 뒷부분 6개 출력
• str(x) 전체 필드들 요약 및 설명 / 데이터프레임의 구조를 출력

• View(x) : 데이터프레임 전체를 스프레드 시트와 같은 표 형태로 출력

• Summary(x) : 데이터프레임의 각 열의 통계량 출력

데이터가 숫자가 아닐 경우 : 데이터의 개수와 형식을 나타냄

데이터가 숫자일 경우 : 열의 최소값, 최대값, 평균, 중앙값, 4분위 값을 출력

 

 

•  seq( ) : 순열을 만드는 함수 seq(초기값, 종료값, 증가분/length.out=개수지정)

 

• rep( ) : 반복생성 함수 rep(반복할 자료(벡터), 반복횟수)

 

 

# 집합 함수

• 차집합 : setdiff(x1,x2)
• 합집합 : union(x1,x2)
• 교집합 : intersect(x1,x2)
• 집합간비교 : setequal(x1,x2)

 

 

• sum(x) : 데이터의 합을 구하는 함수
• max(x) : 최대값을 구하는 함수
• min(x) : 최소값을 구하는 함수
• mean(x) : 평균을 구하는 함수 => 데이터가 왜곡되면 의미가없음.
• median(x)  : 중간에 위치한 값을 구하는 함수

 데이터가 왜곡되면, 평균이 의미가 없다. 그래서 데이터를 순서대로 늘어놓고 중간에 있는 값을 선택함.

 데이터가 짝수개라면 ? 10 11 14 15 20 23  => 14+15/2=14.5

• var(x) : 분산을 구하는 함수 => 평균과 실제값 사이의 차이 / 각 데이터가 어느정도로 흩어져 있는지.
• sd(x)  : 표준편차를 구하는 함수 => 분산에 루트 씌운 값.

표준편차가 크면, 집단 내의 값이 많이 흩어져있는것.

 

 

 

# 타입을 확인하는 명령어 : class

 

 

# 데이터 타입 변환 함수

• as.factor(객체): factor로 변환
• as.numeric(객체) : 숫자를 저장한 벡터로 변환
• as.character(객체) : 문자열을 저장한 벡터로 변환
• as.matrix(객체) : 행렬로 변환
• as.array(객체) : 배열로 변환
• as.data.frame(객체) : 데이터프레임으로 변환

 

 

# factor와 character 타입의 차이

 - factor는 정해진 범위의 값만 입력이 가능하다. (기존 데이터만 추가가능)

 

 

• sample( ) : 랜덤 값 추출 함수

# replace = T / F : 중복 허용 / 불가

# 실행할 때 마다 다르게 나옴 !

• set.seed( ) : 랜덤으로 뽑힌 값이 바뀌지 않고, 고정되게 만들어주는 함수 ( 랜덤값고정함수)

 

• length( ) : 변수 값의 개수 추출 함수

• table( ) : 빈도수를 추출하는 함수

• nchar( ) : 변수 값의 길이 추출 함수

• paste( ) : 문자열을 결합하는 함수

• select( ) : 컬럼을 선택하여 데이터 추출

# collapse : 데이터들을 하나로 합칠 때, 데이터 사이를 무엇으로 분리할지

# sep : 기존의 데이터와 추가되는 데이터 사이에 추가할 데이터 => 기존sep추가

 

• qplot() : 빈도수 그래프 함수

결과 그래프

 

# 데이터 정렬 함수

  • sort( ) : 함수안에 벡터를 넣어야함. 기본적으로 오름차순 정렬 / 결과가 벡터의 데이터 타입따라 나옴.
  • order( ) : 벡터도, 데이터 프레임도 모두 가능. 해당 인덱스로 출력된다. / 결과가 숫자열 벡터로 나옴.
  • decreasing = T : 내림차순 (F는 오름차순)
  • arrange( ) : 데이터 정렬 ( %>%랑 같이 사용 )

 

• which( ) : 데이터에 대한 순서 번호를 반환함. = TRUE가 있는 순서를 반환.

names( ) : 벡터의 값이 다양할 때, 그 값마다 각자 이름을 붙여줄 때 사용함. 

벡터 값에 영향 X / 벡터 출력 시 벡터 값 위에 이름이 같이 출력됨.

colnames(데이터프레임) <- c(a, b, c) : 컬럼명을 a, b, c로 바꾸는 함수 

- 그냥 colnames(데이터프레임)만 쓰면 컬럼 이름 확인 가능

• rename(데이터프레임, 새컬럼명 = 기존 컬럼명) : 컬럼명을 바꾸는 함수 

- dplry 라이브러리 설치 필수

• ls( ) : 자신이 생성한 변수들을 확인하는 함수

• rm( ) : 지정한 객체를 삭제하는 함수

 

• filter( ) : 한 열에서, 지정한 데이터만 추출하는 함수. %>%랑 같이쓴다.

- %>% : 출력하라는 명령어 ?

 

# ggplot 함수 사용법

ggplot(데이터프레임, aes(x축 변수, y축 변수, colour=다른색으로 표시 하고 싶은 변수))

 

# apply

•apply( 벡터 or matrix, 방향, function) : 데이터의 각 행, 열에 대한 연산을 계산하는 함수 

lapply(데이터, function) - 반환 타입 list

sapply(데이터, function) - 반환 타입 벡터 or matrix

 

# 열 추가 함수

• mutate( ) : 새로운 변수를 추가하는 함수 

• summarize( ) : 열 기준 통계 구하기

mutate = 어떤 연산에 대한 학생들의 전체 데이터 값을 보여줌. ( 학생의 시험 총점의 평균 ) 

summarize = 전체 데이터에서 어떤 연산의 값을 보여줌 ( 클래스의 수학 평균 )

 

* group_by로 추가된 필드가 행, summarize로 추가된 필드가 열이 된다 ! 

 

# 데이터 정제 함수

•  is.na( ) = 각 필드별로 데이터마다 NA면 T, 아니면 F를 데이터 프레임으로
•  na.rm = NA를제거

 - sum(data, na.rm=T) => data에서 결측지를 제거한 후 sum을 실행

• na.omit( ) = 결측치를 한번에 제거

 

# 문자열 관련 함수
sub(바꿀패턴,바뀔패턴,변수) : 처음 발견한 곳만 바꿔주는 함수
gsub(바꿀패턴,바뀔패턴,변수) : 전체에서 원하는 곳을 다 바꿔주는 함수
substr(변수, 시작, 끝) : 문자열에서 시작 위치와 끝 위치를 정하여 문자를 추출함
substring(데이터, 시작, 끝) : substr과 달리 시작 값만 입력해도 된다.
paste( ) : 문자열을 붙여 출력하는 함수
paste0( ) : 문자열을 공백없이 붙여 출력하는 함수
str_c (데이터, collapse="원하는문자") : 데이터를 원하는 문자로 나눌 수 있다.
strsplit(데이터, split="기준") : 데이터를 기준에 따라 나눠주는 함수 
grep("원하는 문자열", 데이터) : 데이터에서 원하는 문자열이 포함된 인덱스의 위치를 알려주는 함수
grep("원하는 문자열", 데이터, value = T) : 원하는 문자열이 포함된 값을 알려줌

• tolower( ) : 전부 소문자로 바꿔주는 함수

• toupper( ) : 전부 대문자로 바꿔주는 함수

'R > 기본이론' 카테고리의 다른 글

R 연산자  (0) 2022.08.13
R의 데이터타입  (0) 2022.08.13