※ 공부하면서 새롭게 발견한 함수를 계속 추가할 예정
# 데이터프레임 관련 함수 ( 중요함 !! )
• head(x) : 데이터의 앞부분 6개 출력
• tail(x) : 데이터의 뒷부분 6개 출력
• str(x) 전체 필드들 요약 및 설명 / 데이터프레임의 구조를 출력
• View(x) : 데이터프레임 전체를 스프레드 시트와 같은 표 형태로 출력
• Summary(x) : 데이터프레임의 각 열의 통계량 출력
데이터가 숫자가 아닐 경우 : 데이터의 개수와 형식을 나타냄
데이터가 숫자일 경우 : 열의 최소값, 최대값, 평균, 중앙값, 4분위 값을 출력
• seq( ) : 순열을 만드는 함수 seq(초기값, 종료값, 증가분/length.out=개수지정)
• rep( ) : 반복생성 함수 rep(반복할 자료(벡터), 반복횟수)
# 집합 함수
• 차집합 : setdiff(x1,x2)
• 합집합 : union(x1,x2)
• 교집합 : intersect(x1,x2)
• 집합간비교 : setequal(x1,x2)
• sum(x) : 데이터의 합을 구하는 함수
• max(x) : 최대값을 구하는 함수
• min(x) : 최소값을 구하는 함수
• mean(x) : 평균을 구하는 함수 => 데이터가 왜곡되면 의미가없음.
• median(x) : 중간에 위치한 값을 구하는 함수
데이터가 왜곡되면, 평균이 의미가 없다. 그래서 데이터를 순서대로 늘어놓고 중간에 있는 값을 선택함.
데이터가 짝수개라면 ? 10 11 14 15 20 23 => 14+15/2=14.5
• var(x) : 분산을 구하는 함수 => 평균과 실제값 사이의 차이 / 각 데이터가 어느정도로 흩어져 있는지.
• sd(x) : 표준편차를 구하는 함수 => 분산에 루트 씌운 값.
표준편차가 크면, 집단 내의 값이 많이 흩어져있는것.
# 타입을 확인하는 명령어 : class
# 데이터 타입 변환 함수
• as.factor(객체): factor로 변환
• as.numeric(객체) : 숫자를 저장한 벡터로 변환
• as.character(객체) : 문자열을 저장한 벡터로 변환
• as.matrix(객체) : 행렬로 변환
• as.array(객체) : 배열로 변환
• as.data.frame(객체) : 데이터프레임으로 변환
# factor와 character 타입의 차이
- factor는 정해진 범위의 값만 입력이 가능하다. (기존 데이터만 추가가능)
• sample( ) : 랜덤 값 추출 함수
# replace = T / F : 중복 허용 / 불가
• set.seed( ) : 랜덤으로 뽑힌 값이 바뀌지 않고, 고정되게 만들어주는 함수 ( 랜덤값고정함수)
• length( ) : 변수 값의 개수 추출 함수
• table( ) : 빈도수를 추출하는 함수
• nchar( ) : 변수 값의 길이 추출 함수
• paste( ) : 문자열을 결합하는 함수
• select( ) : 컬럼을 선택하여 데이터 추출
# collapse : 데이터들을 하나로 합칠 때, 데이터 사이를 무엇으로 분리할지
# sep : 기존의 데이터와 추가되는 데이터 사이에 추가할 데이터 => 기존sep추가
• qplot() : 빈도수 그래프 함수
# 데이터 정렬 함수
- sort( ) : 함수안에 벡터를 넣어야함. 기본적으로 오름차순 정렬 / 결과가 벡터의 데이터 타입따라 나옴.
- order( ) : 벡터도, 데이터 프레임도 모두 가능. 해당 인덱스로 출력된다. / 결과가 숫자열 벡터로 나옴.
- decreasing = T : 내림차순 (F는 오름차순)
- arrange( ) : 데이터 정렬 ( %>%랑 같이 사용 )
• which( ) : 데이터에 대한 순서 번호를 반환함. = TRUE가 있는 순서를 반환.
• names( ) : 벡터의 값이 다양할 때, 그 값마다 각자 이름을 붙여줄 때 사용함.
벡터 값에 영향 X / 벡터 출력 시 벡터 값 위에 이름이 같이 출력됨.
• colnames(데이터프레임) <- c(a, b, c) : 컬럼명을 a, b, c로 바꾸는 함수
- 그냥 colnames(데이터프레임)만 쓰면 컬럼 이름 확인 가능
• rename(데이터프레임, 새컬럼명 = 기존 컬럼명) : 컬럼명을 바꾸는 함수
- dplry 라이브러리 설치 필수
• ls( ) : 자신이 생성한 변수들을 확인하는 함수
• rm( ) : 지정한 객체를 삭제하는 함수
• filter( ) : 한 열에서, 지정한 데이터만 추출하는 함수. %>%랑 같이쓴다.
- %>% : 출력하라는 명령어 ?
# ggplot 함수 사용법
• ggplot(데이터프레임, aes(x축 변수, y축 변수, colour=다른색으로 표시 하고 싶은 변수))
# apply
•apply( 벡터 or matrix, 방향, function) : 데이터의 각 행, 열에 대한 연산을 계산하는 함수
lapply(데이터, function) - 반환 타입 list
sapply(데이터, function) - 반환 타입 벡터 or matrix
# 열 추가 함수
• mutate( ) : 새로운 변수를 추가하는 함수
• summarize( ) : 열 기준 통계 구하기
mutate = 어떤 연산에 대한 학생들의 전체 데이터 값을 보여줌. ( 학생의 시험 총점의 평균 )
summarize = 전체 데이터에서 어떤 연산의 값을 보여줌 ( 클래스의 수학 평균 )
* group_by로 추가된 필드가 행, summarize로 추가된 필드가 열이 된다 !
# 데이터 정제 함수
• is.na( ) = 각 필드별로 데이터마다 NA면 T, 아니면 F를 데이터 프레임으로
• na.rm = NA를제거
- sum(data, na.rm=T) => data에서 결측지를 제거한 후 sum을 실행
• na.omit( ) = 결측치를 한번에 제거
# 문자열 관련 함수
sub(바꿀패턴,바뀔패턴,변수) : 처음 발견한 곳만 바꿔주는 함수
gsub(바꿀패턴,바뀔패턴,변수) : 전체에서 원하는 곳을 다 바꿔주는 함수
substr(변수, 시작, 끝) : 문자열에서 시작 위치와 끝 위치를 정하여 문자를 추출함
substring(데이터, 시작, 끝) : substr과 달리 시작 값만 입력해도 된다.
paste( ) : 문자열을 붙여 출력하는 함수
paste0( ) : 문자열을 공백없이 붙여 출력하는 함수
str_c (데이터, collapse="원하는문자") : 데이터를 원하는 문자로 나눌 수 있다.
strsplit(데이터, split="기준") : 데이터를 기준에 따라 나눠주는 함수
grep("원하는 문자열", 데이터) : 데이터에서 원하는 문자열이 포함된 인덱스의 위치를 알려주는 함수
grep("원하는 문자열", 데이터, value = T) : 원하는 문자열이 포함된 값을 알려줌
• tolower( ) : 전부 소문자로 바꿔주는 함수
• toupper( ) : 전부 대문자로 바꿔주는 함수