R/강의복습

[22.08.09] 2일차 강의

peach_h 2022. 8. 13. 22:03

R 언어는 변수 선언을 필요로 하지 않는다 !

plot(x.1)의 결과

plot( )는 빈도수를 나타내는 qplot과 달리 산포도를 나타낸다.

산포도는 데어터의 흩어짐 정도를 그래프로 표현한 것이다.

-> factor 타입일 때는 막대 그래프가 되는 듯 하다?

 

# 문제 1. 변수 V1에 1~100까지 정수 값 입력하기

# 문제 2. 변수 V2에 1~100까지 짝수만

# 문제 3. 변수 V3에 1~100까지 홀수만

# 문제 4. 변수 v4에 160~200 까지의 값 중 10개만 추출해서 저장

#matrix  만들기 (문제1)
# 10 10 10 10 10
# 20 20 20 20 20 
# 30 30 30 30 30 
# 40 40 40 40 40 

먼저 들어갈 데이터를 생성한 후, 4행(nrow=4), 행 방향(byrow=T)으로 배열을 만들었다. 

 

#matrix  만들기 (문제2)
# 10 20 30 40 50
# 10 20 30 40 50 
# 10 20 30 40 50 
# 10 20 30 40 50 

# R의 내장 변수들
  • LETTERS : 대문자 알파벳
  • letters : 소문자 알파벳
  • month.abb : 달 이름 줄인 버전 "jan"
  • month.name : 달 이름 풀버전 "January"
  • pi : 3.14.... 

** ls () : 생성한 변수 목록 확인하기

# 내장 변수 활용하기

# 데이터 뒤집기 : rev( ) 함수

# sort와 order로 데이터 정렬하기

sort( ) 는 벡터만 넣기 가능 ! 

☆★order(x1)을 했을 때 숫자가 뒤죽박죽 정렬된 이유 => order는 결과가 해당 "index"로 나오기 때문 !

11 15 13 = 1 2 3 을 의미한다!

 

# 문제 1. x1의 요소 값이 10~15에 해당하는 데이터의 개수

변수 값의 개수를 추출하는 length 함수와, 행의 개수를 반환하는 nrow 함수를 사용하면 가능하다.

 

# 벡터 값에 이름 부여하기

names 함수로 벡터에 이름을 설정할 수 있다.

자체 변수인 LETTERS와 length 함수를 이용하여 15개의 알파벳을 x1의 값에 부여해줌.

x1을 4번부터 9번까지 추출했을 때, 각 순서마다 이름이 부여 된 모습 !

 

# 강수량 분석하기

rainfall 변수에 각 달별로 걍수량 데이터를 추가함.

which 함수를 이용해 몇번 째 데이터가 100이상인지 알아낼 수 있음.

내장 변수를 활용하여, 어느 달에 강수량이 100이상이였는지 추출할 수 있다!

 

# 월과 강수량 같이 나오게 하기

sep=""이 무슨 기능을 하는지 궁금해서 없앤 버전도 해봤다. sep=""이 없으면 자동으로 띄운채로 붙는 것 같다.

1. 1 ~ 12까지 각 12개에 "월"단어를 붙여서 1 ~ 12월을 x1에 만들어준다.

2. names 함수를 이용해 rainfall 벡터에 x1으로 각각 이름을 붙여준다.

 

# 인구수 분석하기

(1) 변수 이름을 popular 로 생성

(2) 인구가 가장 많은 / 적은 도시명

(3) 둘간의 편차, 전체 평균 구하기

서울 글씨는 왜 뜨는 걸까 ??

(4) 평균 이상 도시 개수

인덱스 [ ] 를 사용해서 내맘대로 평균이상 도시를 뽑아봤다

(5) 인구가 많은 도시 3위까지

sort 함수로 정렬해서 찾을 수 있음.

# 문자열 합치기

paste 함수과 collapse, sep을 활용. sep과 collapse를 같이 쓰면 collapse만 적용된다.

# 데이터 타입 바꾸기

원래 문자열이였던 data1을 factor 타입으로 바꿔줌.
plot(fdata1)

 

# mpg 데이터 활용하기

차 종류만큼 색이 나오게 그래프를 설정함. geom_point() 를 추가하면 점 그래프가 되는 것 같다.

# boxplot

qplot(data=mpg, x=drv, y=hwy, geom="boxplot")

boxplot이 중요한 이유 : ... 에 해당하는 값들은 너무 지나치게 높거나 작은 값이다. 이러한 값들은 쓰지 않는다.

box의 모습을 보고 데이터를 파악할 수 있다.

 

# 시험점수 활용하기

영어 점수와 수학 점수 벡터를 합쳐서 중간시험 데이터 프레임을 생성
데이터 프레임에 class 컬럼 추가하기

(1) 1반 / 2반 학생들의 영어 수학 평균 구하기

# exam 자료 활용하기

자료를 가져오기 전에, 패키지 설치 및 라이브러리, 경로 설정은 필수다.
자료를 가져온 후엔 항상 head 함수로 미리 봐보자.

(1) 시험 총점 / 평균 구하기

(2) 전교 123등 찾기

(3) 반별 123등 찾기

점수를 반별로 분류한 다음, 반별 총점 total을 추가해준다.
그 후 order 함수를 이용해 정렬하여 123등을 출력한다.

 

 

 

※ 사용한 교재 : 쉽게 배우는 R 데이터 분석 / 저자 : 김영우