데이터 크롤링
크롤링에 필요한 패키지 / 라이브러리 설치
install.packages("rvest")
install.packages("XML")
install.packages("httr")
install.packages("jsonlite")
install.packages("rtweet")
install.packages("urltools")
library(rvest)
library(httr)
library(jsonlite)
library(rtweet)
library(XML)
다음 뉴스 읽어오기
daum_html = read_html("https://entertain.v.daum.net/v/20220822115142033")
사용한 뉴스 :https://v.daum.net/v/20220822115142033
뉴스의 타이틀이 h3 class="tit_view"에 있음을 확인 !
title_node = html_nodes(daum_html, "h3.tit_view")
title = html_text(title_node)
title
이렇게 뉴스의 제목을 가져올 수 있다 !
추천 검색어 가져오기
다음에 실손보험을 검색한뒤 추천검색어 칸이 어디에 있는지 찾아온다.
" ul.list_keyword > li " 에 추천 검색어 리스트가 있음을 확인함 !
# 실손보험을 검색한 창 url
url="https://search.daum.net/search?w=tot&q=%EC%8B%A4%EC%86%90%EB%B3%B4%ED%97%98&DA=NPT"
daum_html = read_html(url)
# 추천검색어 리스트 가져오기
nodes <- html_nodes(daum_html, "ul.list_keyword > li")
text = html_text(nodes)
text
검색어를 잘 찾아온 모습 !
내가 찾고자 하는 정보가 어느 부분에 있는지 안다면, R을 활용하여 쉽게 가져올 수 있다.
'R > 강의복습' 카테고리의 다른 글
[22.08.24] 12일차 ( 신간 도서 정보 추출하기 / 홈페이지 이미지 가져오기 ) (0) | 2022.09.04 |
---|---|
[22.08.23] 11일차 데이터크롤링 ( 영화 평점 가져오기 ) (0) | 2022.09.03 |
[22.08.22] 10일차 (인터랙티브 그래프 / 시계열 그래프 / 산포도 / 빈도수그래프) (0) | 2022.09.03 |
[22.08.19] 9일차 지도시각화 (0) | 2022.08.21 |
[22.08.18] 8일차 (날짜 / 시간 관련 데이터) (0) | 2022.08.21 |