R/강의복습

[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

peach_h 2022. 9. 3. 17:12
데이터 크롤링
크롤링에 필요한 패키지 /  라이브러리 설치
install.packages("rvest") 
install.packages("XML")
install.packages("httr")
install.packages("jsonlite")
install.packages("rtweet") 
install.packages("urltools")

library(rvest)
library(httr)
library(jsonlite)
library(rtweet)
library(XML)

 

다음 뉴스 읽어오기
daum_html = read_html("https://entertain.v.daum.net/v/20220822115142033")

사용한 뉴스 :https://v.daum.net/v/20220822115142033

뉴스의 타이틀이 h3 class="tit_view"에 있음을 확인 !

 

title_node = html_nodes(daum_html, "h3.tit_view")
title = html_text(title_node)
title

이렇게 뉴스의 제목을 가져올 수 있다 !

 

 

 

추천 검색어 가져오기

다음에 실손보험을 검색한뒤 추천검색어 칸이 어디에 있는지 찾아온다.

" ul.list_keyword > li "  에 추천 검색어 리스트가 있음을 확인함 !

 

# 실손보험을 검색한 창 url
url="https://search.daum.net/search?w=tot&q=%EC%8B%A4%EC%86%90%EB%B3%B4%ED%97%98&DA=NPT"
daum_html = read_html(url)

# 추천검색어 리스트 가져오기
nodes <- html_nodes(daum_html, "ul.list_keyword > li")
text = html_text(nodes)
text

검색어를 잘 찾아온 모습 !

내가 찾고자 하는 정보가 어느 부분에 있는지 안다면,  R을 활용하여 쉽게 가져올 수 있다.