[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

R/강의복습

[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

peach_h 2022. 9. 3. 17:12

데이터 크롤링

크롤링에 필요한 패키지 / 라이브러리 설치

install.packages("rvest") 
install.packages("XML")
install.packages("httr")
install.packages("jsonlite")
install.packages("rtweet") 
install.packages("urltools")

library(rvest)
library(httr)
library(jsonlite)
library(rtweet)
library(XML)

다음 뉴스 읽어오기

daum_html = read_html("https://entertain.v.daum.net/v/20220822115142033")

사용한 뉴스 :https://v.daum.net/v/20220822115142033

뉴스의 타이틀이 h3 class="tit_view"에 있음을 확인 !

title_node = html_nodes(daum_html, "h3.tit_view")
title = html_text(title_node)
title

이렇게 뉴스의 제목을 가져올 수 있다 !

추천 검색어 가져오기

다음에 실손보험을 검색한뒤 추천검색어 칸이 어디에 있는지 찾아온다.

" ul.list_keyword > li " 에 추천 검색어 리스트가 있음을 확인함 !

# 실손보험을 검색한 창 url
url="https://search.daum.net/search?w=tot&q=%EC%8B%A4%EC%86%90%EB%B3%B4%ED%97%98&DA=NPT"
daum_html = read_html(url)

# 추천검색어 리스트 가져오기
nodes <- html_nodes(daum_html, "ul.list_keyword > li")
text = html_text(nodes)
text

검색어를 잘 찾아온 모습 !

내가 찾고자 하는 정보가 어느 부분에 있는지 안다면, R을 활용하여 쉽게 가져올 수 있다.

저작자표시 비영리 변경금지

'R > 강의복습' 카테고리의 다른 글

[22.08.24] 12일차 ( 신간 도서 정보 추출하기 / 홈페이지 이미지 가져오기 ) (0)	2022.09.04
[22.08.23] 11일차 데이터크롤링 ( 영화 평점 가져오기 ) (0)	2022.09.03
[22.08.22] 10일차 (인터랙티브 그래프 / 시계열 그래프 / 산포도 / 빈도수그래프) (0)	2022.09.03
[22.08.19] 9일차 지도시각화 (0)	2022.08.21
[22.08.18] 8일차 (날짜 / 시간 관련 데이터) (0)	2022.08.21

현재글[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

일렉치는 취준생

[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

'R > 강의복습' 카테고리의 다른 글

'R/강의복습'의 다른글

티스토리툴바

[22.08.22] 10일차 (데이터 크롤링 / 뉴스 크롤링 )

'R > 강의복습' 카테고리의 다른 글

'R/강의복습'의 다른글

관련글

티스토리툴바