본문 바로가기
R

웹 크롤링

by seung_nari 2022. 1. 6.

영화 리뷰 들고오기 !!

url_base <- "https://movie.naver.com/movie/point/af/list.naver?st=mcode&sword=97816&target=after&page="

all.reviews <- c()

for(page in 1:10){ // 1~10 페이지까지
  url <- paste(url_base, page, sep='', Encoding="euc-kr")
  htxt <- read_html(url) 
  table <- html_nodes(htxt, ".list_netizen") 
  content <- html_nodes(table, ".title")
  content
  reviews <- html_text(content) 
  reviews

  index.start <- regexpr("\t별점 -", reviews) // 저장할때 필요 없는 내용 삭제
  index.end   <- regexpr("\t신고", reviews) // 저장할때 필요 없는 내용 삭제
  reviews <- substring(reviews, index.start, index.end)
  
  reviews <- substring(reviews, 16)
  
  reviews <- gsub("[|\r|\n|\t]", "", reviews) // 저장할때 필요 없는 내용 삭제
  reviews
  
  if(length(reviews) == 0){break} 
  all.reviews <- c (all.reviews, reviews)
  print(page)
}

write.table(all.reviews, 'totalm.txt')

 

댓글