R
웹 크롤링
seung_nari
2022. 1. 6. 17:01
영화 리뷰 들고오기 !!
url_base <- "https://movie.naver.com/movie/point/af/list.naver?st=mcode&sword=97816&target=after&page="
all.reviews <- c()
for(page in 1:10){ // 1~10 페이지까지
url <- paste(url_base, page, sep='', Encoding="euc-kr")
htxt <- read_html(url)
table <- html_nodes(htxt, ".list_netizen")
content <- html_nodes(table, ".title")
content
reviews <- html_text(content)
reviews
index.start <- regexpr("\t별점 -", reviews) // 저장할때 필요 없는 내용 삭제
index.end <- regexpr("\t신고", reviews) // 저장할때 필요 없는 내용 삭제
reviews <- substring(reviews, index.start, index.end)
reviews <- substring(reviews, 16)
reviews <- gsub("[|\r|\n|\t]", "", reviews) // 저장할때 필요 없는 내용 삭제
reviews
if(length(reviews) == 0){break}
all.reviews <- c (all.reviews, reviews)
print(page)
}
write.table(all.reviews, 'totalm.txt')