
tidy::html_node() 함수는 HTML 노드의 정보를 추출하는 데 사용됩니다. 이 함수의 사용법은 다음과 같습니다.
- 첫 번째 인자는 HTML 문서 객체입니다.
- 두 번째 인자는 노드의 id, class, tag 이름을 지정하는 문자열입니다. id와 class는 # 기호로, tag 이름은 . 기호로 시작합니다. 예를 들어, id가 "my_id"인 노드는 #my_id로, class가 "my_class"인 노드는 .my_class로, 태그 이름이 "div"인 노드는 div로 지정합니다.
예를 들어, id가 "my_id"이고 class가 "my_class"인 노드를 추출하려면 다음과 같이 코드를 작성합니다.
#hostingforum.kr
r
library(tidyverse)
library(rvest)
url <- "https://www.example.com"
html <- read_html(url)
node <- tidy::html_node(html, "#my_id.my_class")
또는 태그 이름이 "div"인 노드를 추출하려면 다음과 같이 코드를 작성합니다.
#hostingforum.kr
r
node <- tidy::html_node(html, "div")
또한, tidy::html_node() 함수는 여러 노드를 추출할 수도 있습니다. 예를 들어, id가 "my_id"인 모든 노드를 추출하려면 다음과 같이 코드를 작성합니다.
#hostingforum.kr
r
nodes <- tidy::html_nodes(html, "#my_id")
2025-04-08 19:50