개발자 Q&A

개발하다 막혔다면? 여기서 질문하세요! 초보부터 고수까지, 함께 고민하고 해결하는 공간입니다. 누구나 자유롭게 질문하고 답변을 남겨보세요!

2025.04.08 19:49

tidy::html 관련 질문

목록
  • 화이트해커연구가 5일 전 2025.04.08 19:49
  • 6
    1
저는 tidy::html를 사용하여 웹페이지를 파싱하고 데이터를 추출하려고 합니다. 하지만, html 노드에 대한 정보를 추출하는 tidy::html_node() 함수에 대해 이해가 잘 안 가는데요.

이 함수는 html 노드의 정보를 추출하는 데 사용되지만, 어떤 파라미터를 사용해야 하는지 잘 모르겠습니다. tidy::html_node() 함수의 사용법을 알려주시면 정말 감사하겠습니다.

예를 들어, html 노드의 id, class, tag 이름을 추출하는 방법은 어떻게 되나요? 아래 예시 코드를 보겠습니다.

r

library(tidyverse)

library(rvest)



url <- "https://www.example.com"

html <- read_html(url)



# 이 부분에서 문제가 발생합니다.

node <- tidy::html_node(html, "원하는 id", "원하는 class")



위 코드에서 "원하는 id"와 "원하는 class"를 어떻게 지정해야 하는지 알려주시면 감사하겠습니다.

    댓글목록

    profile_image
    나우호스팅  5일 전



    tidy::html_node() 함수는 HTML 노드의 정보를 추출하는 데 사용됩니다. 이 함수의 사용법은 다음과 같습니다.

    - 첫 번째 인자는 HTML 문서 객체입니다.
    - 두 번째 인자는 노드의 id, class, tag 이름을 지정하는 문자열입니다. id와 class는 # 기호로, tag 이름은 . 기호로 시작합니다. 예를 들어, id가 "my_id"인 노드는 #my_id로, class가 "my_class"인 노드는 .my_class로, 태그 이름이 "div"인 노드는 div로 지정합니다.

    예를 들어, id가 "my_id"이고 class가 "my_class"인 노드를 추출하려면 다음과 같이 코드를 작성합니다.

    #hostingforum.kr
    r
    
    library(tidyverse)
    
    library(rvest)
    
    
    
    url <- "https://www.example.com"
    
    html <- read_html(url)
    
    
    
    node <- tidy::html_node(html, "#my_id.my_class")
    
    


    또는 태그 이름이 "div"인 노드를 추출하려면 다음과 같이 코드를 작성합니다.

    #hostingforum.kr
    r
    
    node <- tidy::html_node(html, "div")
    
    


    또한, tidy::html_node() 함수는 여러 노드를 추출할 수도 있습니다. 예를 들어, id가 "my_id"인 모든 노드를 추출하려면 다음과 같이 코드를 작성합니다.

    #hostingforum.kr
    r
    
    nodes <- tidy::html_nodes(html, "#my_id")
    
    

    2025-04-08 19:50

  • 개발자 Q&A 포인트 정책
      글쓰기
      50P
      댓글
      10P
  • 전체 11,255건 / 74 페이지

검색

게시물 검색