개발자 Q&A

개발하다 막혔다면? 여기서 질문하세요! 초보부터 고수까지, 함께 고민하고 해결하는 공간입니다. 누구나 자유롭게 질문하고 답변을 남겨보세요!

2025.06.03 08:54

DOMDocument::loadHTML로 HTML문서 가져오기

목록
  • 코딩테스트러버 4일 전 2025.06.03 08:54
  • 12
    1
제가 DOMDocument::loadHTML 함수를 사용하여 HTML문서를 가져오려고 합니다.
하지만 HTML문서에 특정 태그가 여러번 반복되어 있는 경우, loadHTML 함수로 가져온 HTML 문서의 구조가 잘못된 경우가 있습니다.
이러한 경우가 발생하는 이유를 알고 싶습니다.

그리고 loadHTML로 가져온 HTML문서의 구조가 잘못된 경우, 이를 어떻게 수정할 수 있는지 알려주시면 감사하겠습니다.

    댓글목록

    profile_image
    나우호스팅  4일 전



    DOMDocument::loadHTML 함수는 HTML 문서를 파싱하는 과정에서 태그의 중복이 발생할 수 있는 문제를 해결하기 위해, 태그의 중복을 허용하지 않도록 설계되어 있습니다.

    이러한 문제는 HTML 문서에 동일한 태그가 여러 번 반복되어 있는 경우에 발생합니다. 예를 들어, 다음과 같은 HTML 문서가 있다고 가정해 보겠습니다.

    #hostingforum.kr
    html
    
    
    
      
    문자열 1
    
      
    문자열 2
    
      
    문자열 3
    
    
    
    


    이 HTML 문서를 DOMDocument::loadHTML 함수로 파싱하면, 다음과 같은 구조가 생성됩니다.

    #hostingforum.kr
    php
    
    $doc = new DOMDocument();
    
    $doc->loadHTML($html);
    
    echo $doc->saveHTML();
    
    


    이 경우, HTML 문서의 구조는 다음과 같습니다.

    #hostingforum.kr
    html
    
    
    
      
    문자열 1
    
      
    문자열 2
    
      
    문자열 3
    
    
    
    


    하지만, 만약 HTML 문서에 동일한 태그가 여러 번 반복되어 있는 경우, 다음과 같은 HTML 문서가 있다고 가정해 보겠습니다.

    #hostingforum.kr
    html
    
    
    
      
    문자열 1
    
      
    문자열 2
    
      
    
        
    문자열 3
    
      
    
      
    문자열 4
    
    
    
    


    이 HTML 문서를 DOMDocument::loadHTML 함수로 파싱하면, 다음과 같은 구조가 생성됩니다.

    #hostingforum.kr
    php
    
    $doc = new DOMDocument();
    
    $doc->loadHTML($html);
    
    echo $doc->saveHTML();
    
    


    이 경우, HTML 문서의 구조는 다음과 같습니다.

    #hostingforum.kr
    html
    
    
    
      
    문자열 1
    
      
    문자열 2
    
      
    
        
    문자열 3
    
      
    
      
    문자열 4
    
    
    
    


    이 구조에서, 두 번째 div 태그는 첫 번째 div 태그의 자식이 아닌, 두 번째 p 태그의 형제로 생성됩니다.

    이러한 문제를 해결하기 위해, DOMDocument::loadHTML 함수를 사용할 때, libxml_use_internal_errors() 함수를 사용하여 내부 오류를 숨기고, libxml_get_errors() 함수를 사용하여 오류를 확인할 수 있습니다.

    #hostingforum.kr
    php
    
    libxml_use_internal_errors(true);
    
    $doc = new DOMDocument();
    
    $doc->loadHTML($html);
    
    libxml_clear_errors();
    
    


    또한, HTML 문서의 구조를 수정하기 위해, DOMDocument::saveHTML() 함수를 사용하여 HTML 문서를 다시 생성할 수 있습니다.

    #hostingforum.kr
    php
    
    $doc = new DOMDocument();
    
    $doc->loadHTML($html);
    
    $doc->formatOutput = true;
    
    echo $doc->saveHTML();
    
    


    이러한 방법을 사용하여, HTML 문서의 구조를 수정할 수 있습니다.

    2025-06-03 08:55

  • 개발자 Q&A 포인트 정책
      글쓰기
      50P
      댓글
      10P
  • 전체 26,038건 / 4 페이지

검색

게시물 검색