파이썬으로 HTML 파싱하기

2021. 4. 28. 01:47 Python/Python 프로그래밍

웹페이지는 HTML로 작성이 되어있고,  HTML은 element와 attribute로 구성되어 있다.

 

HTML에서 ‘id가 foo인 요소에 포함되어 있는 텍스트를 가져와’라는 규칙으로 필요한 정보를 추출할 수 있다.

하지만 실제로 제대로 된 형태를 갖추지 못했기 때문에 HTML의 요소를 tree 형태로 변환해서 쉽게 접근이 가능하게 해주는 BeautifulSoup라이브러리를 사용하면 쉽다. 

 

파이썬에서 HTML을 파싱하기 위해서는 BeautifulSoup, requests, html5lib이 필요하다. 파이썬에서 기본적으로 제공하는 라이브러리인 HTML parser는 완벽한 HTML 구조가 아니면 제대로 작동하지 않기 때문에 html5lib이 필요하다. 

 

$ pip install beautifulsoup4

$ pip install requests

$ pip install html5lib

 

아래 간단한 예제를 통해서 HTML에서 필요한 요소를 가져오면 된다. 아래 내용을 바탕으로 응용을 하면 된다. 

 

from bs4 import BeautifulSoup
import requests
html = requests.get("http://www.example.com").text
soup = BeautifulSoup(html, 'html5lib')

first_paragraph = soup.find('p') # soup.p
first_paragraph_text = soup.p.text
first_paragraph_words = soup.p.text.split()

first_paragraph_id = soup.p['id'] # id가 존재하지 않으면 KeyError 
first_paragraph_id2 = soup.p.get('id') # id가 존재하지 않으면 None

all_paragraphs = soup.find_all('p') # soup('p')
paragraphs_with_ids = [p for p in soup('p') if p.get('id')]

important_paragraphs = soup('p', {'class': 'important'})
important_paragraphs2 = soup('p', 'important')
important_paragraphs3 = [p for p in soup('p')
                         if 'important' in p.get('class',[])]

# <span> 요소 안에 포함된 모든 <div> 요소를 찾아보자.
spans_inside_divs = [span
                     for div in soup('div') # 모든 <div> 
                     for span in div('span')] # 포함된 <span>을 

 

출처 : ourcstory.tistory.com/219?category=630693