파이썬 BeautifulSoup4를 활용하여 css 추출하기

파이썬으로 크롤링을 할 때 BeautifulSoup4을 활용하면 아주 편합니다.

BeautifulSoup4를 활용하면 html 소스를 분석하여 필요한 것만 뽑아낼 수 가 있는데요.

그 중에서 select와 select_one을 활용하여 태그를 추출해보겠습니다.

예제 코드는 다음과 같습니다.

from bs4 import BeautifulSoup 
# 예제 HTML
html = """
<html>
<body>
<div id="meigen">
  <h1>h1 태그입니다</h1>
  <ul class="items">
    <li>1번째 li 태그입니다</li>
    <li>2번째 li 태그입니다</li>
    <li>3번째 li 태그입니다</li>
  </ul>
</div>
</body>
</html>
"""
# HTML 파싱
soup = BeautifulSoup(html, 'html.parser')
# select_one은 하나만 추출
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)
# select는 여러개 추출
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
  print("li =", li.string)

그리고 도커에서 실행을 해보면 다음처럼 추출이 됩니다.

즉 이걸 활용하면 웹사이트의 정보를 뽑아올 수 있습니다.

이를 정기적인 배치로 만들어서 활용하면 시간대별 달러 가격 등을 만들어낼 수 있고

혹은 뉴스 내용을 스크랩핑하여 여러 방안으로 활용할 수 있을 것입니다.

'Programming > AI' 카테고리의 다른 글

아나콘다에 scikit learn + pandas 기본 구성 (0)	2018.06.25
도커에 우분투+파이썬3+beautifulsoup+PhantomJS + Selenium 환경 설치하기 (0)	2018.06.24
도커에 파이썬 + Anaconda 환경 구축하기 (0)	2018.06.21
Windows 10에 Docker(도커) 설치하기 (0)	2018.06.20
셀레니움 네이버 메일 제목 크롤링하기 (3)	2018.06.16

ZETA STRING

파이썬 BeautifulSoup4를 활용하여 css 추출하기

'Programming > AI' 카테고리의 다른 글

티스토리툴바

파이썬 BeautifulSoup4를 활용하여 css 추출하기

'Programming > AI' 카테고리의 다른 글

관련글

티스토리툴바