본문 바로가기
Programming/AI

파이썬 BeautifulSoup4를 활용하여 css 추출하기

by 제타 2018. 6. 21.
반응형

파이썬으로 크롤링을 할 때 BeautifulSoup4을 활용하면 아주 편합니다.


BeautifulSoup4를 활용하면 html 소스를 분석하여 필요한 것만 뽑아낼 수 가 있는데요.


그 중에서 select와 select_one을 활용하여 태그를 추출해보겠습니다.


예제 코드는 다음과 같습니다.


from bs4 import BeautifulSoup
# 예제 HTML
html = """
<html>
<body>
<div id="meigen">
<h1>h1 태그입니다</h1>
<ul class="items">
<li>1번째 li 태그입니다</li>
<li>2번째 li 태그입니다</li>
<li>3번째 li 태그입니다</li>
</ul>
</div>
</body>
</html>
"""
# HTML 파싱
soup = BeautifulSoup(html, 'html.parser')
# select_one은 하나만 추출
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)
# select는 여러개 추출
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
print("li =", li.string)


그리고 도커에서 실행을 해보면 다음처럼 추출이 됩니다.



즉 이걸 활용하면 웹사이트의 정보를 뽑아올 수 있습니다.


이를 정기적인 배치로 만들어서 활용하면 시간대별 달러 가격 등을 만들어낼 수 있고 


혹은 뉴스 내용을 스크랩핑하여 여러 방안으로 활용할 수 있을 것입니다.

반응형