반응형
파이썬으로 크롤링을 할 때 BeautifulSoup4을 활용하면 아주 편합니다.
BeautifulSoup4를 활용하면 html 소스를 분석하여 필요한 것만 뽑아낼 수 가 있는데요.
그 중에서 select와 select_one을 활용하여 태그를 추출해보겠습니다.
예제 코드는 다음과 같습니다.
from bs4 import BeautifulSoup
# 예제 HTML
html = """
<html>
<body>
<div id="meigen">
<h1>h1 태그입니다</h1>
<ul class="items">
<li>1번째 li 태그입니다</li>
<li>2번째 li 태그입니다</li>
<li>3번째 li 태그입니다</li>
</ul>
</div>
</body>
</html>
"""
# HTML 파싱
soup = BeautifulSoup(html, 'html.parser')
# select_one은 하나만 추출
h1 = soup.select_one("div#meigen > h1").string
print("h1 =", h1)
# select는 여러개 추출
li_list = soup.select("div#meigen > ul.items > li")
for li in li_list:
print("li =", li.string)
그리고 도커에서 실행을 해보면 다음처럼 추출이 됩니다.
즉 이걸 활용하면 웹사이트의 정보를 뽑아올 수 있습니다.
이를 정기적인 배치로 만들어서 활용하면 시간대별 달러 가격 등을 만들어낼 수 있고
혹은 뉴스 내용을 스크랩핑하여 여러 방안으로 활용할 수 있을 것입니다.
반응형
'Programming > AI' 카테고리의 다른 글
아나콘다에 scikit learn + pandas 기본 구성 (0) | 2018.06.25 |
---|---|
도커에 우분투+파이썬3+beautifulsoup+PhantomJS + Selenium 환경 설치하기 (0) | 2018.06.24 |
도커에 파이썬 + Anaconda 환경 구축하기 (0) | 2018.06.21 |
Windows 10에 Docker(도커) 설치하기 (0) | 2018.06.20 |
셀레니움 네이버 메일 제목 크롤링하기 (3) | 2018.06.16 |