본문 바로가기

파이썬12

파이썬 BeautifulSoup4를 활용하여 css 추출하기 파이썬으로 크롤링을 할 때 BeautifulSoup4을 활용하면 아주 편합니다. BeautifulSoup4를 활용하면 html 소스를 분석하여 필요한 것만 뽑아낼 수 가 있는데요. 그 중에서 select와 select_one을 활용하여 태그를 추출해보겠습니다. 예제 코드는 다음과 같습니다. from bs4 import BeautifulSoup # 예제 HTMLhtml = """ h1 태그입니다 1번째 li 태그입니다 2번째 li 태그입니다 3번째 li 태그입니다 """# HTML 파싱soup = BeautifulSoup(html, 'html.parser')# select_one은 하나만 추출h1 = soup.select_one("div#meigen > h1").stringprint("h1 =", h1)#.. 2018. 6. 21.
도커에 파이썬 + Anaconda 환경 구축하기 가상화 기술에는 하이퍼바이저 기반과 컨테이너 기반이 있는데 도커는 컨테이너 기반입니다. 컨테이너의 개념에 대해서는 다른 포스팅에 자세히 설명해보도록 하겠습니다. 일단 저희는 환경 구축을 위해서 파이썬 + Anaconda 환경을 세팅하겠습니다. 다른 사람이 우분투에 아나콘다의 기본적인 패키지만 설치해놓은 미니콘다 이미지를 다운받아서 사용할 예정입니다. 도커에서 이미지를 가져오는 명령어는 pull 입니다. 그럼 다음처럼 docker pull continuumio/miniconda3으로 가져오도록 하겠습니다. 다운이 다 되고 이미지를 실행하겠습니다. docker run -i -t continuumio/miniconda3 /bin/bash를 입력하여 실행하도록 하겠습니다. 그럼 리눅스 환경이 되고 간단하게 파이.. 2018. 6. 21.
셀레니움 네이버 메일 제목 크롤링하기 파이썬 셀레니움(selenium)으로 네이버 메일 제목만 읽어오는 방법이다.특히 웹게임같은 경우는 셀레니움으로 매크로를 만들어본적이 있는데 거의 복붙 수준이었지만이 참에 제대로 이해하고 알아놔야겠다.셀레니움, 크롤링 등 공부하면 응용할 것이 참 많은 것 같다. from selenium import webdriver url= "https://nid.naver.com/nidlogin.login"#phantomjs 드라이버 실행browser = webdriver.PhantomJS()browser.implicitly_wait(3) #url 읽어들이고 로그인browser.get(url)element_id = browser.find_element_by_id("id") # id 텍스트 입력 상자element_id.c.. 2018. 6. 16.
파이썬 BeautifulSoup으로 간단하게 html 분석하는 방법 스크랩핑이란 웹에서 데이터를 추출하고 원하는 정보를 추출하는 것이다.스크랩핑을 잘하면 데이터를 잘 수집할 수 있다. 그 중에서 BeautifulSoup이라는 라이브러리를 이용하면 HTML과 XML에서 간단하게 정보를 추출할 수 있다.최근 스크랩핑 라이브러리에는 다운로드부터 HTML 분석까지 되는 경우가 많은데 BeautifulSoup는 자체 다운로드 기능이 없다. 먼저 cmd 창으로 C:\WINDOWS\system32>pip install beautifulsoup4 를 설치했다. 그리고 파이썬 코드로 간단하게 html형태의 변수를 만들었다. from bs4 import BeautifulSoup html = """ h1입니다 첫번째 p태그 두번째 p태그 세번째 p태그"""soup = BeautifulSou.. 2018. 6. 11.