본문 바로가기

Python4

아나콘다에 scikit learn + pandas 기본 구성 먼저 머신러닝의 맛을 보기위해 scikit-learn을 구성하고 XOR 연산을 한번 진행해보도록 하겠습니다. docker run -i -t -v $HOME/ai:/ai mlearn:init /bin/bash로 들어가겠습니다 전에 설치하였던 이미지(아나콘다)를 실행해서 설치를 하는거구요. >> 아나콘다 설치 바로가기 2018. 6. 25.
파이썬 BeautifulSoup4를 활용하여 css 추출하기 파이썬으로 크롤링을 할 때 BeautifulSoup4을 활용하면 아주 편합니다. BeautifulSoup4를 활용하면 html 소스를 분석하여 필요한 것만 뽑아낼 수 가 있는데요. 그 중에서 select와 select_one을 활용하여 태그를 추출해보겠습니다. 예제 코드는 다음과 같습니다. from bs4 import BeautifulSoup # 예제 HTMLhtml = """ h1 태그입니다 1번째 li 태그입니다 2번째 li 태그입니다 3번째 li 태그입니다 """# HTML 파싱soup = BeautifulSoup(html, 'html.parser')# select_one은 하나만 추출h1 = soup.select_one("div#meigen > h1").stringprint("h1 =", h1)#.. 2018. 6. 21.
파이썬 정규 표현식(re) 모듈 파이썬은 정규표현식을 위해서 re 모듈에 문자열 검색, 치환, 분리 등의 기능을 갖고 있다. 정규표현식에서 문자나 패턴을 나타내기 위한 특수문자들 특수문자 의미. 개행문자를 제외한 문자 1개를 나타냄. re.DOTALL이 설정돼있으면 개행도 포함^ 문자열의 시작. re.MULTILINE이 설정돼있으면 매 라인마다 매치됨$ 문자열의 종료. re.MULTILINE이 설정돼있으면 매 라인마다 매치됨[] 문자열의 집합을 나타냄. 가령 [abcd]면 a b c d 중에 한 문자와 매치되고 [a-d]로 쓸 수도 있다. [^a]는 a를 제외한 모든 문자이다| a|b. a 또는 b() 괄호 안의 정규식을 그룹으로 만듦. 괄호 자체를 매칭시킬려면 '\(', '\)'나 '[(]', '[)]'로 나타내면 됨* 문자가 0번 .. 2018. 3. 21.
파이썬 문자열 메서드 종류 파이썬 문자열 메서드 종류sql server 최근 버전부터 파이썬을 지원하기 시작했다.쿼리로 구현하기 힘든 것들은 파이썬 코드로 구현하면 훨씬 편할 것이다. 1. capitalize()첫문자를 대문자로, 나머지 문자는 소문자로 바꿔줌>>> "PYTHON".capitalize()'Python' 2.count(keyword,[start,[end]]keyword가 몇번 포함되어있는지 알려줌. start와 end를 지정해서 검색범위 지정가능.2. >>> "ppython".count('p')2 3.encode([encodeing,[errors]])파이썬3에서 str 클래스는 유니코드. encode를 통해 인코딩이 있는 바이너리로 변환가능.>>> "가나다".encode('cp949')b'\xb0\xa1\xb3\xa.. 2018. 3. 21.