[오픈소스] Scrapy : 파이썬 웹크롤러

웹크롤러를 만들기 위해 자료를 찾다가 발견한 파이썬 공개 패키지이다.

* 설명 http://www.itworld.co.kr/slideshow/87408?slide=3#stage_slide

Scrapy
스크래피(Scrapy)는 웹 사이트를 돌아다니면서 구조화된 데이터를 추출하기 위해 파이썬(Python)으로 작성한 애플리케이션 프레임워크이다. 그리고 나서 이 데이터를 데이터 마이닝, 정보 처리, 이력 기록 등 일련의 유용한 애플리케이션에 활용할 수 있다. 본래 화면 스크랩(좀 더 정확히 말하자면 웹 스크랩)용으로 개발된 스크래피는 API를 이용한 데이터 추출(아마존 어소시에이츠 웹 서비스(Amazon Associates Web Services))에 사용하거나 일반 용도의 웹 크롤러(Web Crawler)로 사용할 수 있다. 스크래피는 스크래핑허브(Scrapinghub), 플래스(Flax), 고스크레이프(GoScrape) 등 많은 기업들이 상용 지원을 제공하고 있다.

* 소스 https://github.com/scrapy/scrapy
* 문서 http://doc.scrapy.org/en/latest/


 

이 외에 간단한 크롤러 소스들이 있어 기록해 둔다.

* teampopong이 제공하는 크롤러 소스 (httplib 이용)
https://github.com/teampopong/crawlers

* phantomjs를 이용한 크롤러 소스 (리눅스에서는 phantomjs를 빌드해야함)
https://github.com/qwefgh90/SeleniumSample

 

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: