2015-02-04(수) 조금씩 시작하다

점심시간에 서귀포쪽에 작은 펜션을 운영하는 부부가 찾아왔다. 강아지를 인연으로 만난 관계인데 나이도 비슷하고 성격도 적당히 통해서 가깝게 지내고 있다.

점심을 먹으러 가자는 것을 말리고, 얼마전 파티할 때 남겨놓은 돼지양념갈비를 구워서 집에서 밥을 먹었다. (역시 3일 동안 양념에 절여진 고기라 속까지 맛있었다)

그들과 창업지원에 관해 이야기를 나누다 문광부나 제주관광공사 등에서 지원하는 프로그램도 찾아보자고 하여 들어가 보았으나 내게 해당되는 프로그램은 없었다. 대신 ‘아이디어 카드’ 교육이 있어 신청하였는데, 30명 모집이 모두 차서 기회를 놓치고 말았다. 좁은 제주이지만 창업이나 교육에 대한 수요는 많아 보인다. (기회가 적은 건지도)

나의 강점은 무엇일까?.. 를 생각하다가 결국은 빅데이터로 옮겨졌다.

빅데이터를 비슷하게 구현하여 보여주지 않는다면 나머지 이야기도 먹힐거 같지 않다는 생각이 들었다. 빅데이터를 문서로 일단 모아 보여주어야 하는데, 그러려면 웹크롤러가 필수이다.

웹크롤러로는 Nutch가 대표적인데, Daum 검색에서도 사용할 정도로 덩치가 큰 녀석이다. 이것보다는 페이지 단위별로 가져올 수 있는 파이썬 라이브러리를 사용하는게 낫겠다 싶어서 찾다보니 두가지를 찾았다.

* Scrapy : 웹크롤링을 위한 파이썬 라이브러리
* PhantomJS : Headless 웹브라우저로 자바스크립트만으로 웹페이지를 실제 브라우저로 사용하는 것처럼 자동화 하는 것이 가능하다. 예를 들어, 화면 캡쳐, 일부 내용 파싱 등.

이것 외에도 파이썬 라이브러리로 유명한 것이 BeautifulSoup이다. (= bs4)
http://www.crummy.com/software/BeautifulSoup
* 한글 번역: http://coreapython.hosting.paran.com/etc/beautifulsoup4.html

두가지 다 설치를 해 놓았고, 이를 이용해 네이버와 다음의 블로그 데이터를 웹크롤링하여 HBase에 저장하는 부분을 구현해야겠다.

저장된 원문은 스키마를 갖춰 MongoDB에 저장하는 방식으로 운영할 생각이다.
* 제목, 날짜, 명사 추출, 메타정보 추출 등의 부가 작업

  1. 받아놓은 블로그 데이터는 언제 분석하려 하느냐?
    빨리 몽고디비로 옮겨라!

    좋아하기

    응답

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중

%d 블로거가 이것을 좋아합니다: