Extracting article text from HTML documents

Tags:

트위터나 페이스북이 이제 RSS 리더의 기능을 대체해나가면서 (물론 digg나 reddit, hacker news, /. 도 점차 대체해나가겠죠), FlipBoard(share된 링크로부터 웹사이트의 컨텐츠를 정리해서 보여줌), Readability, Instapaper 같은 앱/웹앱이 히트를 치면서, 몇몇 사람들은 이미 깨닫기 시작한 변화 중 한가지는 이제는 더이상 제공되는 RSS를 통하지 않아도 웹페이지에서 컨텐츠를 분석해서 보여줄 수 있게 되었다는 점입니다. 이런 민간인(?)은 잘 모르는 서비스 뿐만 아니라 페이스북같은 널리 알려진 서비스에서역시, 공유되는 링크 밑에는 신기하게도 글의 본문만 잘 끼워져 들어가고 있죠.

관련해서 좋은 글이 하나 있어서 링크 걸어 봅니다.
Extracting article text from HTML documents

본문에 언급된 boilerplate라는 라이브러리는 심지어 Apache License 2.0으로 배포됩니다. 그래서 상업용으로 쓸 수 있습니다. 물론 아파치 라이선스는 몇가지 이슈가 있기도 한듯합니다만, 전 잘 모르니..

위 블로그 주인분이 필받으셨는지 최근에 html에서 컨텐츠를 빼내는 것과 관련한 툴도 잔뜩 정리해놓으셨네요.
Article text extraction from HTML documents