(espressoOtr) jericho parser를 이용한 HTMLExtractor

HTML 파싱은 이제 어떤 서비스와 연동할때 필수적인 부분이 되었다. 그래서 쉽게 쓸수 있게 클래스화 해두면 좋은것 같아서 개인적으로 만들고 있는 espressoOtr 이라는 자바 라이브버리에 jericho parser 를 이용해서 HTMLExtractor 클래스를 만들었다. jericho 파서는 자바기반 html parser 인데 쉽게 쓸수 있도록 되어 있다. espressoOtr 라이브러리에서는 다음과 같이 자주 사용하는 부분에 대해서 jericho 파서를 이용해서 util 클래스를… Read More

(iOS)libxml/HTMLparser.h file not found 에러 처리

이전 포스팅에서 iOS  App  개발시, 각종 HTML 파서들을 연동하는 방법들을 소개했는데 그러한 라이브러리에 사용하는 것중 하나가 libxml2 라이브러리이다. 기본적으로 프로젝트 세팅에 가서 다음과 같이 해주면된다.  Header Search Paths  –  “${SDKROOT}/usr/include/libxml2” –  recursive option 켜기  Other Link Flags – -lxml2 입력  그런데 주의할 점. Always Search User Paths 부분도 반드시 Yes로 되어 있어야 한다. 이 부분도… Read More

[iOS]HTML 파싱 - HTMLParser 를 이용하기, more fast

한우찾기 관련 포스트에서 밝힌적이 있듯이, HTML 파싱을 핵심으로 하고 있는 한우찾기의 라이브러리화 작업이 한창 진행중이다. 이전의 HTML 파싱 포스팅에서 기존의 잘 알려진 TFHpple 을 이용하는 방식(XPath) 외에도 자바 스크립트와 UIWebView를 이용하는 방식을 사용했다고 밝힌 적이 있다.  HTML 파싱의 속도는 기본적으로 사용자가 느끼기에는 네트워크 속도에 달려있다고 본다. 즉, 출근길 지하철 안 3G네트워크상에서는 느리게 나올수 밖에… Read More

[iOS] GetHtmlString(), HTML 가져오기

(adsbygoogle = window.adsbygoogle || []).push({}); 한우찾기 라이브러리를 만드는 과정에서 가장 먼저 해야할 일은 기존의 자바스크립트 방식을 대체할 수 있는 방안을 찾아야 하는 것이었는데, 그 중에 하나가 HTML 자체를 String 으로 가져와서 파싱하는 방식이다. Objective-C 에서는 NSString 을 통해서 해당 기능을 다음과 같이 제공하고 있다. 주의 해야할 점이라면, 해당 HTML의 charset에 맞춰서 가져와야 깨지지 않는다는 점이다. 영어/… Read More

[iOS] HTML 파싱 - Java Script 와 UIWebView 이용하기

HTML 파싱에 관한 부분은 한우찾기 1.0 및 2.0 에 걸쳐서 가장 핵심적인 부분이라고 할 수 있다. 총 2가지 방법을 사용해서 웹 사이트에 있는 HTML 데이터를 파싱해서 가져오고 있다. (2.4버전 이후에는 HTMLParser 를 사용할 예정) 1. Java Script + UIWebView 를 이용하는 방식 2. TFHpple(xpath) 를 이용하는 방식3. HTMLParser 를 이용하는 방식  각각의… Read More