Google Docs

不知道大家記不記得我之前寫的這篇文章「最近開發電子書有感」,在文章的最後我提到了Google Docs的Viewer,雖然不是用Flash來做為電子書的載具,可是卻可以用來選取文字耶!這個神奇的技術我一直百思不解,然後前幾天剛好有網友在問scribd跟slideshare的實作方法,我就順便也問了這個是怎麼完成的。

後來經過網友knight00931的抽絲剝繭之後,總算知道是怎麼完成這個功能了。其實Google用了pdf2xml這個軟體,它裡面的摘要就這樣寫著:

pdf2xml convertor based on Xpdf library (http://www.foolabs.com/xpdf/home.html). It converts information contained in a PDF file into XML. First, you need to install xpdf and libxml2

pdf2xml

pdf2xml會呼叫Xpdf這個常用在PDF操作的library,然後將PDF的文字擷取出來(extract),最後再轉成pdf2xml的xml格式就可以了。大家可以看看這個範例,而這個PDF檔所轉出來的pdf2xml在這裡,大家可以看到那個xml檔裡面,有一個叫做text的tag,裡面有l, t, w, h, p這五個屬性(attribute),我想應該就是拿來定位用的吧,分別代表left, top, width, height, point。然後再加上滑鼠拖曳,就完成這個強大的圖片選取文字功能囉。

後來我看到其他的文章,pdf2xml甚至可以改變文字的字體耶,實在是太酷了啦!不知道這個功能可不可以拿來我現在在開發的電子書上,如果可以的話那就更炫了 XDD

參考資料:
最近開發電子書有感
SourceForge.net: pdf2xml - Project Web Hosting - Open Source Software
bigtable-osdi06.pdf - 技術提供:Google 文件
bigtable-osdi06.pdf(pdf2xml) - 技術提供:Google 文件
What application does google use to show PDF attachments in gmail - Stack Overflow
Amazing! Copy text from a PDF - Google Docs Help
Perfecting (Simple) PDF Conversion to EPub and Mobipocket | Spontaneous ∂erivation

kewang 發表在 痞客邦 留言(1) 人氣()