小兔的筆記本

Just another WordPress.com weblog

antiword 介紹

Posted by Tsukino Usagi 於 五月 16, 2006

antiword 能夠將微軟的 Word .doc 格式轉換成純文字檔, .pdf 檔或 postscript 格式的檔案, Openwebmail 裡的「網路硬碟」功能可以預覽 .doc 格式的檔案, 其實就是呼叫這個程式去轉換的.

一般情況下, 下:

$ antiword blahblah.doc

像這樣的指令就可以直接秀出該 .doc 檔裡的字, 要是遇到中文字變問號的情形, 可以先:

$ export LC_ALL=
$ export LC_CTYPE=
$ export LANG=

把這三個環境變數清掉, 再用:

$ antiword -m UTF-8.txt blahblah.doc

這種方式去讀出 .doc 檔裡的文字, 會以 UTF-8 格式輸出, 若想要以 Big5 編碼輸出, 可搭配 iconv -c 指令, 方式如下:

$ antiword -m UTF-8.txt blahblah.doc | iconv -c -f utf-8 -t big5 –

發表迴響

在下方填入你的資料或按右方圖示以社群網站登入:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 變更 )

Twitter picture

You are commenting using your Twitter account. Log Out / 變更 )

Facebook照片

You are commenting using your Facebook account. Log Out / 變更 )

Google+ photo

You are commenting using your Google+ account. Log Out / 變更 )

連結到 %s

 
%d 位部落客按了讚: