網頁標題: Balabolka_text: 把檔案中的文字提取出來的工具

Warning: fopen(/home/crazy/www/cmsb/bcj/has_read.php): failed to open stream: Permission denied in /home/crazy/www/compose/reading.php on line 2070

Warning: fputs() expects parameter 1 to be resource, bool given in /home/crazy/www/compose/reading.php on line 2072

Warning: fclose() expects parameter 1 to be resource, bool given in /home/crazy/www/compose/reading.php on line 2073
 
﹗﹗﹗觀看留言:此文章已經有5則留言 ﹗﹗﹗


  Balabolka 是一個文字轉換語音 (Text To Speech, TTS) 的應用軟體,可以讀入許多不同格式的檔案,提出文字內容,進行編修後用電腦已安裝的語音引擎轉成聲音檔。官方有 GUI 和命令列 (command line) 版本,GUI 就是上述功能全部具備,但使用者也可以只下載它的命令列介面或者只有提取檔案中文字的部份。

  我自己只使用提取文字的部份,因為這是全盲者閱讀明眼人編寫的文件的第一步。它下載後檔名為 balabolka_text.zip, 然後透過批次檔下達指令並驗收輸出文字檔。將這個 .zip 檔解開(建議指定目的第資料夾)後,我寫了一個批次檔 run.bat, 內容只有一行如下:

balabolka_text -e utf8 -f test.pdf -p result

  放在剛才解壓縮時的目的地中,跟 balabolka_text.exe 一樣的資料夾內,然後把自己想要轉的 .pdf 檔命名為 test.pdf 放在與 run.bat 一樣的資料夾,就可以直接在 run.bat 上按 Enter 得到純文字檔 result.txt 在相同資料夾,裡面就是 test.pdf 的文字內容了。有點可惜,它的說明文件中不含中文,因此我把 balabolka_text 使用說明列在下面,自己讀懂的部份就改寫成中文,雖然不是正式的翻譯,但是讀中文總比讀英文容易吧。

  經查下面的說明就可以知道,輸入檔名指定為 test.pdf, 輸出檔名 result 會自動補 .txt 副檔名,並且要求其編碼使用 UTF-8. 我最常拿它來轉檔網路上下載的論文 .pdf 檔,如果想要轉換其他檔案只要把 test.pdf 替換成自己的輸入檔名即可。不過,這個軟體不是文字辨認的用途,因此遇到支援的檔案格式中有圖片仍一籌莫展,而且它把英文轉換後有十在單字中會有不認得的字元,多數都在 ff, fi, ffi 該出現的地方,我推測起因可能為萬國碼正規化 (unicode normalization) 過程中沒有處理好所致,不過仍待查證。

註:在此感謝高生旺老師介紹我和許多全盲夥伴使用這個工具,在 Adobe Reader X 版本以後很難用開啟全選複製將全文拿到記事本來閱讀,balabolka_text 提供了一個很好的替代方案。不過批次檔的方式應該還是很多人覺得陌生,用 AutoIt 寫個介面出來應該會比較友善方便些。高老師表示 Balabolka GUI 載入檔案然後全選出現的文字出來也有相同效果,不過該介面用導盲鼠難以操作,用 NVDA 按完載入 .pdf 以後選單的字讀出來就怪怪的,也為了累積經驗,我還是喜歡有些部分自己動手。


回 · 介紹對我有幫助又友善的工具程式 這一篇文章封面
回 · 介紹對我有幫助又友善的工具程式 這一篇文章封面


本文張貼者:Bo-Cheng Jhan〔張貼時間:民國105年4月5日(星期二)12點49分 | 更新次數 #3 | 最後更新:民國105年4月7日(星期四)1點17分〕

部落格首頁


學習的故鄉首頁
本站公告:〔您越需要我們,我們就越有創意〕 本站說明書:〔發現故鄉還有改進的地方,請來信告訴原丁們〕
觀察應用學習點數 :〔咱的故鄉有您的參與,會使我們有更大的發揮空間,展現更豐富精彩的學習畫面〕 〔期待藉由無障礙網頁設計,能讓視障小朋友更愛看書、更愛寫作且更愛學習〕:盲用電腦「心得分享」
〔為了讓我們有乾淨的學習環境,請勿任意在本站散播商業廣告與不合法文件或聯結〕:本站宣示