技術メモ:tesseractを使うまで

画像からテキスト抽出するオープンソースの何かであるtesseract-ocrを使うまでのメモ。

職場だとさくっとできたのだけど、自宅のノーパソだともたついてしまったのでメモ。



環境:ubuntu 16.04

基本:
https://qiita.com/bohemian916/items/67f22ee7aeac103dd205#%E4%BE%9D%E5%AD%98%E9%96%A2%E4%BF%82%E3%82%A4%E3%83%B3%E3%82%B9%E3%83%88%E3%83%BC%E3%83%AB

https://a244.hateblo.jp/entry/2017/03/08/060000#Linux

この辺を参考に。
tesseractのコンパイルがめどいので、参考記事の時点からバージョンも上がってることから
$ apt-get install tesseract-ocr
で手抜きしようと思った次第。


やったこと:
・依存ライブラリは全部インスコ
・Leptonicaは2つ目の記事の方を参考にmakeから。
・公式にしたがって、PPAというやつを入れる。
 https://launchpad.net/%7Ealex-p/+archive/ubuntu/tesseract-ocr?field.series_filter=xenial
 
・$ apt-get install tesseract-ocr
・あとなんかガチャガチャしてたらいつの間にかできた(死)

動作確認環境:
$ tesseract -v
tesseract 4.0.0-beta.1
leptonica-1.75.3
libjpeg 8d (libjpeg-turbo 1.4.2) : libpng 1.2.54 : libtiff 4.0.6 : zlib 1.2.8

Found SSE


こんなん出てきたら成功。

今年(今年度)はQiitaやろうとか思ってたけど、
ガチャガチャエンジニアは技術系SNSとか不向きでござる

ブログ気持玉

クリックして気持ちを伝えよう!

ログインしてクリックすれば、自分のブログへのリンクが付きます。

→ログインへ

なるほど(納得、参考になった、ヘー)
驚いた
面白い
ナイス
ガッツ(がんばれ!)
かわいい

気持玉数 : 0

この記事へのコメント

この記事へのトラックバック