OCR - pytesseract & jieba
pytesseract & jieba
- 光學文字識別(Optical Character Recognition,OCR)
- 簡單來說,就是能夠將「圖片」上文字資訊翻譯出來成文字
- 利用 Python 模組 pytesseract 套件
- 可透過簡單程式碼快速分辨圖片中的文字
- 目前模組由 Google 團隊開發以及維護
- jieba 是 python 套件的中文斷詞器
1 | import os |
1 | import os |