安装相关依赖
# Packages which are always needed.
brew install automake autoconf libtool
brew install pkgconfig
brew install icu4c
brew install leptonica
# Packages required for training tools.
brew install pango
# Optional packages for extra features.
brew install libarchive
# Optional package for builds using g++.
brew install gcc
下载Tesseract
brew install --all-languages --with-training-tools tesseract
brew install tesserac
或直接下载并解压:https://github.com/tesseract-ocr/tesseract/releases
编译安装
cd tesseract-4.1.1
./autogen.sh
mkdir build
cd build
# Optionally add CXX=g++-8 to the configure command if you really want to use a different compiler.
../configure PKG_CONFIG_PATH=/usr/local/opt/icu4c/lib/pkgconfig:/usr/local/opt/libarchive/lib/pkgconfig:/usr/local/opt/libffi/lib/pkgconfig
make -j
# Optionally install Tesseract.
sudo make install
# Optionally build and install training tools.
make training
下载语言库
下载地址:https://github.com/tesseract-ocr/tessdata
文件很大,可以根据需要语言自己选择
将文件拷贝到到:/tesseract/tessdata目录下
缩写 | 库名 | 语言 |
---|---|---|
afr | Afrikaans | 南非荷兰语 |
amh | Amharic | 阿姆哈拉语 |
ara | Arabic | 阿拉伯语 |
asm | Assamese | 阿萨姆 |
aze | Azerbaijani | 阿塞拜疆 |
aze_cyrl | Azerbaijani - Cyrilic | 阿塞拜疆-Cyrilic |
bel | Belarusian | 白俄罗斯 |
ben | Bengali | 孟加拉 |
bod | Tibetan | 西藏 |
bos | Bosnian | 波斯尼亚 |
bul | Bulgarian | 保加利亚语 |
cat | Catalan; Valencian | 加泰罗尼亚语; 巴伦西亚 |
ceb | Cebuano | 宿务 |
ces | Czech | 捷克 |
chi_sim | Chinese - Simplified | 中国-简体 |
chi_tra | Chinese - Traditional | 中国-繁体 |
chr | Cherokee | 切诺基 |
cym | Welsh | 威尔士 |
dan | Danish | 丹麦 |
dan_frak | Danish - Fraktur | 丹麦-Fraktur |
deu | German | 德国 |
deu_frak | German - Fraktur | 德国-Fraktur |
dzo | Dzongkha | 不丹文 |
ell | Greek, Modern (1453-) | 希腊,现代(1453-) |
eng | English | 英语 |
enm | English, Middle (1100-1500) | 英语,中东(1100-1500) |
epo | Esperanto | 世界语 |
equ | Math / equation detection module | 数学/方程式检测模块 |
est | Estonian | 爱沙尼亚 |
eus | Basque | 巴斯克 |
fas | Persian | 波斯 |
fin | Finnish | 芬兰 |
fra | French | 法语 |
frk | Frankish | 法兰克 |
frm | French, Middle (ca.1400-1600) | 法国,中东(ca.1400-1600) |
gle | Irish | 爱尔兰 |
glg | Galician | 加利西亚 |
grc | Greek, Ancient (to 1453) | 希腊语,古(到1453年) |
guj | Gujarati | 古吉拉特语 |
hat | Haitian; Haitian Creole | 海天; 海地克里奥尔语 |
heb | Hebrew | 希伯来语 |
hin | Hindi | 印地文 |
hrv | Croatian | 克罗地亚 |
hun | Hungarian | 匈牙利 |
iku | Inuktitut | 因纽特语 |
ind | Indonesian | 印尼 |
isl | Icelandic | 冰岛 |
ita | Italian | 意大利语 |
ita_old | Italian - Old | 意大利语-旧 |
jav | Javanese | 爪哇 |
jpn | Japanese | 日本 |
kan | Kannada | 卡纳达语 |
kat | Georgian | 格鲁吉亚 |
kat_old | Georgian - Old | 格鲁吉亚-旧 |
kaz | Kazakh | 哈萨克斯坦 |
khm | Central Khmer | 中央高棉 |
kir | Kirghiz; Kyrgyz | 柯尔克孜; 吉尔吉斯 |
kor | Korean | 韩国 |
kur | Kurdish | 库尔德人 |
lao | Lao | 老挝 |
lat | Latin | 拉丁 |
lav | Latvian | 拉脱维亚 |
lit | Lithuanian | 立陶宛 |
mal | Malayalam | 马拉雅拉姆语 |
mar | Marathi | 马拉 |
mkd | Macedonian | 马其顿 |
mlt | Maltese | 马耳他 |
msa | Malay | 马来文 |
mya | Burmese | 缅甸 |
nep | Nepali | 尼泊尔 |
nld | Dutch; Flemish | 荷兰; 佛兰芒语 |
nor | Norwegian | 挪威 |
ori | Oriya | 奥里亚语 |
osd | Orientation and script detection module | 定位及脚本检测模块 |
pan | Panjabi; Punjabi | 旁遮普语; 旁遮普语 |
pol | Polish | 波兰 |
por | Portuguese | 葡萄牙语 |
pus | Pushto; Pashto | 普什图语; 普什图语 |
ron | Romanian; Moldavian; Moldovan | 罗马尼亚; 摩尔多瓦; 摩尔多瓦 |
rus | Russian | 俄罗斯 |
san | Sanskrit | 梵文 |
sin | Sinhala; Sinhalese | 僧伽罗语; 僧伽罗语 |
slk | Slovak | 斯洛伐克 |
slk_frak | Slovak - Fraktur | 斯洛伐克- Fraktur |
slv | Slovenian | 斯洛文尼亚 |
spa | Spanish; Castilian | 西班牙语; 卡斯蒂利亚 |
spa_old | Spanish; Castilian - Old | 西班牙语; 卡斯蒂利亚-老 |
sqi | Albanian | 阿尔巴尼亚 |
srp | Serbian | 塞尔维亚 |
srp_latn | Serbian - Latin | 塞尔维亚语-拉丁语 |
swa | Swahili | 斯瓦希里语 |
swe | Swedish | 瑞典 |
syr | Syriac | 叙利亚 |
tam | Tamil | 泰米尔 |
tel | Telugu | 泰卢固语 |
tgk | Tajik | 塔吉克斯坦 |
tgl | Tagalog | 菲律宾语 |
tha | Thai | 泰国 |
tir | Tigrinya | 提格雷语 |
tur | Turkish | 土耳其 |
uig | Uighur; Uyghur | 维吾尔族; 维吾尔 |
ukr | Ukrainian | 乌克兰 |
urd | Urdu | 乌尔都语 |
uzb | Uzbek | 乌兹别克斯坦 |
uzb_cyrl | Uzbek - Cyrilic | 乌兹别克斯坦- Cyrilic |
vie | Vietnamese | 越南语 |
yid | Yiddish | 意第绪语 |
识别测试
终端输入命令
tesseract 00.png result/00
指定语言:
tesseract -l chi_sim imgName result
指定多语言,用+号相连
tesseract -l chi_sim+eng imgName result