安装相关依赖

# Packages which are always needed.
brew install automake autoconf libtool
brew install pkgconfig
brew install icu4c
brew install leptonica

# Packages required for training tools.
brew install pango

# Optional packages for extra features.
brew install libarchive

# Optional package for builds using g++.
brew install gcc

下载Tesseract

brew install --all-languages --with-training-tools tesseract 
 
brew install  tesserac

或直接下载并解压:https://github.com/tesseract-ocr/tesseract/releases
编译安装

cd tesseract-4.1.1
./autogen.sh
mkdir build
cd build

# Optionally add CXX=g++-8 to the configure command if you really want to use a different compiler.
../configure PKG_CONFIG_PATH=/usr/local/opt/icu4c/lib/pkgconfig:/usr/local/opt/libarchive/lib/pkgconfig:/usr/local/opt/libffi/lib/pkgconfig
make -j

# Optionally install Tesseract.
sudo make install

# Optionally build and install training tools.
make training

下载语言库

下载地址:https://github.com/tesseract-ocr/tessdata
文件很大,可以根据需要语言自己选择
将文件拷贝到到:/tesseract/tessdata目录下

缩写 库名 语言
afr Afrikaans 南非荷兰语
amh Amharic 阿姆哈拉语
ara Arabic 阿拉伯语
asm Assamese 阿萨姆
aze Azerbaijani 阿塞拜疆
aze_cyrl Azerbaijani - Cyrilic 阿塞拜疆-Cyrilic
bel Belarusian 白俄罗斯
ben Bengali 孟加拉
bod Tibetan 西藏
bos Bosnian 波斯尼亚
bul Bulgarian 保加利亚语
cat Catalan; Valencian 加泰罗尼亚语; 巴伦西亚
ceb Cebuano 宿务
ces Czech 捷克
chi_sim Chinese - Simplified 中国-简体
chi_tra Chinese - Traditional 中国-繁体
chr Cherokee 切诺基
cym Welsh 威尔士
dan Danish 丹麦
dan_frak Danish - Fraktur 丹麦-Fraktur
deu German 德国
deu_frak German - Fraktur 德国-Fraktur
dzo Dzongkha 不丹文
ell Greek, Modern (1453-) 希腊,现代(1453-)
eng English 英语
enm English, Middle (1100-1500) 英语,中东(1100-1500)
epo Esperanto 世界语
equ Math / equation detection module 数学/方程式检测模块
est Estonian 爱沙尼亚
eus Basque 巴斯克
fas Persian 波斯
fin Finnish 芬兰
fra French 法语
frk Frankish 法兰克
frm French, Middle (ca.1400-1600) 法国,中东(ca.1400-1600)
gle Irish 爱尔兰
glg Galician 加利西亚
grc Greek, Ancient (to 1453) 希腊语,古(到1453年)
guj Gujarati 古吉拉特语
hat Haitian; Haitian Creole 海天; 海地克里奥尔语
heb Hebrew 希伯来语
hin Hindi 印地文
hrv Croatian 克罗地亚
hun Hungarian 匈牙利
iku Inuktitut 因纽特语
ind Indonesian 印尼
isl Icelandic 冰岛
ita Italian 意大利语
ita_old Italian - Old 意大利语-旧
jav Javanese 爪哇
jpn Japanese 日本
kan Kannada 卡纳达语
kat Georgian 格鲁吉亚
kat_old Georgian - Old 格鲁吉亚-旧
kaz Kazakh 哈萨克斯坦
khm Central Khmer 中央高棉
kir Kirghiz; Kyrgyz 柯尔克孜; 吉尔吉斯
kor Korean 韩国
kur Kurdish 库尔德人
lao Lao 老挝
lat Latin 拉丁
lav Latvian 拉脱维亚
lit Lithuanian 立陶宛
mal Malayalam 马拉雅拉姆语
mar Marathi 马拉
mkd Macedonian 马其顿
mlt Maltese 马耳他
msa Malay 马来文
mya Burmese 缅甸
nep Nepali 尼泊尔
nld Dutch; Flemish 荷兰; 佛兰芒语
nor Norwegian 挪威
ori Oriya 奥里亚语
osd Orientation and script detection module 定位及脚本检测模块
pan Panjabi; Punjabi 旁遮普语; 旁遮普语
pol Polish 波兰
por Portuguese 葡萄牙语
pus Pushto; Pashto 普什图语; 普什图语
ron Romanian; Moldavian; Moldovan 罗马尼亚; 摩尔多瓦; 摩尔多瓦
rus Russian 俄罗斯
san Sanskrit 梵文
sin Sinhala; Sinhalese 僧伽罗语; 僧伽罗语
slk Slovak 斯洛伐克
slk_frak Slovak - Fraktur 斯洛伐克- Fraktur
slv Slovenian 斯洛文尼亚
spa Spanish; Castilian 西班牙语; 卡斯蒂利亚
spa_old Spanish; Castilian - Old 西班牙语; 卡斯蒂利亚-老
sqi Albanian 阿尔巴尼亚
srp Serbian 塞尔维亚
srp_latn Serbian - Latin 塞尔维亚语-拉丁语
swa Swahili 斯瓦希里语
swe Swedish 瑞典
syr Syriac 叙利亚
tam Tamil 泰米尔
tel Telugu 泰卢固语
tgk Tajik 塔吉克斯坦
tgl Tagalog 菲律宾语
tha Thai 泰国
tir Tigrinya 提格雷语
tur Turkish 土耳其
uig Uighur; Uyghur 维吾尔族; 维吾尔
ukr Ukrainian 乌克兰
urd Urdu 乌尔都语
uzb Uzbek 乌兹别克斯坦
uzb_cyrl Uzbek - Cyrilic 乌兹别克斯坦- Cyrilic
vie Vietnamese 越南语
yid Yiddish 意第绪语

识别测试

终端输入命令

tesseract 00.png result/00

指定语言:

tesseract -l chi_sim imgName result

指定多语言,用+号相连

tesseract -l chi_sim+eng imgName result