万益资讯网

还以为OCR识别需要挑三拣四?文心全拿捏

认印刷体这件事,早就不稀奇了。一张标准扫描件,谁都能识别得八九不离十。真正难啃的是另一摞东西:弯折的书页、屏幕拍照的反光、倾斜的角度、忽明忽暗的光照、生僻字,还有密密麻麻、横竖交错的表格。

机器能不能读懂这个世界,看的就是这些"不规整"。