有时候我们需要将图片中的文字识别成可编辑的格式,这就要用到OCR工具,常用的OCR工具有汉王公司开发的OCR识别软件等。但是,那些软件都是收费的,为了偶尔的一次使用,没必要去购买一套。其实,Microsoft Office已经为我们提供了该功能。
在安装Office 2003时会默认(Office 2007默认不安装,需要手动添加)为我们安装一个虚拟的打印机——Microsoft Office Document Imaging,利用该虚拟打印机可以将任何文件打印成类似于PDF格式的文件,其后缀为.mdi。该虚拟打印机同时集成了OCR功能,通过Microsoft Office Document Imaging做文字识别的方法是:
将待识别的图片进行打印,打印时选打印机为“Microsoft Office Document Imaging”,这时出现保存对话框,选取“Microsoft Document Imaging 格式(*.mdi)”进行保存,之后Microsoft Office Document Imaging会自动打开该文件(如果没有自动打开,双击保存的文件即可),可以看到一个类似于Adobe Reader的界面,单击“工具”菜单,选“使用OCR识别文本”,在弹出的对话框中选择识别的范围,还可点“选项”按钮进行更多设置,然后点确定就可以自动进行识别了。等识别完成后,再用选择工具对图片中的文字进行框选,这时会发现文字可以被选取了,然后就可以复制到到其他软件中进行编辑了。另外,还可以选“工具”—“将文本发送到Word”,设置好参数后将识别后的文本保存成Word文件,而不用再复制了。Microsoft Office Document Imaging的识别率相当高,对于打印的文字可以达到95%以上,甚至在南京夫子庙拍摄的明远楼的牌匾上的字都识别出来了,当然,识别率就没这么高了。
本方法在Office 2007下未实验成功,一是利用Microsoft Office Document Imaging虚拟打印时没有“Microsoft Document Imaging 格式(*.mdi)”选项,需要手工输入后缀;二是识别时软件会出错重启。不知是为什么,等研究好了再告诉大家。简体中文版的Office只能识别简体中文和英语。
另外,在国知局提供的专利信息服务平台的高级检索中也提供了专利说明书的文本格式。 |
|