《Umi-OCR：文字的解放者》初识Umi

2024年10月28日12:42:18评论24 views字数 4285阅读14分17秒阅读模式

在数字信息的海洋中，文字是连接过去与未来的桥梁。然而，当这些文字被囚禁在图像和PDF的牢笼中时，它们便失去了自由流动的力量。在这个世界里，有一个名为Umi的OCR软件，它如同一位解放者，将文字从束缚中解救出来，赋予它们新的生命。

初春的午后，阳光透过半开的窗帘，洒在了李明的办公桌上。他的目光落在了电脑屏幕上，那里显示着一份密密麻麻的英文报告。作为一名数据分析师，他每天都要处理大量的文档，从中提取关键信息。但是，今天的工作似乎比往常更加繁重，因为这份报告是扫描版的PDF，文字被牢牢地锁定在图像之中。

李明叹了口气，他知道这意味着他需要手动输入这些文字，或者寻找一种方法将它们转换成可编辑的文本。他记得曾经听说过OCR技术，但市面上的软件要么价格昂贵，要么需要依赖网络连接。作为一名对技术充满好奇心的人，他决定自己动手，寻找一个解决方案。

他打开了浏览器，输入了“离线OCR软件”几个字，屏幕上立刻跳出了无数个搜索结果。就在这时，一个名为“Umi-OCR”的软件吸引了他的注意。根据网页上的描述，这是一款免费、开源且支持批量操作的离线OCR软件，它支持Windows和Linux系统，并且内置了多国语言库。

李明的心跳微微加速，他感到一种探险者发现新大陆般的兴奋。他点击了下载链接，一个小巧的.7z压缩包很快就下载完成了。他双击文件，解压到了桌面上的一个新建文件夹中。

软件的界面简洁而直观，没有过多的装饰，给人一种专业而高效的感觉。李明注意到界面的右上角有一个齿轮图标，他点击了它，进入了全局设置。在这里，他可以调整软件的各种参数，包括语言、主题、字体大小，甚至是OCR插件的选择。

他选择了中文作为界面语言，软件立刻响应了他的选择，所有的菜单和提示都变成了熟悉的中文。李明满意地点了点头，然后切换到了“截图OCR”标签页。他阅读了使用说明，了解到他可以通过快捷键唤起截图功能，然后软件会自动识别图中的文字。

他决定先做一个小测试。李明打开了一个新的截图工具，截取了报告的第一页，然后将图片复制并粘贴到了Umi-OCR中。软件立刻响应，开始处理图片。几秒钟后，屏幕上显示出了识别结果，文字被整齐地排列在了窗口的右侧。

李明仔细对比了原文和识别结果，发现准确率相当高，只有极少数的地方需要手动修正。他的心情变得激动起来，这正是他所需要的工具。他开始想象，有了Umi-OCR，他的工作效率将大大提高，再也不需要为处理扫描文档而烦恼。

他继续探索软件的其他功能。在“批量OCR”标签页中，他看到了支持多种图片格式的选项，以及文本后处理的功能，这可以让识别后的文本更加适合阅读和使用。他还发现了“忽略区域”的功能，这在处理含有水印或页眉页脚的文档时非常有用。

在“文档识别”标签页中，李明发现Umi-OCR不仅能处理图片，还能识别PDF和其他电子文档中的文字。他尝试着打开了报告的PDF版本，软件很快就完成了识别，并且提供了双层可搜索的PDF输出选项。

最后，他在“二维码”标签页中发现了扫码和生成码的功能。虽然这与他的工作不直接相关，但李明觉得这是一个很有趣的额外功能。

当李明关闭Umi-OCR的时候，窗外的夕阳已经开始西下。他感到一种深深的满足感，因为他知道，从今天开始，他的工作方式将彻底改变。Umi-OCR不仅是一个软件，更是一个解放者，它解放了被囚禁在图像中的文字，也解放了李明的生产力。

上文使用AI润色软件介绍，看官酌情轻喷，以下是软件的正式介绍

软件来源于开源；文末有下载地址

简介：

OCR software, free and offline. 开源、免费的离线OCR软件。支持截屏/批量导入图片，PDF文档识别，排除水印/页眉页脚，扫描/生成二维码。内置多国语言库。

适用环境:
_{适用于 Windows7 x64 、Linux x64}

免费：本项目所有代码开源，完全免费。
方便：解压即用，离线运行，无需网络。
高效：自带高效率的离线OCR引擎，内置多种语言识别库。
灵活：支持命令行、HTTP接口等外部调用方式。
功能：截图OCR / 批量OCR / PDF识别 / 二维码 / 公式识别

《Umi-OCR：文字的解放者》初识Umi

使用方法/教程:

软件发布包下载为 .7z 压缩包或 .7z.exe 自解压包。自解压包可在没有安装压缩软件的电脑上，解压文件。

本软件无需安装。解压后，点击 Umi-OCR.exe 即可启动程序。

界面语言

Umi-OCR 支持的界面多国语言。在第一次打开软件时，将会按照你的电脑的系统设置，自动切换语言。

如果需要手动切换语言，请参考下图，全局设置→语言/Language 。《Umi-OCR：文字的解放者》初识Umi

标签页

Umi-OCR v2 由一系列灵活好用的标签页组成。您可按照自己的喜好，打开需要的标签页。

标签栏左上角可以切换窗口置顶。右上角能够锁定标签页，以防止日常使用中误触关闭标签页。

截图OCR

《Umi-OCR：文字的解放者》初识Umi

截图OCR：打开这一页后，就可以用快捷键唤起截图，识别图中的文字。

左侧的图片预览栏，可直接用鼠标划选复制。
右侧的识别记录栏，可以编辑文字，允许划选多个记录复制。
也支持在别处复制图片，粘贴到Umi-OCR进行识别。
关于公式识别功能

文本后处理

《Umi-OCR：文字的解放者》初识Umi

关于 OCR文本后处理 - 排版解析方案：可以整理OCR结果的排版和顺序，使文本更适合阅读和使用。预设方案：

多栏-按自然段换行：适合大部分情景，自动识别多栏布局，按自然段规则进行换行。
多栏-总是换行：每段语句都进行换行。
多栏-无换行：强制将所有语句合并到同一行。
单栏-按自然段换行/总是换行/无换行：与上述类似，不过不区分多栏布局。
单栏-保留缩进：适用于解析代码截图，保留行首缩进和行中空格。
不做处理：OCR引擎的原始输出，默认每段语句都进行换行。

上述方案，均能自动处理横排和竖排（从右到左）的排版。（竖排文字还需要OCR引擎本身支持）

批量OCR

《Umi-OCR：文字的解放者》初识Umi

批量OCR：这一页用于批量导入本地图片进行识别。

支持格式：jpg, jpe, jpeg, jfif, png, webp, bmp, tif, tiff。
保存识别结果的支持格式：txt, jsonl, md, csv(Excel)。
与截图OCR一样，支持文本后处理功能，整理OCR文本的排版和顺序。
没有数量上限，可一次性导入几百张图片进行任务。
支持任务完成后自动关机/待机。
如果要识别像素超大的长图或大图，请调整：页面的设置→文字识别→限制图像边长→【调高数值】。
拥有特殊功能 忽略区域 。

忽略区域

《Umi-OCR：文字的解放者》初识Umi

关于 OCR文本后处理 - 忽略区域：批量OCR中的一种特殊功能，适用于排除图片中的不想要的文字。

在批量识别页的右栏设置中可进入忽略区域编辑器。
如上方样例，图片顶部和右下角存在多个水印 / LOGO。如果批量识别这类图片，水印会对识别结果造成干扰。
按住右键，绘制多个矩形框。这些区域内的文字将在任务中被忽略。
请尽量将矩形框画得大一些，完全包裹住水印所有可能出现的位置。
注意，只有处于忽略区域框内部的整个文本块（而不是单个字符）会被忽略。如下图所示，黄色边框的深色矩形是一个忽略区域。那么只有key_mouse才会被忽略。pubsub_connector.py、pubsub_service.py 这两个文本块得以保留。

《Umi-OCR：文字的解放者》初识Umi

文档识别

《Umi-OCR：文字的解放者》初识Umi

文档识别：

支持格式：pdf, xps, epub, mobi, fb2, cbz。
对扫描件进行OCR，或提取原有文本。可输出为 双层可搜索PDF 。
支持设定 忽略区域 ，可用于排除页眉页脚的文字。
可设置任务完成后 自动关机/休眠 。

二维码

《Umi-OCR：文字的解放者》初识Umi

扫码：

截图/粘贴/拖入本地图片，读取其中的二维码、条形码。
支持一图多码。
支持19种协议，如下：

Aztec,Codabar,Code128,Code39,Code93,DataBar,DataBarExpanded,DataMatrix,EAN13,EAN8,ITF,LinearCodes,MatrixCodes,MaxiCode,MicroQRCode,PDF417,QRCode,UPCA,UPCE

《Umi-OCR：文字的解放者》初识Umi

生成码：

输入文本，生成二维码图片。
支持19种协议和纠错等级等参数。

全局设置

《Umi-OCR：文字的解放者》初识Umi

全局设置：在这里可以调整软件的全局参数。常用功能如下：

一键添加快捷方式或设置开机自启。
更改界面语言。Umi支持繁中、英语、日语等语言。
切换界面主题。Umi拥有多个亮/暗主题。
调整界面文字的大小和字体。
切换OCR插件。
渲染器：软件界面默认支持显卡加速渲染。如果在你的机器上出现截屏闪烁、UI错位的情况，请调整界面和外观 → 渲染器 ，尝试切换到不同渲染方案，或关闭硬件加速。

调用接口：

命令行手册：https://github.com/hiroi-sora/Umi-OCR/blob/main/docs/README_CLI.md
HTTP接口手册:https://github.com/hiroi-sora/Umi-OCR/blob/main/docs/README_CLI.md

构建项目

第零步：（可选）fork本项目

第一步：下载代码

请参考更新日志开头的说明。

后续步骤：

请跳转下述仓库，完成对应平台的开发/运行环境部署。

Windows：https://github.com/hiroi-sora/Umi-OCR_runtime_windows
Linux：https://github.com/hiroi-sora/Umi-OCR_runtime_linux

下载发行版

以下发布链接均长期维护，提供稳定版本的下载。

蓝奏云 https://hiroi-sora.lanzoul.com/s/umi-ocr （国内推荐，免注册/无限速）
GitHub https://github.com/hiroi-sora/Umi-OCR/releases/latest
Source Forge https://sourceforge.net/projects/umi-ocr

• Scoop Installer（点击展开）

Scoop 是一款Windows下的命令行安装程序，可方便地管理多个应用。您可以先安装 Scoop ，再使用以下指令安装 Umi-OCR ：

添加 extras 桶：

scoop bucket add extras

（可选1）安装 Umi-OCR（自带 Rapid-OCR 引擎，兼容性好）：

scoop install extras/umi-ocr

（可选2）安装 Umi-OCR（自带 Paddle-OCR 引擎，速度稍快）：

scoop install extras/umi-ocr-paddle

不要同时安装二者，快捷方式可能会被覆盖。但您可以额外导入插件，随时切换不同OCR引擎。

原文始发于微信公众号（像梦又似花）：[永久免费软件合集]《Umi-OCR：文字的解放者》初识Umi

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

《Umi-OCR：文字的解放者》初识Umi

使用方法/教程:

界面语言

标签页

截图OCR

文本后处理

批量OCR

忽略区域

文档识别

二维码

全局设置

调用接口：

构建项目

第零步：（可选）fork本项目

第一步：下载代码

后续步骤：

下载发行版

第128篇：Struts2全版本漏洞检测工具19.68版本更新

WebToolkit：纯前端工具集

超越传统Webshell | Nginx内存马免杀方案深度实践

mnemonic-encryptor：专为数字钱包助记词本地安全备份设计的加密工具

工具集：水滴工具箱V9【集端口扫描器，漏扫，抓包，内存马，内网穿透，c2，免杀等渗透于一体的工具箱】

AI赋能的JS扫描与漏洞挖掘神器|漏洞探测

安全审计工具套件 X-SAST-Public(7月1日更新)

奇安信 mingdon 明动 burp插件0.2.6 去除时间校验版

SqlMap 的高级用法！

Kali Linux 最佳工具之协议分析工具Yersinia简介与方法

发表评论

在线咨询

微信