扫描常见问题(旧)

本页部分或全部过时:请参阅帮助部分。请访问分布式校对器查看积极讨论和维护最佳实践的论坛。

什么是扫描仪?

扫描仪是一种机器,它可以生成图像,即输入到其中的页面的图片,并将该图像发送到计算机。它只会像相机一样生成图像;它不会将图像转换为文本。

有什么类型的扫描仪?

最常见的扫描仪类型是平板扫描仪,你可能会在当地的电脑商店中找到这种扫描仪。它有一张玻璃床,通常比信纸大一点(如果你住在欧洲,也可以是A4!:-),大多数常见的模型都是针对典型的办公室信件进行优化的。根据它的特点,其中一个可能需要100美元到400美元不等的价格,或者你可以买到更便宜的二手货。你可以把纸或书面朝下平放在玻璃上,然后从那里扫描。这是PG志愿者最常用的扫描仪。

一些商店会将片状扫描仪称为另一类。这些是带有自动文档进纸(ADF)的平板扫描仪,但它们基本上是同一台机器,并且ADF进纸器单元通常可以作为平板扫描仪的附件购买。最近,出现了一些非常小的单张纸扫描仪,没有一个完整的平板,只有一条窄条纸可以滚动。避免在PG工作中使用这些工具;你经常需要能够平扫这本书。

顾名思义,手持扫描仪体积小得多,通常非常便宜,甚至可以免费使用。你可以把它们拿在手里,像画笔一样沿着文本滚动。这些确实不是为PG工作准备的;你需要一个非常稳定的手部动作才能让他们将一页文本扫描成可读的图像,而且他们不应该被视为400页书籍的一个选项-如果没有它,OCR就够难的了!

您可以将生产扫描仪视为工业级的平板扫描仪。基本机制是一样的,但生产扫描仪肯定会有ADF(纸张进纸器)、更多的功能和速度,并且可以进行高容量扫描。生产扫描仪被出版商、有大量纸张处理需求的企业和印刷店使用。这最后一个很有用,因为你可以通过印刷店完成一些扫描。问也无妨。如果你想买一个这样的孩子(我们当中谁没有?:-),确保你有2000美元或更多的钱可以花。

滚筒扫描仪主要用于出版商制作专业、高质量的艺术品。纸张放在滚筒表面,滚筒旋转经过固定的扫描头。鼓可以很大。因为传感器不需要移动,所以电子和光学可以具有更高的质量,并产生非常准确、高清晰度的图像。它们正是你想要的旧电影海报的专业质量扫描,但它们价格昂贵,对OCR扫描《战争与和平》来说用处不大。

行星扫描仪与其他所有扫描仪都是不同的品种。它们实际上根本不是扫描仪,而是一个放在支架上的非常高端的数码相机。你把书面朝上放,打开书页,相机朝下看。它拍下一张照片,然后把它传给连接的计算机。行星扫描仪适用于那些无法承受正常扫描压力的旧的、易碎的、有价值的书籍。他们通常会配备专门的软件,有时甚至会配备自己的专用计算机,而且价格非常非常昂贵——20000美元以上。

我应该买哪种扫描仪?

对大多数人来说,答案很简单。除非你有很多钱并且确信你会扫描很多书,否则你应该买一台普通的、消费型或办公型的平板扫描仪,带或不带ADF送纸器。

决定了这一点后,你面临着购买哪种扫描仪的问题。更多好消息!扫描仪市场竞争非常激烈,许多顶级供应商都像鹰一样关注彼此的功能,渴望交付他们能提供的最高光谱机器。在这个决定中,只有几个关键因素——其中大部分是关于获得最佳购买。

对于PG工作,您确实需要不低于300x300dpi(每英寸点数)的光学分辨率,而600x600是非常理想的。显然,越多越好,但PG工作需要超过600 dpi的情况将非常罕见。不要注意“插值”或“增强”分辨率,因为软件会“猜测”哪些点应该填充间隙,您只对光学分辨率感兴趣。好消息是,很难找到最大光学分辨率低于600 dpi的现代扫描仪,但如果你是买二手货,你应该先看看这个。

你还需要在玻璃上有一个足够大的扫描面,使你的书有两个对开页。同样,好消息是,很难找到扫描表面太小而不适合PG工作的平板,因为这些扫描仪往往设计用于处理大小合适的办公用纸。大多数平板扫描仪的扫描表面约为8.5英寸x 11.5英寸,这是PG工作的标准。如果您正在处理具有非常大页面的书籍,您可能需要一次扫描一页,但为这些罕见的场合购买带有大平板的扫描仪将要贵得多。

您必须确保您的扫描仪能够正确连接到您的计算机。通常有四种主要类型的连接:SCSI、USB、FireWire(IEEE 1394)和并行。

SCSI(小型计算机系统接口)是最高质量的选择,但这意味着你需要在电脑中安装SCSI卡,并愿意找出如何安装它。如果你已经是SCSI爱好者,你不需要进一步阅读;如果你不喜欢,我建议你避免它,除非你喜欢修补。生产扫描仪大多需要SCSI。

并行端口连接过去很常见,是SCSI的一种更便宜、更容易的替代方法。自从USB引入以来,它们变得越来越稀少,但你仍然可以看到它们是二手的。这些插头插入打印机端口,不需要任何进一步的工程技能。

大多数新扫描仪使用USB(通用串行总线)接口连接,这是一个无需使用即插即用的选项,但请确保,如果您有一台旧电脑,它实际上有一个USB端口,并且您的操作系统支持它;一些较旧的Windows PC和Mac可能不会。如果你的电脑不支持USB,你可能应该看看并行端口扫描仪。

如果你买的是二手扫描仪,使用过的扫描仪可能很便宜,那么一定要确保你得到的是扫描仪附带的原始软件,并且该软件能够与你电脑上当前的操作系统兼容。

在确保您选择的扫描仪通过这些测试后,您现在可以尽情享受您喜欢的任何附加功能。颜色很好,但很少使用,因为我们大多抄写没有彩色印刷的旧书。更高的分辨率让人感到欣慰,因为你偶尔会发现它们很有用,也因为它表明光学元件的质量比你实际需要的PG扫描要高。

如果您对自己选择的扫描仪感到紧张,或者对使用扫描仪的容易程度感到紧张,请随时联系其他PG志愿者征求意见,如常见问题解答“PG志愿者如何交流?”[V.12]所述。

什么是ADF?

ADF代表“自动文档馈送”(Automatic Document Feed),它只是Sheetfeer的一个术语,指的是放入一堆页面进行扫描,然后在扫描过程中离开,而不是手动放入每个页面。

我需要ADF吗?

这取决于情况。是的,ADF是一个好主意,可以节省大量的工作,如果你有足够的钱花,它可能是值得的。但ADF有一个小秘密:就像其他带有运动部件的小发明一样,它有时会卡住。这些低成本机器内置的纸张送纸器旨在直接从激光打印机上处理典型的办公用纸——大、光滑、质量好,边缘切割完美、对齐。在你的PG作品中,你将处理有百年历史的各种厚度和纹理的页面,通常比纸页进纸器设计的要小得多。而且,您必须剪切页面,这样可能会留下粗糙的边缘。

在这种情况下,您可能会发现纸张经常卡在进纸器中,如果在扫描仪工作时您不得不站在扫描仪旁边,或者如果您最终不得不抬起盖子并将扫描仪用作普通平板,或者更糟糕的是,如果您的纸张被揉成一团,就像一只狗在玩它一样,这就无法达到目的。

当然,为了让页面通读,你必须把它们从书中剪下来,然后把它弄坏。(在装订工的帮助下,可能会对页面进行专业裁剪,然后重新装订。)

使用ADF,你可能不会比平扫快得多,但在这段时间里你不必一直翻页。

所以当你做出选择时,要仔细考虑。如果钱不成问题,或者你真的希望用剪纸工作,那么就去买一个送纸器吧——它工作起来很好!但当它不总是起作用时,不要失望。

什么是“TWAIN驱动程序”?为什么我需要一个?

TWAIN驱动程序(参见TWAIN.org)是一个安装在Windows PC或Mac上并从那里控制扫描仪的软件。对于任何现代扫描仪,其软件包中将包含TWAIN驱动程序。安装后,您不必再考虑它,甚至不必知道它就在那里。

现代OCR软件包通常会找到您的TWAIN驱动程序,并使用它来控制扫描仪。这很方便。您的TWAIN驱动程序可能还有一个小的扫描包,它将提供一个屏幕,您可以在其中对扫描仪设置进行微调,然后开始扫描。您可能不需要它,因为您的OCR软件包可能会为您做这件事,但它可能对扫描仪的半手动控制很有用。

基于Unix的系统(如Linux)使用SANE(http://www.sane-project.org/)[http://www.sane-project.org/]而不是TWAIN驱动程序。

我如何扫描一本书?

这取决于你是否已经把书页剪下来,或者你是否正在处理一本完整的书。

如果你已经把页面剪下来,并且你有一个ADF,那么很明显你会通过它给他们提供信息。

如果你没有一个ADF,通常没有多大的意义,削减页面。大多数现代OCR都能识别“双页”或“两页”扫描,如果你能识别,那通常是最好的选择。扫描未切割的书,打开并放平,是PG中最常用的扫描方法。

把书打开,平放在扫描仪玻璃上。为了将两页都放在玻璃上,你可能需要将其纵向放置,与自然角度成90度。大多数OCR软件都会识别出图像是通过直角旋转的,并且会在读取文本时进行纠正。

扫描一本打开的书时,一个常见的问题是“排水沟”,当书脊没有被压平时,就会发生这种情况,而书脊与书脊相交的每一页的内侧都会在玻璃上弯曲。在常见问题解答[s.17]“为什么我的OCRed文本中有很多错误?”中有更多关于这方面的内容,还有一个示例scan3。为了避免擦伤,请确保在整个扫描过程中脊椎保持向下。(有些人在每次扫描时都在脊椎上放一个重物来压住脊椎;其他人只是用手按住它。)

另一个常见的问题是光线散射,当过多的光线进入扫描仪时。扫描头检测光线,您希望唯一的内部光源来自扫描仪本身,而不是环境室内光线或阳光。扫描仪有盖子,在扫描时可以关闭盖子,以控制光线强度,但当你扫描一本打开并放平的书时,你无法完全关闭盖子。在糟糕的情况下,这可能会导致胶片的扫描过度曝光,您可以在常见问题[S.17]的扫描4中看到一个例子:“为什么我的OCRed文本中出现了很多错误?”。如果发生这种情况,请确保扫描时房间光线昏暗,不要让明亮的阳光在扫描仪内部反射!

偶尔,当用很薄的纸扫描剪切页时,你可能会看到另一面的文本阴影。如果发生这种情况,您可以尝试用一张黑色纸盖住扫描仪盖的内侧(通常为白色)。

许多现代OCR软件包将自动控制扫描仪,您可以设置OCR,使其每隔30秒进行一次自动定时扫描。这非常节省时间,因为你不必在扫描仪和屏幕之间来回切换。只需设置计时器,按住书本进行扫描,拿起书本,翻一页,再放下,然后等待下一次扫描开始。将计时器设置为你觉得合适的时间间隔。强烈建议,如果你的OCR或扫描包可以做到的话。

默认情况下,大多数扫描仪总是扫描平板的整个区域,但通常情况下,您的书只占其中的一半。请在OCR或扫描包上寻找一个设置,以减少头部扫描的区域。只需扫描足够的内容即可获得页面的图像。这使得每次扫描和后续OCR识别的时间更短,并且在真正好的情况下可以将总扫描和OCR时间减半。

一起扫描所有页面通常是最快的,但您可能更喜欢扫描每个双页,然后在OCR包的编辑器中更正它,然后扫描下一页。这是一种更为悠闲的方式,受到一些志愿者的青睐。

我的书不够平,无法很好地扫描,我不想剪页数。

那么,你很难做出选择,但你仍然有几个选择:

你可以接受一个低质量的扫描,并花大量时间修复边缘的排水沟。

你可以咬紧牙关,把书页剪下来。

你可以把书打出来,或者找一个打字员帮你写。

你可以找到一家印刷店或装订工,他们会专业地剪下书页,并在你剪完后重新装订。你甚至可以用一个新的装订来代替它,这将给这本书带来新的生命。

选择吧。

大多数书都会打开得足够平,以便进行充分的扫描,尽管你可能需要对书脊施加压力。

如果你有一本非常珍贵的书,却找不到打字员,你可以考虑用数码相机[S.11]或找一个人用行星扫描仪[S.2]为你扫描。

迈克尔·哈特(Michael Hart)说:“我会放弃我所有的每一本书,包括我的第一本《牛津英语词典》(OED)、我的内战版《韦氏词典》(Merriam Webster)的《未删节》(Unbridged)等,这样每个人都可以随时使用它,而不是只有我或我的朋友才能使用它……显然,我也可以使用它。”

幸运的是,这种情况很少发生。

扫描一本书需要多长时间?

把书平放在玻璃上意味着你一次要扫描两页。一个合理的现代扫描仪可以在20到40秒内以400dpi的速度扫描两个典型页面的区域,我们称之为两页30秒。这是每分钟四页,或者每小时240页。你可以在两个小时内读完一本400页的书,即使考虑到偶尔的休息或故障。

当然,在开始之前,您还应该留出时间扫描一些具有不同设置的试用页,以决定使用哪些设置。在这里花十分钟可以节省你几个小时的校对时间。

有两个可以节省大量扫描时间的大提示:

如果您的OCR或扫描仪控制软件包有一个定时器设置,它会自动继续扫描而无需用户干预,那么您可以忘记屏幕,只需根据需要继续翻页。

你应该将扫描仪设置为只扫描书覆盖在玻璃上的区域。默认情况下,您的软件可能会扫描玻璃的整个区域,通常您的书不需要这样。通过只扫描您需要的内容,您通常可以节省扫描整个区域所需时间的20%到70%。如果你的书足够小,可以平放在扫描仪上而不是“向下”打开,那么用这个技巧一小时400页也不是不可能的。

扫描仪的最佳设置是什么?

对于给定的书籍、扫描仪、PC和OCR软件,必须有一些“理想”的扫描仪设置,但如果您更改其中任何组件,理想的扫描仪设置也会随之更改。一些OCR软件包比黑白软件更好地识别灰度;有些人根本不喜欢灰度。有些书的印刷字体较小,需要较高的分辨率;有些是斑点,因此分辨率越高,误差越大。

显然,最好的设置也取决于每本书,有些书需要你对设置进行彻底的创新,但大多数PG书籍都是以黑白或灰度扫描的,大约在300dpi到600dpi之间。

这个决定是在速度和准确性之间的权衡,也是原则和实践之间差异的一个例证。原则上,与黑白400dpi扫描相比,真彩色9600dpi扫描对页面的渲染效果要好得多。实际上,所有这些额外的信息通常都无法帮助OCR更好地区分字母,扫描越大、越详细,扫描时间越长,图像文件占用的磁盘空间越大,OCR软件包识别它所需的处理时间和内存也就越多。

当考虑较高分辨率与较低分辨率时,会出现另一个矛盾:根据纸张和墨水的质量,您可能会看到在非常高分辨率的扫描中开始出现更多错误。这是由高分辨率扫描中出现的纸张或墨水斑点的微小缺陷引起的,OCR试图将其解释为字母或标点符号。

总之,越大越好,但只是在一定程度上。

亮度是一个经常被忽视的设置,它会对你的结果产生很大的影响。看看扫描的图像:如果你看到很多暗斑,让你的扫描更亮;如果你的信件看起来很薄而且褪色,请把扫描颜色调深。

请参阅常见问题解答“为什么我的OCRed文本中出现了很多错误?”对于一些典型的扫描和结果。

我可以用数码相机代替扫描仪吗?

数码相机的分辨率一直在提高,一些志愿者尝试用数码相机和支架制作一种自制的行星扫描仪。到目前为止,结果与专用扫描仪不太匹配,但随着数码相机的改进,这可能会成为一种常见的选择。行星扫描仪使用专门的软件来纠正的一个问题是,靠近书中央的页面的自然曲线往往会给那里的字母带来缩短的效果,这可能会给OCR软件带来问题,比如排水沟。

无论当前的问题是什么,使用数码相机的前景都是令人兴奋的,因为这意味着非类型主义者将能够制作从图书馆借来的旧书,而不必担心扫描质量和脊椎损伤。

什么是OCR?

OCR代表光学字符识别。这是一个非常重要的软件,它可以查看扫描仪提供的页面图片,并将其转换为文本。

当扫描仪传送页面图像时,该图像只是一张图片。例如,您不能在其中搜索文本,也不能编辑文本以添加空行。你的编辑器或文字处理器无法使用它。OCR程序为你“阅读”和“键入”图像。OCR软件包称之为“阅读”或“识别”。

OCR包之间有什么区别?

一个词:巨大。所有的OCR软件包都做同样的工作,但它们以不同的方式、不同的功能和不同的精度进行。OCR可以节省你很多时间,也可以花费你很多时间。真的值得花点精力确保你得到正确的OCR软件包,一旦你有了它,就要理解如何使用它。从长远来看,这将为你节省时间。

OCR应该有多准确?

OCR软件包通常说它们是“99%以上”的准确度,或者类似的。让我们分析一下这实际上意味着什么:假设每页上有1000个字符(字母),那么如果准确率达到99.9%,你就需要每页更正一次。在99%的准确率下,每页最多可以更正10次。在一本400页的书中,这一切加在一起。

但这里面有一个“你的里程可能会变化”的条款。通常,制造商会在新鲜的、激光打印的或印刷的OCR副本上进行完美扫描测试,这是公平的,因为他们的产品主要针对处理此类材料的企业。你不是在处理新印刷品;你要处理的是那些发黄、有斑点、有标记、印刷不完美的旧书,可能还使用了不熟悉的字体。而且你不太可能有耐心在每一页上都进行完美的扫描。结果是,典型PG作品的OCR准确度与完美、新鲜纸张的图像准确度不匹配。

除了扫描质量外,OCR还必须处理不同字体和大小的字母。

然而,如果每页出现10个以上的错误,您应该查看常见问题解答中的一些OCR示例“为什么我的OCRed文本中出现了很多错误?”.

我应该得到哪个OCR包?

OCR软件的准确性在过去几年里有了巨大的提高,OCR技术看起来可能会比一般软件的改进速度更快。此外,这一领域存在竞争,产品定期推出新版本,相互超越。PG志愿者最常提到的品牌(2002年年中)是Abbyy、OmniPage和TextBridge[P.1],这三个品牌的试用版都可以在网上下载,当你读到这篇文章时,可能仍然可以下载。[警告:这些是大量下载-40MB或更多。]

大多数常见的OCR包将提供两个主要的工作选项:在保存之前扫描页面并就地查看/编辑生成的文本,以及一起扫描整批页面并稍后查看/编辑所有页面。有些人喜欢一次修改一页;其他人喜欢一次性完成所有OCR工作,然后将整个文本输入到他们的编辑器中。大多数OCR软件都能满足这两种需求,如果这对你来说很重要,你应该检查一下你正在购买的OCR是否支持你想要的工作方式。

如果您打算使用英语以外的语言,请确保您购买的OCR支持您语言中的字符。

一些OCR软件具有“培训”或“学习”模式。使用此模式,它会扫描并“读取”或“识别”一页,然后您更正该页,OCR会从错误中“学习”,并在识别下一页时尝试更好地处理误读的字母。如果您正在处理一种非常罕见的字体,这可能会影响OCR的质量,但现代OCR软件包为大多数语言提供了足够的内置字体知识,您可能不需要这样做。

如果可能,请在决定之前尝试几个OCR包。如果你想对具体版本发表意见,请联系其他PG志愿者并征求他们的意见,如常见问题解答中所述“PG志愿者如何沟通?”

OCR软件包通常会犯什么类型的错误?

每个文本都有自己的特点,但有一些众所周知的扫描错误,您将一直在处理。

标点符号总是一个问题。句点、逗号和分号以及冒号和分号经常混淆。电子文本中通常还有一些多余或缺失的空格。

在包含大量对话的文本中,尤其是在嵌套单引号和双引号的情况下,引号的问题可能会呈现出可怕的比例。

数字1,小写字母l,感叹号!我经常混淆大写字母,通常单引号或双引号可能会被误认为其中之一。

小写字母m经常被误认为是rn或ni。

字母h、b、e和c通常被误读,这可能是所有单词中最难理解的,因为ear/car、eat/cat、he/be、hear/bear、hear/bard都是常见的单词,没有拼写检查员会将其标记为问题。

例如:

“你好,打电话给jirnmy breczily。11有人在家吗?”在他看来,周围似乎空无一人。我只吃胡须。"

应为:

“你好!”吉米轻松地喊道,“有人在家吗?”周围似乎没有人。只有猫听到了他的声音。

为什么我的OCRed文本中有很多错误?

如果你是OCR的新手,你可能会认为OCR几乎是完美的,只是偶尔会犯一些错误。不。OCR的工作有点令人惊讶,当它工作时,它并不完美。

对于典型的PG工作,您可能会合理地期望平均每页最多10个错误;如果您看到更多,则存在问题

印刷书籍的问题分为三类:印刷不良、老化和字体异常。印刷不良包括印刷时印刷机上的墨水过多或过少,以及金属字体损坏时印刷不规则等问题。年龄会导致纸张变黄甚至变褐,以及打印褪色。不寻常的字体可能很难被OCR识别,而且非常紧凑的打印可能会使相邻的字母看起来像是在接触,这会使OCR软件混淆。

有很多方法可以让你的扫描出现问题。显然,如果您的扫描仪有缺陷或玻璃脏了,您会立即注意到它,但您可能会犯许多错误,从而导致图像质量较差,并导致OCR以后出现问题。

你可能无法控制你必须使用的纸张的质量,但你可以对扫描质量做很多事情。

没有扫描仪经验的人最常犯的两个错误是,没有把脊椎固定得足够牢固,无法获得纸张的平面图像,没有正确设置亮度,或者让太多的光线进入。在早期扫描时,要注意这些问题。

首先,如果您还没有,请阅读常见问题解答“我怎么扫描一本书?”并检查您是否遵循了那里的基本建议。

现在让我们看一些示例,看看您可能会遇到的问题类型。

关于这些示例的免责声明:指定了特定的OCR软件包,但您不应将其视为对软件的公平和全面的比较审查。本练习的目的是显示典型的扫描条件和问题,以及产生的OCR输出。OCR软件包本身有很大的差异,在某些文本上可能比其他文本更好,可能会随着“训练”或不同的设置而改进,我甚至看到同一个OCR软件包在相同的设置下从同一图像中生成不同的文本!此外,由于OCR质量正在迅速提高,并且软件包在质量上相互超越,因此特定品牌的下一个版本可能比这里提到的任何软件都要好得多。在这方面特别有趣的是OmniPage 10和OmniPage 11之间的质量飞跃。

扫描1-完美扫描

扫描1几乎是一个完美的扫描,正如你在PG作品中所期待的那样。它来自查尔斯·科尔比(Charles W.Colby)的《新法国的创始人》(The Founder of New France)。它只是一个300 dpi图像,但考虑到打印和扫描的质量,我们只需要300dpi。具有讽刺意味的是,它来自加德纳·布坎南(Gardner Buchanan),他在描述自己如何生成文本时抱怨扫描仪的年龄和虚弱。其寓意是,你不必拥有最新的设备就能获得好的结果!

它实际上不需要任何评论,除了gocr之外的所有包都完美地呈现了它。注意分号前的假“空格”-如果你仔细观察图像,你会发现为什么OCR软件包会把它误认为是一个完整的空格,正如常见问题解答[V.104]中所讨论的那样。“我的书在分号、问号、感叹号和引号等标点符号之前留有空格。我应该这样做吗?”

尚普兰现在明确承诺为法国争取立足点的任务北美。这是他的马厩目的,无论命运是皱眉还是微笑。有时情况似乎是有利的;在其他时候,他们最令人沮丧。因此,如果我们要了解他的生活和无论多么简短,我们都必须考虑到,他工作的条件。

gocr 0.3.6将其转换为:

Champtain现在明确承诺为法国争取立足点的任务_北美洲。这是他的马厩目的,无论命运是皱眉还是微笑。有时情况似乎很好。,在其他时候,他们最令人沮丧。_ence,如果我们要了解他的生活性格,我们必须考虑,无论多么简短,他工作的条件。

扫描2-典型扫描

扫描2是奥尔奇男爵夫人的一段空中城堡。请注意第一行中大写字母“I”上方的墨迹,这将给我们的OCR带来一些问题。页面其他地方的墨迹也不均匀,我扫描时的亮度有点过高。

我做了两次单独的扫描,一次在300 dpi一个在400 dpi黑色和白色。页面被切割得干干净净,小心地直接放在扫描仪玻璃上,盖子放下。最初的印刷字体大小介于《泰晤士报》新罗马10号和11号之间,大写字母高约2.2毫米,但间距更好、更清晰。这些扫描对于PG工作来说相当典型。由于相对较大的字母以及合理的扫描,300 dpi扫描和400 dpi扫描生成的文本之间没有太大差异。

事实上,我把这本书剪下来,把书页拿出来,这样我就可以通过我的ADF把它放进去了,但纸太厚了,而且有纹理,所以粘在一起,在放进去的时候会卡住。厚厚的吸水纸,再加上不均匀的墨迹,意味着无论扫描得多好,任何OCR都必须处理字母的不规则边缘,即使在300 dpi的分辨率下,这些边缘也清晰可见。

这是一些OCR软件包中这些扫描的输出。我只改变了一件事:Abbyy识别出em-dash,并在Codepage 1252中将其作为特殊字符输出,用于em-dashs,这在ASCII中是不可用的,所以我将其转换为PG标准的2破折号。

Abbyy FineReader 6:

是的,的确,我当时正在追踪阿里斯蒂德·福尼尔先生,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑%vas为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千先生,当时法郎是一大笔钱,实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼睛和胜利的笑容驱散了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤一天很多。
是的,确实如此,在阿里斯蒂德·福尼尔的轨道上,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千先生,当时法郎是一大笔钱,实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼睛,和一个胜利的微笑赶走了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。

gocr 0.3.6:

__e,的确,f在h的轨道上。克里斯蒂德·福尼尔,第三个最重要的商品___这是法国制造的。小时?不仅如此。我面前有一个这样的人,这是最糟糕的犯罪之一h4e是m31对comeacro3的不幸。一个bu113_,一个蒂恩德·奥利尔。事实上,受精大脑s_e_1::_g __-entua113__ay:ng令人讨厌的计划ru_in b.__ t1_e hee1。Hangining你会是一个残忍的双关语-i、 __,我是个坏蛋。是的,在我的ee3中,fj1e thou3和在那些日子里,法郎是一个很好的数字,实际情况是13_我被解雇了。但是,呃,在卢克雷之前我一定会在几天内看到感激之情从一对中迸发出来e3_e3_和一个微笑着追逐着_耳边响起了T所见过的最悲伤的声音男)一天。
是的,事实上,f__在h__的轨道上。阿里赛德·福尼尔,和一种最重要的敌方物资___这是法国制造的。仅此而已。我面前还有一个最野蛮的罪犯他曾经是我的错调。一个bu11y,一个残忍的恶魔_事实上,我的大脑参见“3:i”和“e”entua11p 1在ab1e附近的计划跟在后面。绞刑是仁慈的双关语-我很同情这样一个恶棍。是的,的确,五个……和f_ancs-a b_ood1y sum in the days,ir-实际上我很惊讶。但除此之外,还有一点我确信几天后就会看到一对o_,_userous b1ue中闪耀出的感激之情b、。埃斯,和一个回合的微笑,追逐着lk_耳朵和悲伤从s__,eetest脸上_每天很多次。

认可标准3.2.7AK:

~es,确实,~w-as在ltT的轨道上。阿里斯蒂德·福尼尔,以及最重要的敌方货物运输“=它曾经是法国制造的。~只有这个。我哈~我也是我面前最野蛮的罪犯之一吧我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我的大脑s;伊辛·w-伊思计划最终将那个可恶的家伙告上法庭紧随其后的恶棍:吊死~-应该是仁慈的双关语-真是个恶棍。伊雷斯,真的,五千弗兰斯——先生,在那些日子里,这是一笔可观的数目正如我所说。但除了运气之外,还有我确信几天后我会看到一双闪亮的btue发出感激之光和一个成功的微笑赶走了香港从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。
是的,事实上,我当时正在追查阿里斯蒂德·福尼尔,以及最重要的敌方货物运输这是法国制造的。l只投票。在mP之前还有一个最残忍的罪犯曾经是我的不幸遭遇。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为ez的计划而激动不已——真的要把它放在家里后面的恶棍:上吊~~-应该是一个仁慈的双关语-真是个恶棍。是的,确实是五千f: 在那些日子里,anc是一笔可观的数目,先生,实际上向我保证。但除了钱之外,还有几天后我一定会看到一双iEustrous蓝色发出感激之光眼睛和一个微笑赶走了从最新的脸上看到的恐惧和悲伤rr~一天都可以。

OmniPage Pro 10:

是的,的确,我在11T赛道上。阿里斯蒂德·福尼尔,以及最重要的敌方货物运输它曾经是在法国制造的。不仅如此。哈(我也是我面前最野蛮的罪犯之一吧我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终制造这种可恶的东西的计划而愤怒卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼神和胜利的笑容驱散了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。
是的,事实上,在h-I的轨道上前进。阿里斯蒂德·福尼尔,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼睛和胜利的笑容驱散了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。

OmniPage专业版11:

是的,确实,我在AT的赛道上。阿里斯蒂德·福尼尔,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼睛,和一个胜利的微笑赶走了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。
是的,确实,f当时在h-I.阿里斯蒂德·福尼尔的轨道上,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上向我保证。但除了钱之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼睛,和一个胜利的微笑赶走了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。

Textbridge Millennium Pro:

是的,确实,rwas在M.Aristide Fournier的轨道上,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最野蛮的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上我确信。但除了运气之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼神和胜利的笑容驱散了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤每天很多次。
是的,事实上,f正在追踪阿里斯蒂德·福尼尔先生,以及最重要的敌方货物运输这是法国制造的。不仅如此。我面前还有一个最残忍的罪犯我很不幸遇到这样的人。一个恶霸,一个残忍的恶魔。事实上,我丰富的大脑为最终埋葬那个可恶的人的计划而火冒三丈卑鄙小人:绞刑是一种仁慈的双关语-真是个恶棍。是的,确实是五千法郎——在那些日子里是一笔可观的钱,先生——实际上我确信。但除了运气之外,还有几天后我肯定会看到一双明亮的蓝色发出感激之光眼神和胜利的笑容驱散了从我所见过的最甜蜜的脸上感受到的恐惧和悲伤很多天。

扫描3-排水沟和较小打印

扫描3是乔治·梅雷迪思的《利己主义者》中的一段。这本书是在一个昏暗的房间里扫描的,扫描仪的盖子打开了,书敞开着,平放在扫描仪玻璃上。然而,脊椎没有足够牢固地压在玻璃上,因此您可以看到左侧边缘(靠近脊椎)上的单词看起来倾斜,有点扭曲,并且没有很好地照亮。这个问题对于扫描PG的人来说很常见——每个人有时都会分心,并且无法在脊椎上保持足够的压力。正如您从下面的结果中看到的,它对受影响单词上的所有OCR包都造成了问题。如果你在自己的扫描中经常发现这种“掏空”现象,即OCR无法正确识别靠近书脊的字符,那么在进行扫描之前,你需要确保你的书尽可能地放平。

我做了两次扫描,一次是300 dpi一个在400 dpi黑色和白色。由于较小的尺寸和沟槽问题,在这种情况下,400 dpi扫描可以获得更好的质量文本。

以下是示例OCR的输出:Abbyy FineReader 6:

克拉拉和弗农都没有出现在中餐桌上,n米德尔顿与戴尔小姐就古典主义问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩未经修改的观众看到她时可能真的会想她克服了困难,为自己做了一些事。西尔\维尔洛比为她感到骄傲,因此急于索特洛在心情激动地要失去她的时候处理她的事情。他希望通过对弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放他有点害怕,甚至比冒犯了希亚还要多尼里多。
克拉拉和弗农都没有出现在中餐桌上。米德尔顿博士与贝尔小姐就经典问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩没受过教育的观众看到她时可能真的会想尽管困难重重,她还是为自己做了一些事情。西尔“维洛比为她感到骄傲,因此急于趁他心情不好失去她时,把她的事办妥。他希望通过对弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放他有点害怕,甚至超过了冒犯他的程度骄傲。

gocr 0.3.6:

__、、、____、_ Cl、_I.c或Vernon a__e_Ped _t tl_le _id_da_ tab1e__,_I_(__etoiI f,,_lk(;cl与MiSs _ ale _U_1d_ abS8iG_l I_I_t_t_l__i、 _,;,__(_u_-i,L_t_ii.e(L 6iiLIblt 6'7_V.ill_ C'll.tf e_Ul_b rU_Lgt(),ii_,tu_fj(),I(,_uruSS.,__T_ Ill_g UlOUUt_lU o__8O.T_'T_ailu、 ,_,_ifj(;il;,_i((ic,IGG l_i_'lt re_y 8UE)_OB_'_ u_所有8eelll6 lttr_,__i.t_ic(li__icu1ty,SIIe t1_d iluI_e 8ol_eth_ng_ fo_be_.Self._i)___ji___()_i__lIl)y w,s为heT_和k__e的puri_il_(_(.__u l___i.i)i__,ii,除非他在hU_uT中的Wa8变成luse Iier_j__ l()_)(_(l t)tiiIiish it b_ Sh倾斜一个WOTd o__ t_o&t Verno__o__(),__(li,_iIci._ Cl__T_S _eti_tio_ T将从以下位置设置为Tee_.Te1ea8ecl_)ii)),,lIL_Ll v_b__uely f_.ighteUe eVen_OTe kba_ lt OfEe_ded hi_pi_i..(l_u-._,,-.____ _,---__-
________Cl__i.a nop Vernon出现了&t t'h_e _id_day t_le_D__id(lle_oi与ale小姐交谈,时间:_iij_e_6ood-n__tLi_.ed 6iai_t 6_i_ing和Ghild上的__np_'___调谐到_tone aGro_S a braWlin(__inOU__taiß_foPd_So t2_at)__u__p,(_ified__idiei_Ge_ni62it real y 8uppO.8e _ on _seeii_6 l_e_o ______她做了什么事__维尔约利(viljoli)你为他感到骄傲___特勒·李·i·i)你不知道他为什么会失去她___e l_op(_d用8声枪击wopd o_tWo ak Verno__完成__在R_ _ _(in_icr_ Clara请求将其释放之前_)ii__,hhd va6uely freibte_ed eve__ore tban it oe_ed hiD(空气温度过低,温度过高)图片.-.---'

认可标准3.2.7AK:

~rFr~rrmx克拉拉和弗农在中段桌旁窒息而死。bLidrleton博士talkc;与Dale小姐讨论一些重要问题,就像一个~n~a-mZed巨人给了一个孩子在福特的一座斗殴的山上,石击石块uicilized ruciicucc mil·真的很震惊,一见到霍·尽管如此,她还是给自己找了点东西。西尔~Villcm;;lrlry为她感到骄傲,还有angious特拉·埃尔鲁·特恩(sct.tla lrur tn~sincss),当时他正忙着失去她。嘿,路,我要向弗农开枪博洛尔~linncr。克拉拉向博的请愿书付之东流,释放了英镑JGGnt.、。,hvd迷茫的惊吓甚至比冒犯hia还要严重里尔。第页
尼特菲~R克拉拉和弗农出现在第X天的餐桌上。米德尔顿博士和达洛小姐谈过经典作品,就像一个心地善良的巨人给一个孩子的jtimp一块石头对一块石头穿过一座争吵不休的山,所以没受过教育的观众看到她可能真的会想她克服了困难,为自己做了一些事。西尔叶;hby为她感到骄傲,因此对当他在hurxiour失去她时,他却在做鲁尔的生意:他希望通过对弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放jcLm的恐惧甚至超过了对他的冒犯骄傲。

OmniPage Pro 10:

NF r~rn、Px Clara和Vernon出现在dap中间的桌子上。米德尔顿博士与戴尔小姐就经典问题进行了交谈,比如,一个善良的巨人让一个孩子从一块石头一块石头地穿过吵闹的山间浅滩观众一见到她,可能真的会想她克服了困难,为自己做了一些事。西尔合资公司;略,r;;lrl>y为她感到骄傲,因此急于当他有心情失去她时。伊利。lropcol向Vernon射击一两个字波尔晚餐。克拉拉请求释放囚犯)锌,有点害怕,甚至比冒犯他的还要多骄傲。
克拉拉和弗农都没有出现在中餐桌上。米德尔顿博士与贝尔小姐就经典问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩没受过教育的观众看到她可能真的会想她克服了困难,为自己做了一些事。西尔叶露;hby为她感到骄傲,因此渴望趁他心情不好失去她时,把她的事办妥。他希望通过对弗农说一两句话来结束这场比赛晚饭前。Clam请求释放他有点害怕,甚至超过了冒犯他的程度骄傲。

OmniPage Pro 11:

NF f、rnMR克拉拉和弗农出现在中餐桌上。米德尔顿博士与戴尔小姐就经典问题进行了交谈,就像一个善良的巨人给一个孩子跳伞一块石头一块石头地穿过吵闹的山间浅滩une(lifie)(我的观众看到她可能真的会想她克服了困难,为自己做了一些事。西尔杰维隆;hl)y为她感到骄傲,因此渴望塞塔尔·勒尔(setale leer)正兴致勃勃地想失去她。lle希望通过对弗农说一两句话来结束这场比赛晚餐前。克拉拉请求释放囚犯)林特的恐惧甚至超过了对他的冒犯骄傲。-.2 ..1_ - ____
克拉拉和弗农都没有出现在中餐桌上。米德尔顿博士与戴尔小姐就经典问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩没有受过教育的观众可能真的会想见她尽管困难重重,她还是为自己做了一些事情。西尔威洛比为她感到骄傲,因此急于在他垂头丧气的时候解决她的事情。我希望通过对弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放暗示,他隐约感到害怕,甚至超过了冒犯他的程度骄傲。--

TextBridge Millennium Pro:

不!~~克拉拉和弗农都没有出现在中午的餐桌上。pr.~1id(我和戴尔小姐就古典主义问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩~1edifi~tLU(llCIlCC可能真的会这么想,一看到他在这场战争中,她为自己做了一些事情威福里格比为她感到骄傲,因此急于趁他心情不好失去她时,把她的事办妥。躺在床上对着弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放他有点害怕,甚至超过了冒犯他的程度普鲁~t~。
克拉拉和弗农也出现在中午的餐桌上。米德尔顿牧师与戴尔小姐就古典主义问题进行了交谈,就像一个善良的巨人给一个孩子跳跃一块石头一块石头地穿过吵闹的山间浅滩une(现场观众看到她时可能真的会想她克服了困难,为自己做了一些事。西尔威洛比为她感到骄傲,因此急于在他失去她的心情中安顿下来。李希望通过对弗农说一两句话来结束这场比赛晚饭前。克拉拉请求释放赫恩~,他只是有点害怕,甚至比这更冒犯了他优先级。

扫描4-一个非常糟糕的案例!

扫描4是教皇翻译的荷马奥德赛中的一段。这是一个非常非常困难的问题。很明显,这是一种廉价的印刷方式,使用的纸张很薄,质量很差,页面大小为6英寸乘4.5英寸,大写字母高约1.5毫米,略大于Times New Roman 8号。这么小的文本真的需要更高分辨率的扫描。我拿到这本书时,它正四分五裂,墨水正在褪色剥落,甚至没有必要考虑把它扫描平,所以我把书页剪了下来。为了增加一个额外的挑战,我在一个中型房间打开盖子扫描了样本300 dpi400 dpi扫描,但为600 dpi以展示我所能获得的最佳品质。(我很高兴地注意到,Abbyy在识别300 dpi和400 dpi图像中的页面时,突然建议我降低扫描亮度。)

这本书是我在98/99年的两年时间里,偶尔尝试用一台旧的扫描仪和一个捆绑的OCR程序制作的,但没有成功。最终,在2000年,这是第一本通过查尔斯·弗兰克斯的分布式校对网站处理的书。OCR生成的初始文本很差,但人类志愿者弥补了它!谢谢,伙计们!就在两年后的今天,如果有一个更好的扫描仪和更好的OCR,我本可以自己完成这项工作,正如你将从600 dpi扫描的最佳结果中看到的那样。这就是最近情况改善的程度。

这里需要注意的另一点是,您可以在感叹号和分号之前看到[V.104]中讨论的“四分之三空格”效果。

OCR结果如下:

Abbyy FineReader 6:

“啊,我!在多么荒凉的海岸上,在电视上,尤利西斯抛出了一个新的区域;被凶猛的野蛮人占有;或者男人。谁的胸怀温情温暖?这些从海岸聚集的声音是什么?幽灵幽灵的声音,阴森森的树林中,仙女般的Pryads;或是银色洪水的蔚蓝女儿;还是人类的声音?但从阴影中消失,AVhv停止我直接了解什么声音侵入?"
“啊,我!在多么荒凉的海岸上,尤利西斯被抛向了什么新领域;被凶猛的野蛮人占有;还是男人,他们的胸怀温情温暖?“这些从岸边聚集的声音是什么?幽灵幽灵的声音,树荫下的金发枯干;或是银色洪水的蔚蓝女儿;还是人类的声音?而是从阴暗处发出,为什么我停止直接学习什么声音入侵?"
“啊,我!在多么荒凉的海岸上,尤利西斯被抛向了什么新领域;被凶猛的野蛮人占有;还是男人,他们的胸怀温情温暖?“这些从岸边聚集的声音是什么?幽灵幽灵的声音,狡猾的木头干的金发;或是银色洪水的蔚蓝女儿;还是人类的声音?而是从阴暗处发出,为什么我停止直接学习什么声音入侵?"

gocr 0.3.6:

[300和400 dpi扫描没有任何可识别的结果。600 dpi扫描的结果如下。]

_hh i_3e!o_1__l_at_i_l_sl__it_nble海岸_在____,____)_v i_io__i__ _________ses抛掷;_(3s3gs3_d l3.__ __iiíi l3_3__b__i_c_i3_ fie_Ce在il__S-中_或者i11pn,__-i)c3se l_osonl te_1de_it______ai_n3__?___l_at __o_i1ds Qre tlipse tliat g__tl_p_r fE_oi33 shoTes?'_ilie __oi__e of i)____E1)l3l3s tl3nT 1i_n_nt s s _ l _ inn bo _ Ye_5_3'l_e fni__i____ir'd__-“il_e sli_d__i_Od”的广告_Op az(_pe da _____ litc_s of _tlie sil ___ r t ood;或者l___i31_nn ___)i___?l3_t i3__ii_6 fi_oi11 tlie_hiade_____'!3.___ea___e_s_rai__li.t到l_ar_i1-i_-li__t so-nd-in__ad_s___

认可标准3.2.7AK:

.:lhnt“'.关于w-hat inlu,;y:t,I,:e co;;~t,关于~cli^t ne~-re~离子i..1=1-.-:.:e~tm:'d;可能的1n-wil~l l;,rba~:c,.~手臂凶猛~;还是u.~u.w-Ln.e bossum tender pit~-warna?~l-u:lt.<,:~;;::;3s是来自小船的~atl:er ~的tll~ce吗?‘I'l.e-;;o'.回复:,;nwtthil:tW,t l:aa;nt the s~-l:c 1llJOR'er5,'lhe:a,:~-h~;r'd~它。wa~i~ot'tl:e~Il;;dv-vood;或者az.lre dau~~l.ts~:oY tl:c·:iv-~~r floo;:三;C?哼哼~-<:i:e'?l、 ~:tt i~~;来自tl:c·~had~~,11-lts-cea~e I ctrai rlit to learn~s-l:,t socud incodes%“
“~h我!ou”-马提乌莫斯皮塔~le海岸,关于~i-lmt ne~c的关系是L1~-~ses到~s'd;位置:e;s’d 1“~w-iMl lrvrbaria:ns战火~ce;或者是m~n,“-软管软管招标坑~-warm5?Marcellohat~圆是tlmse tMat~;从海岸来的?~t'I~e~-oi~~e of n~-Inhhs t.这与s~-l~~a howers有关.这是一个公平的d~vads ot tl:e shad~-“-好;或是阿兹恩雷·道尔(aznre dau~)升的tMe sil~-~r燃料;还是lmman~-oi:~e'?但是iauin~从窗帘上下来lVly cea公司~我正在努力学习“-马特苏德在~ad°s?”
“啊,我!在多么荒凉的海岸上关于~~-新的r离子是L;1~-掷骰子~,拥有1J~-“-Iill I:OII'uai'la手臂凶猛·还是男人们,谁的软管压扁了~l~varn~s?~'G'l~有些人是从海岸来的吗?~我要说一句n~-mpl~S,它~嚼着sy Ivan bowers,用slmdy木材制作的金色头发的DMarcello广告;或者是银色洪水的蔚蓝阳光;还是lm:nan声音?从阴凉处散开,~~我会~~我想学~~-我真的想学~~什么?"

OmniPage Pro 10:

关于“M^t新里昂是1=1;-a:e~to-s'd;P“::e:~'d hw”ild Larba.:凶猛的武器;或者客栈。“-hnse bo.,om温柔的怜悯温暖从海岸聚集的是什么?'1-l.e vo_,e o2 u~vnhit:thm hn,,-,nt森林弓箭手,是;r-ha;r’d h.--liz-Ay iNood的广告或蔚蓝dau_ht;-tl:co=1cr地板;还是hnnmn电线?l、 11t i-rii:g来自shadeP3,我要停止学什么声音入侵?"
“哦,我!在多么荒凉的海岸上,在什么新的区域上,L大惊小怪;拥有凶猛的野蛮人;或是胸膛温润的男人这些声音是从海岸收集来的吗?幽灵幽灵的声音,阴森森的树林中,仙人掌般的水汽;或是银色洪水的蔚蓝女儿;还是人类的声音?阴影下的蝙蝠,为什么我停止直接学习什么声音入侵?"
“啊,我!在多么荒凉的海岸上,Ll ysses被抛在了什么新区域上;拥有野性的野蛮人,武器凶猛;还是男人,谁的胸膛里有温柔的怜悯?AVlia±声音是来自海岸的鳄鱼发出的声音萦绕在森林凉亭中的nYI11pliS的声音,阴暗的树林中的金发迪亚兹;或是银色洪水的蔚蓝女儿;还是人类的声音?从阴凉处散发出来的笨蛋,为什么我停止直接学习什么声音入侵?"

OmniPage Pro 11:

.‘lh in-’关于什么是不人道的,le-co-st,在xclznt附近区域是t1:-sse~toss'(:;被温和的野蛮人占有,目标凶猛;或者客栈。他那温柔的怜悯之情温暖了他什么是从海岸聚集起来的垃圾?'_I-I.e 1-o=,-of nv:npii?在森林保育院闹鬼,她拉;r-ha;r’d 1):,柚木广告;或tl:e筒仓-:-r洪水中的az.ire dau_lit~-;还是人类的声音?l、 ,是吗?来自shadpq的snina,我要停止学习声音入侵吗?"
“”:啊,我!在多么荒凉的海岸上,尤利西斯被抛到了一个新的地区;拥有凶猛的野蛮人;或是胸怀温情温暖的男人海岸上聚集着什么声音?幽灵幽灵的声音,阴森森的仙女d~yads;或者天青道。银色洪水的洪流;还是人类的声音?而是从阴暗处发出,为什么我停止直接学习什么声音入侵?"
“啊,我!在多么荒凉的海岸上,尤利西斯被抛向了什么新领域;被凶猛的野蛮人武装着;还是n1en,谁的胸怀温柔怜悯warnis?AVliat声音是从海岸收集来的夜莺的声音萦绕在森林凉亭,阴凉森林中的仙人掌;或是银色洪水的蔚蓝女儿;还是人类的声音?而是从阴暗处发出,为什么我停止直接学习什么声音入侵?"

TextBridge Millennium Pro:

不在那片海岸上,关于什么是新的现实,e’to5sd,s~s al-~d liv wild lie il)~m.ihI fir见al-rn~或者你~,-n.w'linse bo,你温柔的怜悯战争那个从海岸来的人是谁?“不,一大群伊姆夫特皮尔斯给他染上了伤感的范鲍尔斯,“飞塔赫”-哈~r’d d~vahs ct the shaddy wood1) 1'az Ire dauul~t~的洪水还是流年六世?从阴影处看,\VIiv cea-~e我直接学习声音入侵1“
啊,我在多么荒凉的海岸上,U花瓶被抛在哪个新区域被凶猛的野蛮人占有或是胸怀温情温暖的男人~这些从海岸聚集的声音是什么?幽灵幽居的仙女之声,成荫树木的露天平台或者银色洪水的蔚蓝女儿还是人类的幻觉?但在窗帘上发出fi’o,为什么要停止我的学习来学习什么声音侵入?"
啊,我在多么荒凉的海岸上,尤利西斯被抛到了什么新地区被凶猛的野蛮人占有还是男人,他们的胸怀温情温暖?这些从海岸聚集的声音是什么?幽灵幽灵的声音,树荫下金发碧眼的Dtyads;或是银色洪水的蔚蓝女儿还是人类的声音?而是从阴暗处发出,为什么我不再努力学习什么是入侵的?"

结论

扫描中的小错误,如光线过多、扫描仪设置错误或纸张压得不够平,都会对需要更正的文本的最终质量产生重大影响。

有时,无论您使用扫描仪做什么,纸张或打印的问题都会使OCR软件包难以提供良好的输出。

一般来说,在300dpi-600dpi范围内,越大越好,但您只需要更高的分辨率和更困难的材料。

不同的OCR软件包将从相同的图像中产生截然不同的文本。如果有一个非常好的图像,大多数OCR软件都可以接受,但是当你有质量较低的材料要使用时,OCR包之间的差距就会很明显。

我的扫描仪附带了一个OCR软件包。它足够好用吗?

这取决于你的软件包在实际扫描中的表现,以及你对时间和金钱的重视程度。大多数扫描仪都与OCR软件捆绑在一起,但这些OCR软件包通常是较旧或“大脑受损”的版本,其功能被故意降低。您不太可能免费获得当前版本的顶级OCR包。

你可能需要为更好的OCR支付额外费用,但这意味着你花更少的时间进行更正。问题是你希望你的OCR有多好。

保存常见问题解答中的图像“为什么我的OCRed文本中出现了很多错误?”并尝试使用您拥有的OCR处理它们。将生成的文本质量与样本质量进行比较。这会让您了解OCR与其他OCR的比较。

用你的OCR试一下书中的几页。你在每页上看到多少错误?你觉得可以接受吗?

我想在HTML版本中包含一些图像。我应该如何扫描它们?

如果它是印刷书籍中的颜色,那么最好在扫描中使用颜色。否则,尝试灰度和黑白,看看哪一种图像效果最好。通常最好以比您要使用的分辨率更高的分辨率扫描图像,然后使用图像处理软件包将其[H.10]缩小到适合您的HTML文件的大小。这个HTML常见问题有关于如何展示它们的详细信息。600dpi的初始扫描通常很好。图像处理程序还允许您通过增加对比度、消除瑕疵或其他过滤来“清理”图片。

我想在HTML版本中包含一些图像。我应该使用什么类型的图像?

当前的浏览器支持GIF、JPEG和PNG图像,除非有特定的理由,否则您应该坚持使用这些图像。

GIF和PNG倾向于更高效-在给定的文件大小下提供更好的质量-用于简单的线条图;JPEG通常更适合拍摄图像。

PG会存储我的书的扫描页面图像吗?

是的,古腾堡计划会很高兴包括你的扫描。然而,如果您使用的扫描来自另一个在线来源,如互联网档案馆,那么扫描链接是作为版权清除的一部分提供的,并且可能不需要在古腾堡项目中有额外的副本。

虽然无法搜索页面图像或将其转换为其他基于文本的格式以供阅读,但它们确实有一定的价值——用于检查转录中可能的错误,用于保存可能未保存在HTML中的图像,用于检查引用的页码,用于重新打印,一般来说,对于任何想要深入了解源文件信息的人来说。这不是我们的核心目的,页面图像必须被视为文本的附加功能,而不是主要功能。然而,磁盘空间和带宽现在足够充足,因此保存这些资源是切实可行的,即使是对可能使用它们的相对较少的人来说也是如此。

不过,我们在使用空间和带宽时必须小心。考虑到目前的资源,每页使用40KB是合理的;使用每页140 KB不是。因此,对于普通页面,我们坚持只使用最大压缩的黑白页面图像,并且对于图片,我们可以获得最佳的大小与质量比。

我们当前关于页面图像提交的指导原则是:

  1. PG现在接受已发布书籍的页面图像。页面图像将仅作为以正常方式发布的文本的附加内容发布-我们不会发布没有纯文本的页面图像。
  2. 页面图像是一个选项;发布文本时不需要也不会需要它们。
  3. 所有页面图像都应该足够好,能够与OCR软件包(高达600 dpi)一起正常工作,并且应该存储为带有CCITT-4(即ITU-G4或传真组4)压缩的黑白TIFF。这一点很重要,因此我们可以将总体文件大小降至可持续的水平。通过这种压缩,一个典型的600dpi页面可以存储大约40KB。我们发布这些图像的能力取决于文件大小是否保持合理。不能合理地仅以黑白方式存储的页面,如彩色图片或灰度照片,应以TIFF或JPEG格式存储,并使用该图像可以获得的最佳压缩。(注意:Irfanview for Windows可以单独或成批完成这项工作。ImageMagick v 6.x:convert myimage.png-compress group4 myimage.tif)
  4. 每个页面图像应该是一个单独的文件,并使用集合内的页码命名;例如001.tif、002.tif等。单独的非页面图像,如封面或与页面分开扫描的彩色图像,应具有合适的名称,例如“cover.jpg”或“072-image.tif”书籍的所有页面图像将被压缩到一个文件中,称为FILENUMBER-page-images,例如12345-page-iimages.zip for etext#12345,并存储在该etext的主目录中。它将解压缩到一个子目录/页面图片,但我们不会在该目录中发布单独的页面图片,因为这样会使所用空间加倍,我们相信想要查看图片的人可能会想要全部图片。因此,至少现在,如果您想要这些图像,必须下载ZIP文件。

提交给分布式校对器[B.2]的页面图像会自动保存,虽然现在还没有公开,但将来可能会这样。

要存储比我们今天合理发布的分辨率更高的页面图像或图片,您可以考虑使用Internet Archive。