古腾堡项目使用的文件格式

古腾堡计划发布什么格式?

原则上,我们不会发布任何格式,但实际上,我们更喜欢开放和可编辑的格式。自2004年以来,几乎所有古腾堡项目电子书都是以纯文本和HTML为主格式发布的。其他格式,如epub和mobi,是自动生成的。少数项目使用LaTeX作为主格式,特别是当需要数学符号时。LaTeX用于生成PDF。

开放格式是指其结构是公开定义和记录的,不受专利或商业秘密或版权保护(又称“DRM”)限制的格式。任何人都可以为开放格式编写阅读器或创建者,500年后,任何感兴趣的人都可以编写程序来显示文件。相比之下,封闭格式在短短几十年内几乎肯定是无法阅读的,因为现在正在推广这种格式的公司消失了,或者失去了兴趣,或者因为想出售替代品而决定停止支持它们。在我们下面的注释中,您可以看到在古腾堡计划(1971年至今)的历史中,这种情况发生了无数次。

能够编辑电子书的文件也很重要。我们会不断地对版本进行修改,重要的是我们应该能够轻松地更新我们的文件。如果在一个句子中添加一个单词涉及到整个文本的完全重新标记和文件的完全重建,那么我们必须问问自己,这种格式对于这个文本是否真的是必要的。此外,重复使用我们的文本的人也应该被允许自由复制和重新格式化文本,而不可编辑的格式限制了他们以各种方式进行复制的能力。

什么是,我如何制作或使用:

[注意:这里列出了字符集和格式。字符集是指您可以使用的字符;格式描述了这些字符是如何组合在一起的。对于音乐文件等非文本格式,没有完全等同于字符集的。]

ASCII(字符集)

ASCII是纯文本的历史主格式。ASCII(美国信息交换标准代码)是一组通用字符,包括您可以在英语键盘上键入的所有内容。它包括字母A-Z、A-Z、空格、数字、标点符号和一些基本符号。本文档中的每个字符都是ASCII字符,每个字符在计算机内部用0到127之间的数字标识。

您可以使用世界上几乎所有的文本编辑器或查看器来查看或编辑ASCII文本。

Big-5(字符集)

Big-5是一组13494个繁体字。您需要使用支持字符集的编辑器或查看器。

代码页437、850、1252等(字符集)

这些代码页是Microsoft特有的字符集,允许显示重音字符和其他符号。要查看使用其中一个选项的文本,您必须使用支持这些选项的Microsoft应用程序。Word for Windows提供的许多字体都可以正确显示和编辑CP-1252。对于代码页437和850,您可能需要打开命令提示符并使用DOS编辑器(如EDIT)。搜索表单www.microsoft.com应该提供有关您感兴趣的代码页的信息,或者您可以在aspell.net/charsets/codepages.html对于Unix用户,iconv和recode提供了从一个字符集到另一个字符集中的翻译工具,并支持许多或所有MS代码页。

数字视频接口

DVI代表DeVice Independent,通常用于存储文本和指令,以显示涉及复杂数学符号和表达式的文本和指令(尽管它可以用于任何内容)。给定一个DVI文件,您需要一个查看器在您使用的特定设备上渲染它。具体来说,DVI被用作TeX的标准输出格式,如下所述。

EPUB公司

这是几乎所有电子书阅读器(电子阅读器)、智能手机和平板电脑都兼容的格式。EPUB格式与HTML非常相似,但有附加组件,可以在许多类型的设备上使用EPUB来实现附加功能。现在,这是所有电子阅读器设备的推荐格式。请参见平板电脑和电子阅读器帮助页面了解更多细节。

HTML/HTM(格式)

这是最常用的主格式超文本标记语言定义网页的标准格式。您应该能够使用任何web浏览器查看这些内容,并使用任何文本编辑器或专用HTML编辑器进行编辑。网址:www.w3.org是决定性的参考。

ISO-8859/ISO-Latin(字符集)

ISO-8859是一系列字符集,用于表示欧洲语言中最常用的重音字符。有ISO-8859-1、ISO-8859-2等等。ISO-Latin只是同一事物的另一个名称。您可以在以下位置阅读概述:aspell.net/charsets/codepages.html.

KF8系列

这是亚马逊Kindle电子阅读器的一种新格式。一般来说,使用最新软件的Kindle可以同样很好地处理KF8和EPUB。

LIT(基于PDA的电子书格式)

这是一种专有的、封闭的文件格式,只能由Microsoft Reader显示。搜索www.microsoft.com了解更多信息。无法编辑或更正此格式的文件;无法从此格式导出文件;它们必须以另一种格式制作并转换。

MacRoman(字符集)

MacRoman是一个8位苹果Mac专用字符集,允许显示重音字符和其他符号。要查看使用MacRoman的文本,您必须使用支持它的应用程序,而Apple fold之外的应用程序很少。然而,iconv和recode是在多个字符集之间转换的程序,两者都支持MacRoman。

MID/MIDI(音乐格式)

乐器数字接口是一种音乐描述语言,不仅包含文件格式,还包含接口定义。MIDI文件包含向乐器发送信息以再现声音的指令。网址:www.midi.org有更多关于这方面的信息。

MOBI公司

这是亚马逊Kindle阅读器的主要格式,但在2022年末被EPUB和KF8取代。如果您使用的是尚未更新软件的旧版Kindle,那么您可能只需要MOBI。

MP3(任何音频文件的格式)

MPEG-1,Level 3,被电影专家组定义为编码声音的一种方式。许多MP3播放器适用于所有平台,并且可以通过网络搜索轻松找到。MPEG的官方主页是www.mpegstandards.org规范副本可从ISO购买,网址为网址:www.iso.org.

MPEG/MPG(移动图片格式)

电影专家组发布了一系列视频和音频编码格式。MPEG(发音为EM-peg)格式已发布并广泛使用。MPEG的官方主页是www.mpegstandards.org规范副本可从ISO购买,网址为网址:www.iso.org.

MUS(乐谱格式)

来自Coda Music的MUS(请看这个存档的网站)是或曾经是用于编辑和重放乐谱的专有、封闭格式。然而,由于它的许多特性,我们会以这种格式发布音乐文件。我们希望在未来的某个时候能够以更开放的标准发布这些内容,但目前还没有具有类似功能的开放格式。

PDB(基于PDA的电子书格式)

Palm数据库格式实际上可以用于电子书以外的目的,基于Palm的阅读器有许多可能的格式变体,所有这些都使用PC上的扩展PDB,并且它们并不完全兼容。其中一些是专有的,可能无法直接编辑它们,或从这些格式导出文件;它们必须以另一种格式制作并转换。有些可以转换回文本。不过,最常见的是“Palm-DOC”格式的变体,这是一种开放格式,可以在Palm本身上进行编辑。

PDF(电子书格式)

便携式文档格式是一种用于存储文本的格式,包含任何字体或图形。版权归Adobe所有,网址:www.adobe.com但有很好的公开记录。它有时被称为一种编译后的Postscript(参见下面的PS)。可以使用Adobe Acrobat Reader和许多其他应用程序(包括一些免费应用程序)查看它。编辑这种格式的文件并不容易。

PRC(基于PDA的电子书格式)

这是只能由MobiPocket Reader显示的文件的专有格式。看看这个存档的网站了解更多信息。无法编辑或更正此格式的文件;无法从此格式导出文件;它们必须以另一种格式制作并转换。

PS(文本和图形格式)

从技术上讲,Postscript是一种编程语言,而不仅仅是一种格式。它有条件语句、过程和程序流控制。然而,它通常被称为一种格式。土砖网址:www.adobe.com拥有Postscript规范的版权(已经发布了三个“级别”),但Postscript有很好的公开文档,不仅在打印方面,而且在屏幕显示方面都得到了广泛的支持。除了Adobe的官方版本外,您还可以使用自由软件包Ghostscript渲染Postscript文件。Postscript可以直接编辑,但任何复杂的编辑都可能存在困难。

RTF(文本格式)

富文本格式最初是Microsoft规范,但它是一种开放格式,许多文字处理器使用它以独立于应用程序的方式交换文本和格式信息。几乎所有当前的文字处理器都会读取和编辑RTF文件,并且像HTML一样,它也可以编辑为纯文本。

文本

TXT是用于任何纯文本文件的通用扩展,与字符集无关。因此,虽然我们的大多数。TXT文件包含ASCII,有些包含ISO-8859、Big-5或Unicode。

TeX(排版和数学格式)

TeX(发音为“tech”–“X”实际上是希腊字母chi)是Donald Knuth创建的用于排版的公共域格式,但也可以用于正常的打印和查看。它是处理数学文本和其他包含大量技术符号的文档的标准方法,因为它对它们有很好的支持。TeX主要由纯文本组成,并附有如何显示的说明。它被编译成DVI格式(见上文),可以通过了解设备功能的程序在任何设备上渲染,如打印机或屏幕。最常见的是,TeX被编译成PDF格式以供查看。TeX综合档案网络网址:www.ctan.org是开始为您的平台寻找TeX相关程序的最佳场所。

Unicode/UTF-8、UTF-16、UTF-32(字符集)

UTF-8现在是纯文本的主格式。Unicode旨在成为一个单一字符集,可以处理过去或将来所有语言中的所有字符。它符合ISO-10646字符标准,但还规定了实现规则。UTF-8、UTF-16、UTF-32及其变体是使用不同规则将抽象代码点转换为字节来实现Unicode的方法。Unicode正在稳步发展,至少在每个主要的操作系统中都有一些支持,但我们离每个人都可以打开基于Unicode的文本并进行阅读和编辑还差得远。一般来说,当我们发布Unicode时,我们使用它的UTF-8转换格式,因为这是最常见的支持格式。检查网址:www.unicode.org了解更多信息。

XML(格式……好吧,几乎任何内容:-)

可扩展标记语言看起来有点像HTML,但标记在HTML中有标准的含义,而XML允许任何人使用文档类型定义(DTD)文件定义自己的一组标记和含义。向其中添加CSS(级联样式表)文件,您就可以根据预定义的规则显示文本。添加一些XSL(可扩展样式表语言)文件和转换软件,您也可以自动生成其他格式。原则上,这似乎是存储和处理等文本的理想选择,因为合适的DTD、CSS和XSL,再加上合适的程序,应该可以从XML原稿自动生成任何格式的电子书。一些PG志愿者已经研究并正在研究使用令人满意的DTD转换整个档案的方法;然而,与此同时,我们实际上并没有生成太多XML,因为大多数志愿者都没有使用它,而且在我们达成一致的标准之前,没有人想开始生成许多XML文本。www.w3.org/XML是有关XML的更多信息的权威来源。