CERIF简介

CERIF标志CERIF——C类普通人E类欧洲人R(右)研究信息F类ormat–是描述研究领域的概念模型。形式上,它被维护为实体关系模型(ERM),可以从中生成多个数据库(例如oracle、mySQL、MSSQL Server等)的SQL脚本,CERIF XML就是从中获得灵感的。此页面的结构如下:


简介和简史

项目_记录

CERIF 1991年

CERIF是欧盟对成员国的建议它的历史可以追溯到20世纪70年代末。然而,直到1987年,欧盟组织了一次研讨会并召集了一个研究数据库工作组,才明确制定并正式发布了第一个CERIF版本。因此,CERIF模型在历史上有机发展,并从那时起受到技术发展的影响。

1991年第一次CERIF手动定义了仅覆盖项目的研究信息系统;这些是简单的项目记录系统。然而,随着1991年CERIF的首次发布,在CERIF 2000中已经确定并认可了对更多背景信息的需求。已发布的CERIF 2000工具包定义完整CRIS数据模型,一个交换模型,和元数据数据模型此外,它建议使用ORTELIUS同义词表(3)作为主题标题,使用NUTS区号作为地理编码。CERIF 2000模型在描述研究领域方面向前迈出了重要一步。它是一个真正的模型,不仅是一个记录描述,它允许包含一个单一的分类系统或受控词汇(它推荐ORTELIUS同义词库),它允许多语言表达,它维护角色、类型和状态,并且它是高度用户驱动的。

铈2000

选定CERIF 2000数据模型实体、角色、状态和类型的可视化

欧冠2002年,欧洲委员会将CERIF及其进一步发展移交给欧洲CRIS–在荷兰注册的非营利组织。自那时以来,CERIF模型在2006年进行了标准化方面的重大升级,并在2008年引入了语义层。自2012年初发布CERIF 1.4以来,它维护了一种非常流行的嵌入式XML交换格式。


CERIF概念模型

CERIF描述了研究领域的实体,如个人、组织、项目、出版物、专利、数据、设施、设备、服务、资金、测量、指标、标识符及其关系。下图显示了研究领域及其相关实体的总体视图,其中颜色表示可能的上下文,例如结果(橙色)、结果(红色)、参与者(绿色)、基础设施(紫色)等。

铈1.5_实体

CERIF实体及其关系——不同的颜色表示实体类型

带有正式描述的CERIF实体名称被缩短,以确保跨数据库的一致性,其中一些数据库最多允许每个实体名称包含38个字符。通过ERM定义以及最终通过SQL脚本对每个CERIF实体进行的正式或所谓的物理描述遵循一定的模式。每个实体都维护一个系统内部标识符,例如。cf角色.cfPersId,cf项目.cf项目Id,cf组织单元.cfOrgUnitId等,以及一些基本的实体特定属性,例如项目、设施或服务的缩写cf项目.cfAcro,cfFacility.cfAcro公司,cfSrv.cfAcro公司,或出生日期和性别cfPers.cf出生日期,cfPers.cf性别,或有资金的金额cf基金.cf金额以及关系。

在CERIF中,关系也是实体。它们维护自己的属性,如时间戳,并允许使用标签和名称空间分配实现高度灵活性。每个CERIF关系实体–一个所谓的链接实体,例如cf项目_人员,cf人员_组织单元-以其两个链接实体命名。两个链接实体的顺序完全是中性的,在任何情况下都不遵循阅读方向(参见下图) -这是一个重要的注意事项。

CERIF 1_5完整数据模型_选定实体

随机选择CERIF实体及其关系(链接实体)

CERIF链接实体的正式标签或更有意义的名称实际上是通过语义层中定义的术语给出的,例如cfClass.cfClassTerm.cfTerm=“经理”然后,这样的术语通过其标识符从链接实体中引用,例如cfClass.cfClassId=“79a2e340-1cfc-11e1-8bc2-0800200c9a66”,并由名称空间支持,例如具有自己的标识符的cfClass.cfClassSchemeId=“94fefd50-1d00-11e1-88bc2-080200c9a65”。这种机制或模式同样适用于整个CERIF模型,从其余部分和示例中可以更好地理解。由上述ERM生成的用于描述人员及其项目关系的SQL脚本如下所示。它首先创建了一个CERIF人员cf人员表,然后是CERIF项目cf项目表,然后通过创建链接表将二者联系起来cf项目_人员.

--cfPers表创建表格“cfPers”(“cfPersId”字符(128)非空,“cf生日”日期,“cfGender”字符(1),“cfURI”字符(128));--表cf项目创建表格“cfProj”(“cfProjId”字符(128)非空,“cfStartDate”日期,“cfEndDate”日期,“cfAcro”字符(16),“cfURI”字符(128))--表cfProj_Pers创建表格“cfProj_Pers”(“cfProjId”Char(128)不为空,“cfPersId”字符(128)非空,“cfClassId”字符(128)非空,“cfClassSchemeId”字符(128)非空,“cfStartDate”时间戳(6)不为空,“cfEndDate”时间戳(6)不为空,“cfFraction”浮点);

每个CERIF表(实体)和链接(实体)的定义都类似,并且已经为euroCRIS成员的多个数据库定义语言(例如ORACLE、DB2、mySQL等)生成了描述。euroCRIS网站上提供了CERIF 1.5导航模型的公共HTML版本.


CERIF语义层

CERIF中的语义层实际上是一个概念结构,用于描述CERIF的子模型或CERIF内部的子模型,从而实现对受控词汇的有效和有意义的管理。因此,它是遵循CERIF模型的形式语法的声明语义。在社区中,众所周知,当前研究信息系统(CRIS)建立在“正式语法和声明语义”(即CERIF)的基础上。

在CERIF中,受控词汇术语仅适用于基本上有两种类型的链接实体:

  • 二进制链接实体,例如:cf项目_人员,cf项目_组织单元,cf项目基金
  • 一元链接实体,如:cf项目类别,cfOrgUnit_Class(组织单元类),cf资金_类别

每个链接实体遵循相同的模式。它承载来自两个链接实体的两个标识符,一个带有开始日期/cf结束日期以及对cfClassId(类别Id)cf课程方案Id-事实上是以一种类似三重的方式。The vocabulary term behind thecfClassId(类别Id)及其命名空间cf课程方案Id在语义层中维护(参见下图)。它允许对每一个术语进行非常详细的说明,方法是指明其来源,允许描述和定义加上示例,甚至允许通过cf类别_类别实体,即正式的CERIF术语映射。

CERIF 1_5完整数据模型_语义层

CERIF语义层(ERM视图)

通过添加新的cf类别带有术语标识符的记录cf类.cfClassId在命名空间或方案中cf类.cfClassSchemeId在特定日期,如果可用,则显示cfClass.cfURI。此cf类.cfClassIdcf类.cfClassSchemeId复合词就是词汇术语的主键类别术语标识及其说明分类描述,相关示例cfEx.cfEx类,及其定义cfClassDef.cfDef(类别定义).

在关系数据库中,信息对象通过查询标识符或从应用程序需求中聚合。在CERIF中,这意味着一个信息对象,例如一个人cf人员将根据请求组成,并取决于所用系统实体的系统支持或数据供应。因此,CERIF中的一个完整的人对象将从以下个人相关实体中保存的信息中聚合:cf人员,cfPers_Class(个人类),cf人员姓名,cf人员姓名_人,cfPersResInt公司,cfPers键,cf个人_国家,cfPers_Lang(个人标签),cf个人_现金,cf人员_地址,cf人员_地址,cfPers_通风口,cfPers_ExpSkills(个人导出技能),  cf透视_放大,cf人员资格cf人员_设备,cf个人面部,cfPers_Srv(个人服务),cf个人基金,cf人员_重新发布,cf个人ResPat,cf个人ResProd,cf项目_人员,cf人员_组织单元,cf每个月,cf个人_索引,cf个人_媒体.


CERIF XML交换格式

概念(关系)CERIF模型的结构启发了CERIF XML交换格式。然而,在关系模型中,信息对象组件是通过内部标识符聚合的,在XML中信息对象组件被嵌入(层次结构)。CERIF XML Exchange格式从关系实体复制名称(语法)。因此,CERIF XML中的person对象将描述如下:

<?xml version=“1.0”encoding=“UTF-8”?><CERIF xmlns=“urn:xmlns:org:eurocris:CERIF-1.5-1”xsi:schemaLocation=“urn:hmlns:org:eurocris:CERIF-1.5-1http://www.eurocris.org/Uploads/Web%20pages/CERIF(网址:http://www.eurocris.org/Uploads/Web%20pages/CERIF)-1.5/CERIF_1.5_1.xsd“xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance“release=”1.5“date=”2013-01-07“sourceDatabase=”短人示例记录“><cfPers>个人id0出生日期:1971-04-17<cf性别>f</cf性别><cfPersName_Pers/><cfPers_EAddr/><cfPers_PAddr/><cfPers_Country/><cfPers_Lang/><cfPers_CV/><cf人物事件/><cfPers_ExpSkills/><cf字体大小/><cf人员资格/><cfPers_Equip/><cfPers_Facil/><cfPers_Srv/><cfPers_Fund/><cfPers_ResPubl/><cfPers_ResPat/><cfPers_ResProd/><cf项目人员/><cfPers_OrgUnit/><cfPers_Meas/><cf个人索引/><cf个人媒体/></cfPers></CERIF>

一个更全面、数据填充更多的CERIF XML人员记录可以如下所示。

<?xml version=“1.0”encoding=“UTF-8”?><CERIF xmlns=“urn:xmlns:org:eurocris:CERIF-1.5-1”xsi:schemaLocation=“urn:hmlns:org:eurocris:CERIF-1.5-1http://www.eurocris.org/Uploads/Web%20pages/CERIF-1.5/CERIF_1.5_1.xsd“xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance“release=”1.5“date=”2013-01-07“sourceDatabase=”更全面的人员示例记录“><cfPers>个人id0<cf性别>f</cf性别><cfPersName_Pers><cfPersNameId>persname-id1<cfClassId>55f90543-d631-42eb-8d47-d8d9266cbb26</cfClassId><!--显示名称--><cfClassSchemeId>7375609d-cfa6-45ce-a803-75de69abe21f<cf名字>Jörg</cf名字>Brigitte家族名称</cfPersName_Pers><cfPersName_Pers><cfPersNameId>persname-id2<cfClassId>64f0eb00-462d-4737-8033-defac82decf3</cfClassId><!--护照名称--><cfClassSchemeId>7375609d-cfa6-45ce-a803-75de69abe21fJoerg名字<cfFamilyNames>碧姬</cfFamilyNames></cfPersName_Pers>CERIF;CRIS;信息系统研究信息管理</cf键><cfPers_EAddr><cfEAddrId>b.joerg@ukoln.ac.uk</cfEAddrId><cfClassId>35d43364-2160-4b6c-a487-5019458321e8</cfClassId><!--专业电子邮件--><cfClassSchemeId>05cc5ff9-bc58-4743-ab59-46e5013e0039</cfPers_EAddr><cfPers_OrgUnit><cfOrgUnitId>012345678ebd55ab0-1cfc-11e1-8bc2-0800200c9a66研究员-->e9616dbd-0d38-4b7d-a6cd-3c4df1e95462类方案开始日期>2012-06-01T00:00:00</cfPers_OrgUnit><cfPers_Pers>pers-id02<cfClassId>3ccd035b-bc79-477e-aa6c-0bd3606f85c8</cfClassId><!--主管-->ClassSchemeId>6b2b7d24-3491-11e1-b86c-0800200c9a66</cfPers_Pers></cfPers></CERIF>

CERIF发布部分下的euroCRIS网站提供了更多信息CERIF XML示例通过链接实体的嵌入,可以省略来自嵌入实体的标识符,因为它们是从嵌入实体继承的,并且对象因此是透明封闭的(8)。

通过引用版本可以确保正式有效的CERIF XML(例如CERIF 1.5)XML Scheme的头中。对于有效的CERIF XML生成,建议查阅euroCRIS网站上的规范文件或与CERIF任务组联系。


CERIF和语义网/链接开放数据网

OWL或RDF中没有正式的CERIF本体。表达CERIF的第一步活泼地已采取并将继续。我们引用了来自2013年11月在马德里举行的euroCRIS成员会议期间,链接开放数据(LOD)任务组在商业会议上的报告(7).

  • 语义在关系CERIF模型中。
  • LOD本身没有添加任何语义,只是以不同的格式公开。因此,LOD“本体论”只是CERIF的RDF表达式。
  • 语义的改进应该直接应用于CERIF关系模型或一些“扩展”本体。


CERIF中的标识符

CERIF作为一个关系模型进行维护,因此每个实体都有自己的系统内部标识符(主键),通过它可以识别其记录,并最终根据查询或规则聚合为信息对象。这在关系数据库所属的所谓封闭世界系统中很常见,并且工作得很好。越来越多的系统需要互操作,跨系统的信息重用或集成正在成为一种常见的场景,其中标识符发挥着关键作用。使用CERIF XML时,关系CERIF数据库系统中应用的严格规则稍微宽松了一点。由于基础技术及其应用的差异,这是合理的。对于系统内部聚合而言,系统内部标识符至关重要,对于交换格式而言,它们可能不再是必需的,因此在未来甚至可能被定义为非强制性的。此外,使用CERIFXML中的分层嵌入,标识符被传播到链接实体,并且不需要重复(参见上面的XML示例)。

常见研究实体记录的系统内部标识符通常在不同部门创建(例如,人力资源部的人员标识符、项目管理系统的项目标识符等)。通过其最新版本,CERIF模型通过引入所谓的联邦标识符实体向外部系统开放了边界cfFedId(联邦快递ID)实际上,它允许一元类型链接到任何系统外部资源(标识符)。

对于受控词汇表,尤其是针对现有词汇表的重用和集成,强烈建议重用标识符,以确保术语的有效集成或应用。CERIF以支持多个词汇表和维护它们的语义层而闻名。

CERIF工作组建议重用现有词汇表(例如CASRAI)并开始定义自己的词汇表,其中没有可重用的词汇表。为了重用定义的词汇表,CERIF建议分配uuid。也就是说,每个定义的CERIF词汇表术语都有一个uuid(9)。

“任何人都可以创建一个UUID并使用它来识别某些内容,并且有合理的把握,即任何人都不会无意中创建相同的标识符来识别其他内容。[…]UUID是一个16字节(128位)数字。以其规范形式,由31个十六进制数字表示,分五组显示,用连字符分隔,共36个字符,形式为8-4-4-12,例如:550e8400-e29b-41d4-a716-446655440000〃(维基百科)。

<?xml version=“1.0”encoding=“UTF-8”?><CERIF xmlns=“urn:xmlns:org:eurocris:CERIF-1.5-1”xmlns:xsi=“http://www.w3.org/2001/XMLSchema-instance“xsi:schemaLocation=”urn:xmlns:org:eurocris:cerif-1.5-1http://www.eurocris.org/Uploads/Web%20pages/CERIF-1.5/CERIF_1.5_1.xsd“release=”1.5“date=”2013-01-07“sourceDatabase=”CERIF1.5RMAS_Shemantics.xls“><cfClassScheme><cfClassSchemeId>b4de9a8f-3a4d-4233-9a9f-3b624e4ad74f个人事件参与<cfDescr cfLangCode=“en”cfTrans=“o”>此方案包含适用于cfPers_Event链接实体的CERIF词汇,因此是一个人在组织、交付、参与或报告事件时的参与词汇</cf描述><cf类><!-- 与CERIF一起使用:cfPers_Event;cf项目人员--><!-- 课程计划:个人事件参与;个人项目参与-->ddc3dd10-1cfd-11e1-8bc2-0800200c9a66参与者中央情报局项目参与者是指参与活动的人<cfDefSrc cfLangCode=“en”cfTrans=“o”>http://wordnetweb.princeton.edu/perl/webwn?s=参与者</cfDefSrc></cf类别><cfClass><!-- 与CERIF一起使用:cfPers_Event--><!-- 课程方案:个人事件参与--><cfClassId>2b3ba8f1-5620-42c9-8549-7d34ed37f968受访者中央情报局项目<cfDef cfLangCode=“en”cfTrans=“o”>在活动中接受采访的人</cfDef(定义)>RMAS项目</cfClass>类<cf类><!-- 与CERIF一起使用:cfPers_Event--><!-- 课程方案:个人事件参与-->d1ee35f1-c4c6-4651-a760-06a3828a61c1扬声器<cfTermSrc cfLangCode=“en”cfTrans=“o”>CIA项目</cfTermSrc>在活动中发言的人</cfDef(定义)>RMAS项目</cf类别></CERIF>

CERIF词汇表以Excel文件、SQL插入脚本和CERIF XML的形式发布在euroCRIS网站上。从上述xml中,通过提取术语的定义cfClassId(类别Id)uuid和通过的对齐方案cf课程方案Iduuid应该更加清晰。


参考文献和注释

  1. euroCRIS发布CERIF 1.5.
  2. Jason Marshall的漂亮绘图和CERIF XML示例,介绍了CERIF中词汇表的工作方式(另一种观点)。
  3. 《奥特利乌斯同义词表》是CERIF旧版本的推荐书,可追溯到1991年。目前已知的是,它非常偏向于教学,而不是研究。从那时起,它就没有得到进一步的正式维护。
  4. euroCRIS网站上用于导航的CERIF 1.5模型的公共HTML版本.
  5. 用于CERIF XML文件验证的CERIF XML1.5模式.
  6. euroCRIS网站上发布的有效CERIF XML示例.
  7. 马德里LOD TG商业会议报告(2013年11月).
  8. 将CERIF XML数据交换格式简化为2.0.
  9. 研究信息系统中的实体和标识.
  10. 实现共享研究词汇(SRV)——一种模型驱动方法.

关于“CERIF简介

  1. Pingback:新Cerif博客| Cerif行动

留下回复

您的电子邮件地址将不会被发布。已标记必填字段*

你可以用这些HTML格式标记和属性:<a href=“”title=“”><abbr title=