tcpl 3.0标准
化验登记处

计算毒理学和接触中心

介绍

本小插曲概述了这个tcpl公司包裹。定义就本包而言,“化验”分为:

      分析_来源–供应商/发起人数据
      化验–生成的程序组件数据
      分析_成分原始数据读数

      分析_成分_终点–标准化组件数据

层次结构

分析源、分析、分析成分和分析终点为通过注册tcpl公司编写脚本到表集合。这些化验元素表大致描述了谁进行了分析,使用了什么平台,测量了什么(原始读数),以及如何解释测量值(标准化组件数据)。分析元素的层次结构如下如下:分析源>分析>分析成分>分析组件端点。

当向下移动层次结构时,每个附加级别都有一个与上一级别的“一对多”关系。例如分析组件可以有多个分析端点,但有一个分析端点只能从单个分析组件派生。来自数据库v3.42020年12月拍摄的快照,InvitroDB支持32个分析来源,763次分析、2074个成分和2780个终点。

最小必填字段

在整个tcpl公司R包分析层次的级别由其定义和引用中自动增加的主键tcpl公司数据库:\(\mathit{asid}\)(化验源ID),\(\mathit{aid}\)(化验ID),\(\mathit{acid}\)(化验成分ID),以及\(\mathit{aeid}\)(化验端点ID)。这些缩写反映了缩写词中用“nm”代替“id”的标识符(ids),例如,analysi_component_name缩写为\(\mathit{acnm}\).

这个tcpl公司R包提供三个用于添加新数据的函数:

      tcpl寄存器–注册新化验元素或化学物质
      tcplUpdate(tcplUpdate)–至更改或添加现有化验或化学标识的附加信息
      tcpl写入级别10–加载格式化的源数据

所有处理均按化验成分或化验终点进行,具体取决于关于处理类型(单浓度或多浓度)和级别。在分析或分析源级别没有存储数据。这个“analysis”和“analysi_source”表存储注释以帮助数据的处理和下游理解。其他详细信息提供了用于注册每个分析元素和更新注释的如下所示。除了每个分析元素的id之外,最小注册“管道”字段包括:\(\mathit{化验\_source\_name}\)(\(\mathit{asnm}\)),\(\mathit{化验\_name}\)(\(\mathit{anm}\)),\(\mathit{化验\_footprint}\)\(\mathit{化验\_component\_name}\)(\(\mathit{acnm}\)),\(\mathit{化验\_component\_endpoint\_name}\)(\(\mathit{aenm}\))、和\(\mathit{normalized\data\_type}\).

命名约定

分析来源

分析来源是指供应商或数据来源。要注册分析源\(\mathit{asid}\)必须选择以防止覆盖现有数据。添加新的分析源时,这应该是一个缩写,因为后续级别将以此为基础分析源名称。

#tcplLoadAsid()
#tcplRegister(what=“asid”,flds=list(asid=1,asnm=“Tox21”))

这个tcpl寄存器函数采用缩写\(\mathit{化验\_source\_name}\),但是函数也将采用未缩写形式tcpl负载A-函数,这些函数加载数据库中存储的分析注释信息。

化验

化验是指由供应商执行的程序,以生成组件数据。要注册分析\(\mathit{asid}\)必须提供以映射分析到正确的分析源。一个源可能有多个分析。为了确保命名约定的一致性,首先检查如何进行了分析源中的其他注册分析命名为。化验名称采用缩写灵活的命名公约源分析(_A).显著的分析设计特征描述分析包括:

  • 技术(即检测技术),
  • 格式(例如,有机体、组织、细胞简称或无细胞组件源名称),
  • 靶点(即预期靶点、预期靶家族、基因),
  • 客观方面(例如,时间点或分析足迹)。

将选择最显著的特征来创建简洁的分析名称。变化取决于分析本身以及供应商提供的其他化验。如果需要多个功能描述分析,顺序将基于中的相对重要性描述化验以及化验与其他化验的关系由供应商提供,以减少混淆。“Source_Technology_Format_Target”是一个常用的命名顺序。然而,如果一个目标被屏蔽供应商提供不同的分析平台,“Source_Target_Technology”是一个更合适的命名约定。这是Tox21的情况化验。其他特征可能是相关的,包括激动剂或拮抗剂模式,或“随访”,如果检测是二级特异性化验。相反,一些分析使用基于细胞的格式来筛选目标的功能简介。这些分析遵循命名约定,源格式(_F),其中特定目标信息定义于组件和端点级别。Bioseek和Attagene是提供基于细胞的分析。考虑数据源的多样性ToxCast中的高通量分析,灵活的命名方法是最好与主题专家判断结合使用。

#tcplLoadAid(what=“asid”,val=1)
#tcplRegister(what=“aid”,
#flds=列表(asid=1,
#anm=“TOX21_ERa_BLA_Agonist”,
#analysi_footprint=“1536井”)

注册分析时(\(\mathit{aid}\)),用户必须提供\(\mathit{asid}\)将分析映射到正确的分析来源。注册分析,除了化验名称(\(\mathit{anm}\))和\(\mathit{asid}\),需要\(\mathit{化验\_footprint}\). The\(\mathit{化验\_footprint}\)已使用字段在分析板可视化功能(稍后讨论)中定义适当的板尺寸。这个\(\mathit{化验\_footprint}\)字段可以接受大多数字符串值,但只有数值将被提取,例如,文本字符串“hello 384”表示绘制384井微晶板。中包含多个数值的值\(\mathit{化验\_footprint}\)可能导致绘制板图时出错。

分析成分注册

分析成分,简称“成分”,描述原始数据读数。与前一级别一样,一个分析可能包含多个成分。注册分析组件并创建\(\mathit{acid}\),一个\(\mathit{aid}\)必须提供以映射成分进行正确的分析。分析组件名称将基于其各自的分析名称构建,以描述特定功能在每个组件中进行测量。如果只有一个组件成分名称可以与分析名称相同。如果有多个分析中测量的成分,了解差异,以及如何在分析中,一种成分可能与另一种成分相关,这很重要命名注意事项以防止混淆。分析组件名称将通常遵循的命名约定源分析组件其中“组件”是对正在测量的内容的简要描述。

#tcpl负载酸(what=“asid”,val=1,add.fld=c(“aid”,“anm”))
#tcplRegister(what=“acid”,
#flds=列表(aid=1,
#acnm=“TOX21_ERa_BLA_Agonist_ratio”)

所需的最后一条分析信息是分析组件源名称(缩写\(\mathit{acsn}\)),存储在“assay_component_map”表。分析成分来源名称通过定义唯一字符串简化0级预处理(必要时连接信息)确定具体的分析成分。分析组件可以具有倍数\(\mathit{acsn}\)值,但一个\(\mathit{acsn}\)必须是唯一的一个分析成分。分析组件可以有多个\(\mathit{acsn}\)值以最小化所需的数据操作量(因此存在潜在错误)如果分析源文件更改或不一致的。唯一的字符串(\(\mathit{acsn}\))映射到\(\mathit{acid}\).

#tcplRegister(what=“acsn”,flds=list(acid=1,acsn=“TCPL-MC-Demo”))

分析组件终结点注册

分析组件端点,简称“端点”,表示规范化组件数据。注册端点并创建\(\mathit{aeid}\),一个\(\mathit{acid}\)必须提供以映射指向正确组件的端点。过去tcpl公司版本,每个组件最多可以有两个端点因此,端点名称将表示方向性(向上/向下)。tcpl版本3允许双向安装捕获信号的增益和损耗。因此tcpl版本3接下来,端点名称将通常与组件名称相同。

#tcplLoadAeid(fld=“asid”,val=1,add.fld=c(“aid”,“anm”,“acid”,“acnm”))
#tcplRegister(what=“aeid”,
#flds=列表(酸=1,
#aenm=“TOX21_ERa_BLA_Agonist_ratio”,
#normalized_data_type=“percent_activity”,
#export_ready=1,
#burst_assay=0,
#fit_all=0))

通知注册分析终点还需要\(\mathit{normalized\data\_type}\)字段。这个\(\mathit{normalized\data\_type}\)字段为绘图提供一些默认值。目前,该包支持三个\(\mathit{normalized\data\_type}\)值:(1) 百分比活性,(2)对数折叠归纳,和(3)log10_fold_induction。任何其他值将被视为“百分比活动。”

注册分析终点时的其他三个额外字段在MySQL中工作时不必显式定义并将默认为上述给定的值。所有三个字段表示布尔值(1或0,1为真的)。这个\(\mathit{export\_ready}\)字段指示(1) 数据已完成并准备导出或(0)仍在进行中。这个\(\mathit{burst\_assay}\)字段是特定于多浓度处理,并指示(1)分析终点包含在突发分布计算中或(0)没有。这个\(\mathit{fit\_all}\)字段是特定于多浓度处理,并指示(1)包装应尽量适合每个浓度系列,或仅适用于(0)试图拟合显示活动证据的浓度序列。

命名修订版

在某些情况下,化验、化验成分和化验端点名称更改。这个\(\mathit{aid}\)\(\mathit{acid}\)、和\(\mathit{aeid}\)被认为更稳定在数据库中,这些自动增加的密钥不应更改。收件人修改分析元素的命名,必须在中指定正确的id这个tcplUpdate(tcplUpdate)防止的声明覆盖数据。

#tcplUpdate(what=“acid”,
#flds=列表(aid=1,
#acnm=“TOX21_ERa_BLA_Agonist_ratio”)

更改名称的原因可能包括:

  • 主题专家或分析数据生成器的反馈;
  • 细胞系和细胞系漂移的澄清;
  • 添加新的分析数据,使旧的命名约定生效不足,例如拮抗剂分析使用不同的激动剂浓度;
  • 实验室或中心重组。

因此,应建议用户在使用分析命名时推断有关化验生物学的信息,化验命名将随时间变化以反映将ToxCast构建为数据的进度资源。