作者存档

南安普顿大学实习,将论文数据传输到LabTrove和ChemSpider

爱玲·戴撰稿。

今年夏天,南安普顿大学(University of Southampton)的一些学生参加了该校与皇家化学学会(Royal Society of Chemistry and ChemSpider)联合项目的实习。其中三名学生一直在筛选来自理查德·惠特比的研究小组为了提取其中的化合物、光谱和反应数据(以及链接的实验室笔记和存档光谱文件),并在LabTrove、ChemSpider和CSSP中共享这些数据。学生们——亚历克斯·哈特克、耶特·韦·李和乔什·惠塔姆(均为二年级本科生)——以及他们数字化的论文数据、实验室笔记本和光谱打印输出文件如下图所示。

南安普顿大学实习生

南安普顿大学实习生

他们将由A.Henderson、L.Sayer、D.Owen、D.Macfarlane、F.Giustiniano、G.Saluste和J.Stec撰写的7篇论文数字化,最终将1035个LabTrove页面发布到惠特比集团的LabTrove博客.

这些论文是化合物信息的丰富来源,包括化合物的结构、名称、性质和光谱,所有这些信息都存储在ChemSpider中,从而导致208页新复合页、和关于600光谱.

在这个项目中,学生们手动将化合物信息存入LabTrove,然后将化合物和光谱存入ChemSpider。然而,我们目前正在开发一系列ChemSpider jquery widget,可以集成到基于web的ELN中,例如LabTrove,这将使从ChemSpier将化合物信息输入到实验中变得更加容易,并且还可以将ELN中的化合物和反应数据发布到ChemSpider、CSSP和ChemSpiter Reactions。这将从最初的概念证明检索ChemSpider信息并将其输入LabTrove页面。

考虑到这一长期目标,实习生存储化合物和反应数据的LabTrove页面是使用LabTrove模板构建的,这种构建将使发布小部件更容易理解数据并以正确的方式进行处理。通过这种方式,该项目在一定程度上是为了确保模板适合在LabTrove中存储复合数据。以及ChemSpider化合物和相关数据模板(具有相应的帮助页,模板也以格式化的方式存储反应数据,因为论文主要关注化合物的合成。最简单的是,基本反应数据可以使用ChemSpider反应模板(和相应帮助页最终,以这种格式撰写的帖子将很容易发布到ChemSpider Reactions。可以使用ChemSpider SyntheticPages风格的反应模板(和相应帮助页。最初的目的是将所有反应数据存入ChemSpider合成页但很明显,除了进行反应的研究人员或他们的主管之外,任何人都很难为CSSP提交提供必要的详细程度,尤其是通过回顾性摘要无法轻易达到。因此,只有少数反应提交给了CSSP,大多数(超过500个)储存在LabTrove中,以便将来提交给ChemSpider reactions。

如果反应可以很容易地从ELN发布到ChemSpider反应,并且在执行新反应时,其他研究人员及其应用程序很容易查询,那么这将是实现拨号分子(EPSRC Grand Challenge网络)。需要捕获的反应数据的一个重要部分是反应中使用和产生的物质的化学计量表。然而,这些化学计量学表太复杂,无法整合到LabTrove模板中,因此,LabTrive反应模板将与一个新的ChemSpider jquery小部件一起使用,该小部件目前正在与LabTroves集成(稍后将在本博客中提供更多详细信息!),后者将构建它们。该小部件执行ChemSpider查找以检索化合物信息,并将计算当量,从而节省研究人员计算所需反应物数量或获得产品产量的时间。最初使用ChemSpider反应模板然后使用ChemSpider编辑化学计量表窗口小部件向其添加化学计量表在这里.

如果您是LabTrove用户并希望使用ChemSpider模板,可以通过上面的链接获取其源代码,并记录了在LabTrove中使用模板的说明在这里.

ChemSpider搜索的最新改进(第3部分)

第一部分在本系列中,我们讨论了通过分子公式范围进行搜索,以及将子结构搜索与其他类型的搜索相结合。第二部分介绍了如何通过生物活性、外观或熔点等补充信息进行搜索。这一次,我们将演示如何使用结合这些新功能的搜索来帮助回答您在实验室中可能遇到的问题。

对苯酚进行溴化反应后,分离出熔点为90-93°C的产品。如果您仅使用三条信息开始搜索-您的产品是苯酚的衍生物,它应该至少包含一个溴,并且您的熔点是90-93°C-您可以在高级搜索页面帮助您开始识别您的产品。

由于您现在可以将子结构搜索与其他搜索相结合,因此您可以从查找包含苯酚的化合物开始(按子结构搜索). 为了将结果限制为溴化酚,您添加了C6H(1-5)O1Br(1-5(按属性搜索). 最后,搜索熔点为90-93°C的化合物(按补充信息搜索).

您的搜索结果是:2,4,6-三溴苯酚虽然您需要更多信息来最终确认身份,但这为您的分析/说明提供了线索。

看一看记录,您可能会注意到它具有NIST的交互式红外光谱。如果检查“数据源”部分,您会发现该记录有很多数据源。

为了简化识别有用信息的过程,您可以浏览选项卡以查找特定类型的信息:例如,“光谱数据”选项卡提供指向MassBank(大众银行)NMR移位数据库数据库,这将有助于您确认/确定产品是否为2,4,6-三溴苯酚。

这只是如何在高级搜索页面。高级搜索是缩小搜索范围的一种好方法,可以帮助您准确地找到所需的内容,还有许多选项我们在这里没有介绍,所以请四处看看,看看哪些组合适合您。

ChemSpider搜索的最新改进(第2部分)

上次我们告诉过您,在最近的网站更新中,我们为ChemSpider添加了一些改进,包括组合子结构和属性搜索以及按分子公式范围搜索。正如承诺的那样,这次我们将介绍如何通过熔点或外观等属性进行搜索。

按补充信息搜索

到目前为止,虽然你可以在记录中查看属性,但无法通过熔点、折射率、外观或生物活性进行搜索。此更新实现了新的搜索界面它允许您搜索此数据。您现在可以找到据报道从酵母中分离出来的化合物,或熔点为32-35°C的化合物。

我们的补充搜索界面有两个主要部分。

文本属性搜索

文本属性包括外观、化学类别、药物状态或安全数据。您可以使用关键字搜索这些属性中的任何一个。当您开始键入时,会出现一些建议的搜索词,这可以帮助您缩小要使用的搜索词的范围。

您也可以输入通配符*,这可以让你在搜索词上有更多的灵活性。因此,如果你的未知物质是蓝色水晶材料,搜索“蓝色水晶*”会找到所有提及单词“蓝色”的记录,以及任何以“水晶”开头的单词(例如水晶或水晶)。

 

数字属性搜索

数值属性包括物理属性,如实验或预测沸点、旋光度或对数。由于我们从广泛的数据源中提取数据,因此并非所有这些信息都是以相同的格式或以相同的方式描述的单位发送给我们的。为了让您能够搜索我们数据库中的所有属性,无论它是如何提供给我们的,我们已经做了大量的背景工作来整理和标准化这些数据。

可以使用min/max或使用+/-范围和搜索词可以用多种单位输入–例如。华氏的摄氏度温度,或磅/平方英寸毫米汞柱用于压力。因为材料的沸点取决于进行测量的压力,而不是所有的沸点都是在大气压力下测量的,所以我们创建了一个功能,试图对此进行补偿。它使用Clausius-Clapeyron方程要创建用于搜索的估计(标准化)沸点,请在查看结果时记住这一点。

 

如你所见,你可以搜索各种实验性质,包括沸点、对数、熔点、比重和溶解度。请注意虽然许多更常见的化合物都有一些属性,但这些属性仅在我们的记录的子集中可用&因此,如果您在属性搜索中没有得到结果,可能是因为我们尚未添加该信息。

希望这能让你很好地了解我们对ChemSpider搜索所做的改进,以及这些新功能是如何让你比以往更容易找到你想要的东西的。请参阅下面的帖子,了解展示这些帖子中包含的几个新功能的案例研究。

ChemSpider搜索的最新改进(第1部分)

我们最近发布了ChemSpider网站的更新,除了修复了一些错误外,还添加了一些有用的新功能。这篇文章重点介绍了其中的三个功能——一个你可能已经注意到了,还有两个你可能还没有发现。

自动完成

我们已恢复自动完成ChemSpider主页上的功能。现在,当你开始在搜索框中输入时,ChemSpider会根据你输入的内容给出建议。这使得找到你要找的东西比以往任何时候都容易——即使你不太确定如何拼写它。

在ChemSpider主页上自动完成

 

组合结构/属性搜索

人们经常会问,是否有一种方法可以同时搜索亚结构和其他属性,如分子量或分子式。此更新现在可以从我们改进的高级搜索页面.

例如,如果您有兴趣寻找结构类似于安定的化合物,可以进入苯二氮杂卓亚结构,并将其限制为分子量为275-325的化合物。


然后此搜索返回安定以及其他类似药物氯硝西泮硝西泮劳拉西泮.

有许多其他搜索选项可以与子结构/相似性搜索相结合,因此请查看高级搜索页面然后玩一场。

分子公式范围搜索

您还可以一次搜索一系列分子公式。要指定给定元素的范围,请将范围放在元素后面的括号中。例如C7H(10-12)O(0-1)将返回所有精确包含7个碳和10到12个氢的化合物,这些化合物可能包含也可能不包含氧。可以从简单搜索页面,作为高级搜索或来自ChemSpider主页.

最棒的是,它可以与高级搜索页面包括子结构搜索。例如,如果你想找到至少含有三种氯的多氯联苯,你可以对分子式为C12H(0-7)Cl(3-10)的联苯进行子结构搜索。


在我们的下一篇文章中,我们将介绍一些新的方法,您可以通过存储在我们记录中的属性进行搜索,如熔点、密度等。

平面中的六边形

由Colin Batchelor撰写。

我将在七月举行的第六届谢菲尔德化学信息学联合会议上发言一般和特殊糖分子结构的验证和标准化这是一位品酒师。

特别是糖

化学结构算法的一个大问题是,它们通常无法处理化学家习惯于绘制糖分子的方式。它们将失去糖环周围的立体化学,使D-葡萄糖崩解,例如,转化为L-葡萄糖,更不用说阿洛糖、altrose、gulose和其他所有物质。

(我应该注意到,ChemDraw可以正确解读椅子立体声,但这是一个例外。)

确定椅子原子正确立体化学的第一步是识别椅子六边形。这就是本文的主题。

你曾经和卫星导航坐在同一辆车里吗(美国读者:这和GPS是一样的)?虽然人类导航员会给出一般指示,如“直走所有环形交叉口,直到我们到达红狮”,但卫星导航只会给出单步本地指示。“在环形交叉口,从第三个出口走。”“100米后,左转。”机器结构的感觉是这样的。算法需要一个原子一个原子、一个键一个键地绕着结构一步,而不是像你或我一样一瞬间就意识到六边形是一把椅子或一艘船。

识别我们正在处理的六边形的诀窍是看在每个原子处我们是向左还是向右。如果我们一直朝着同一个方向转动,那么我们就得到了一个正六边形。如果我们朝一个方向转动一次,然后朝另一个方向再转动两次,然后在第一个方向转动一遍,然后在另一个角度转动两次的话,我们就有了一把椅子。你还可以画其他六种六边形,它们都与相应的旋转顺序一起在下面描述。

他们中的一些人很熟悉,比如船、旋转船和信封。其他人就不那么了。

六边形
当我们确定椅子上的原子时会发生什么?我很快会更详细地介绍这一点,但同时这里是新奥尔良ACS春季会议的幻灯片:

楔子、大麻和格里斯配菜

由Colin Batchelor编写。

不(这不是一篇关于碳水化合物的文章,尽管标题如此!)

模糊立体化学是一个长期存在的问题。即使有人知道某一特定分子中的所有立体中心,他们也不一定会以机器甚至人能够解释的方式绘制它们。键的尖端或钝端是指立体中心,这是有规律的,令人惊讶的是,你经常会看到它们被错误地操作。

今天,我将讨论IUPAC关于绘制立体中心的一个特别建议,这一建议乍一看可能令人惊讶,即在给定的立体中心中可能只有一个立体键。如果你有一个楔形键连接到一个原子上,你不可能有一个散列键连接到同一个原子。而且反之亦然.

这是为什么?

您可能会认为,随着您提供更多信息,您正在使图表更容易解释。然而,你的行为直接违背了正常的沟通原则。你的信息量超出了要求,这给读者敲响了警钟。你想说什么?如果你问路人时间,他们说“好吧,现在是格林尼治标准时间六点半”,你有权想知道他们为什么要引用时区。也许他们是想搞笑。

保罗·格莱斯(Paul Grice)在20世纪70年代思考了整个问题,并提出了一套四个原则,总结为格言,即听众(或读者)认为演讲者在遵循这些原则。这些是:

  • 要诚实。不要说你认为是假的。不要说你缺乏足够证据的话。

让我们希望这一点在任何化学绘图中都是隐含的!

  • 尽可能提供所需的信息。不要让你的贡献超出要求。

如果一个原子上有两个甲基,不要做一个楔形物和一个杂凑物。您没有添加新信息!

除非你的目标受众是学生,否则不要用字母C标记碳纤维。

  • 相关性:

在大尺度上:不要用任何旧分子来解释文章,确保所提到的分子实际上是相关的。

然而,按照绘图本身的比例:例如,如果一个普通的p块原子有三个键,请确保它们彼此成120度角。如果它们不是,例如其中两个是直角的,读者就会推断出发生了什么奇怪的事情。

  • 请明确:

确保你所有的双键看起来都像双键,而不是与另一个单键平行的单键。我怀疑ChemDraw的成功很大程度上是因为它能绘制出吸引人、清晰的化学图形。

人们是否曾故意藐视这些格言?

哦,是的。人们在试图搞笑或在政治采访中经常藐视这些格言。同样,你在专利中看到的化学图纸中也有各种各样的格赖斯违规行为:不完全延伸到原子的键,标记为Y(Y是钇!)或Q或W(也是钨)的R基团,或其他一些不寻常的字母,等等。为什么专利中的这种情况比期刊文章中的要频繁得多,这留给了读者一个练习。

正确看待糖

由Colin Batchelor编写。

你可能不这么认为,但你很擅长绘制二维图形,并在脑海中将其转换为三维形状。不,真的,你是。

透视图中的半乳糖

图1。透视图中的半乳糖

以图1中的半乳糖为例。即使你不是化学家,你也能分辨出戒指的哪些部位在前面和后面,哪些键指向上,哪些键向下。如果你真的是一名化学家,你已经接受过应用这种几何直觉来计算五个立体中心中每个立体中心发生了什么的训练。

然而,如果你问InChI算法关于这个分子的立体化学,它会说那里没有立体化学,你看到的是对哪个原子连接到哪个原子的无立体描述。由于我们使用InChI算法来判断两个记录是否描述同一个分子,这让我们陷入了困惑,ChemSpider中有数千个条目都来自这样的绘图,因此缺乏立体化学。

(更多…)