植物和动物基因组(PAG)第31届年会

PAG公司(植物和动物基因组会议)于今年1月(2024年1月12日至17日)返回圣地亚哥的乡村度假胜地,进行第31期分期付款,规模比以往任何时候都要大!GigaScience Press团队定期参加会议(请参阅过去几年的总结)今年,我们的编辑和策展团队成员加入了来自60多个国家的近3000名代表。

周五上午10点左右,会议从容开始,我的第一站是重新认识牛津纳米孔技术(ONT)团队在ORG.one会议上的出色工作。卡拉·迪克斯介绍了ORG.one公司该项目是ONT资助的一个项目,旨在协助濒危物种(动植物基因组)的定位测序。他们将免费提供工具,以生成约20倍于国际自然保护联盟红色名录濒危(EN或CR状态)。

三个鹦鹉基因组HiC组装图

三个鹦鹉基因组HiC组装图

然后,对本项目中已经测序的一些物种进行了一系列讨论,包括:;Butternut(美国核桃濒危物种);宽口金枪鱼(墨西哥一种适应硫化物的鱼类);中国东部长臂猿;以及最后一年博士生最有趣的演讲泰勒·海恩斯对来自世界各地的濒危金刚鹦鹉和凤头鹦鹉的6个基因组进行了研究(尤其是Giga科学有一个软点鹦鹉基因组)。泰勒对这一主题表现出极大的热情,同时也表现出了兴奋和绝望!显然,鸟类基因组与哺乳动物基因组的不同之处在于,它们通常包含许多微染色体(或者用泰勒的话来说,“鹦鹉弄乱了染色体!”),这几乎不可能通过核型鉴定。这种差异可能会导致信息学工具出现问题(通常会导致撕裂),这些工具通常设计用于哺乳动物基因组。

微染色体是否是原因尚待确定,但鹦鹉的一个特点是,它们能够跨越物种边界交配,并且经常交配(同样是泰勒独特的风格)。”生物学不适用于鹦鹉,它们只是性欲旺盛的小杂种!”. 这是一个特点,导致了多种不同的杂交品种,它们往往在宠物行业非常受欢迎,因为它们可以是非常不寻常和美丽的标本。

数据重用

数据重用是许多会议中反复出现的主题。Giga科学编辑委员会成员(EBM)迈克·沙茨“演讲中提到了GTEx项目,该项目已经有10年历史,本质上是对DBGap中311TB原始数据的重新分析,DBGap已被全球250多个团体访问。一些简单的数学表明,如果所有250个小组都下载了原始数据以重新进行分析,这意味着将有超过100PB的数据存储在多个副本中。这根本不是一个可扩展的解决方案,因此需要在数据存储环境中运行分析,而不是将大型数据文件复制到运行分析的位置。AnVIL就是这样一个工具,它允许多个组处理云中的一个数据副本。

AgBioData联盟有一个数据重用工作组,该工作组阐述了数据质量的重要性、不完整的元数据以及缺乏激励研究人员提供数据的动机。他们提倡采用跨所有基因组的共同标准,以便于共享和比较。他们还强调了2021年发表的一篇论文(很抱歉,我错过了参考文献),该论文显示了50%以上的案例,其中作者表示可以根据要求提供数据,但未能根据要求提供这些数据。

全体会议

尽管会议于周五上午开始,但我们不得不等到周日晚上才有第一位全体发言人,阿波利奈尔·吉肯他在展览厅的开幕招待会之前。在他的引言中提到的众多荣誉中,阿波利内尔因其在全球农业发展方面的工作而获得了2020年纳尔逊·曼德拉正义奖。他在PAG演讲的主题是“牲畜和粮食系统:关注全球南方的小农系统”。阿波利奈尔概述了我们在全球粮食体系中仍然面临的各种挑战,特别是与粮食安全有关的挑战,并强调了有助于应对这些挑战的最新进展。这次谈话的一个主要特点是不同国家的农业方法不同,特别是与全球南方主要的小农式农业相比,全球北方有一种趋势,即创造大面积的农田,很少或根本没有作物多样性。我们应该意识到,在这些不同的环境中,应对这些挑战的正确解决方案可能会有所不同。

在接下来的3天里,我们又收到了来自世界各地杰出科学家的6次全体会谈。露西·范·多普以最近的新冠肺炎大流行为例,以数据丰富的方式重建病毒基因组随时间的演变,虚拟地介绍了在空间和时间上追踪病原体的主题。 

美国三种灌木松鸦的分布

美国三种灌木松鸦的分布

斯科特·爱德华兹(Scott Edwards)在谈到他的史诗时说:“在美国骑自行车认识我的人比认识我的科学还要多!”2020年,从一个海岸骑行到另一个海岸帮助黑人生活物质。事实上,他是哈佛大学比较动物博物馆的一位著名馆长,对鸟类学充满热情。斯科特概述了鸟类种群穿山甲组学的现状,包括灌丛松鸦穿山甲组项目(如图)。

机器学习

根据所有科学领域的当前趋势,有很多讨论使用或讨论机器学习技术的潜力。例如,克里斯·蒙格尔谈到“使用大型语言模型构建本体”。由于航班延误,克里斯实际上是在前一位演讲者的提问时间到达会议室的(有人可能会说时间安排得很好),但这丝毫没有让他感到慌张。植物和动物基因组学中使用了数百种本体论,保持它们的最新性是一个挑战,因此LLMS(大型语言模型)能帮助做到这一点吗?简而言之,克里斯似乎认为它有很大的潜力,是的,尤其是如果可以使用检索增强生成(RAG)工具来获得更准确的结果,例如DRAGON AI。通过盲审和排名,进行了实验来检查DRAGON人工智能生成的术语定义与人工编写的术语定义相比有多好。结果是,人工生成的定义平均比人工智能生成的定义更容易理解和准确。然而,利用人工智能,通过一些人为的监督和检查来填补空白是有可能的。克里斯强调,这些工具不会取代人类,但可以提高生产力。

同样,阿列克西·齐敏介绍了“基因组注释的数据优于机器学习”。Zimin的小组研究了使用机器学习技术注释基因组的情况,发现它们确实提供了更高的覆盖率,但通常会以准确性为代价,尤其是在UTR中。他提出了一种称为“eviAnn”的工具,该工具使用相关物种的蛋白质证据来注释基因组。

公民科学

GigaScience Press的粉丝会知道,我们很棒公民科学项目的倡导者,所以我很高兴参加“参与式和公民科学基因组学”会议。对我来说,会议的重点是“增加公民科学项目”(www.pulsesincrease.eu)”. Kerstin Neumann介绍了该项目的概况,该项目旨在将基因库中的(遗传)多样性恢复到普通大豆的社区中。随着欧洲各地参与人数的稳步增加,该项目已进入第四个年头。它是社会科学(社区建设)和现象学的混合物。市民参与者每人从种子库中获得5个不同的传统种子系和1个控制系(每个参与者都有相同的系),并要求他们在家中种植,并在应用程序中记录各种性状。鼓励社区参与者通过一个脸书群组相互讨论挑战,从而减轻处理直接查询的管理负担。该社区旨在促进人与人之间的种子共享。每个参与者都需要从每次收获中保存一些种子,以便再生和/或与他人分享,而任何多余的农产品都是供他们个人消费的。该应用程序包括36个特征,根据用户的经验水平划分,从初学者到专家,因为这是一个全欧洲的项目,它还被翻译成各种欧洲语言,以便与参与者交流。目前,由于生活材料的进出口问题,该项目仅在欧洲范围内可用。 

结束

对于我们中的许多人来说,当会议中心的火警在午餐前的倒数第二次会议上响起时,科学就突然结束了。正在与对话海伦·布拉巴姆在她的演讲(这是被火警打断的演讲之一)之后,似乎大多数参与者(包括我自己,我必须承认!对不起,海伦)都选择在火警之后在草坪上吃午饭,而不是回去上课。尽管工作日的结局有点令人失望,但一切还没有结束!正如传统所说,PAG的最后一晚是会议宴会,在那里,展览厅变成了一个巨大的宴会厅,充满了舞池和DJ,每个人都在这里做得最多最后一次建立联系的机会。

感谢组织者提供新闻通行证,我期待着再次在第32页见到大家!

对于那些不能等待一整年的人,现在世界各地都有可供选择的PAG会议,PAG-亚洲PAG-澳大利亚将于2024年举行,PAG-India的计划将于2025年制定。