植物和动物基因组（PAG）第31届年会-GigaBlog

植物和动物基因组（PAG）第31届年会

2024年2月2日

PAG公司（植物和动物基因组会议）于今年1月（2024年1月12日至17日）返回圣地亚哥的乡村度假胜地，进行第31期分期付款，规模比以往任何时候都要大！GigaScience Press团队定期参加会议（请参阅过去几年的总结)今年，我们的编辑和策展团队成员加入了来自60多个国家的近3000名代表。

周五上午10点左右，会议从容开始，我的第一站是重新认识牛津纳米孔技术（ONT）团队在ORG.one会议上的出色工作。卡拉·迪克斯介绍了ORG.one公司该项目是ONT资助的一个项目，旨在协助濒危物种（动植物基因组）的定位测序。他们将免费提供工具，以生成约20倍于国际自然保护联盟红色名录濒危（EN或CR状态）。

三个鹦鹉基因组HiC组装图

然后，对本项目中已经测序的一些物种进行了一系列讨论，包括：；Butternut（美国核桃濒危物种）；宽口金枪鱼（墨西哥一种适应硫化物的鱼类）；中国东部长臂猿；以及最后一年博士生最有趣的演讲泰勒·海恩斯对来自世界各地的濒危金刚鹦鹉和凤头鹦鹉的6个基因组进行了研究（尤其是Giga科学有一个软点鹦鹉基因组）。泰勒对这一主题表现出极大的热情，同时也表现出了兴奋和绝望！显然，鸟类基因组与哺乳动物基因组的不同之处在于，它们通常包含许多微染色体（或者用泰勒的话来说，“鹦鹉弄乱了染色体！”），这几乎不可能通过核型鉴定。这种差异可能会导致信息学工具出现问题（通常会导致撕裂），这些工具通常设计用于哺乳动物基因组。

微染色体是否是原因尚待确定，但鹦鹉的一个特点是，它们能够跨越物种边界交配，并且经常交配（同样是泰勒独特的风格）。”生物学不适用于鹦鹉，它们只是性欲旺盛的小杂种！”. 这是一个特点，导致了多种不同的杂交品种，它们往往在宠物行业非常受欢迎，因为它们可以是非常不寻常和美丽的标本。

数据重用

数据重用是许多会议中反复出现的主题。Giga科学编辑委员会成员（EBM）迈克·沙茨“演讲中提到了GTEx项目，该项目已经有10年历史，本质上是对DBGap中311TB原始数据的重新分析，DBGap已被全球250多个团体访问。一些简单的数学表明，如果所有250个小组都下载了原始数据以重新进行分析，这意味着将有超过100PB的数据存储在多个副本中。这根本不是一个可扩展的解决方案，因此需要在数据存储环境中运行分析，而不是将大型数据文件复制到运行分析的位置。AnVIL就是这样一个工具，它允许多个组处理云中的一个数据副本。

AgBioData联盟有一个数据重用工作组，该工作组阐述了数据质量的重要性、不完整的元数据以及缺乏激励研究人员提供数据的动机。他们提倡采用跨所有基因组的共同标准，以便于共享和比较。他们还强调了2021年发表的一篇论文（很抱歉，我错过了参考文献），该论文显示了50%以上的案例，其中作者表示可以根据要求提供数据，但未能根据要求提供这些数据。

全体会议

尽管会议于周五上午开始，但我们不得不等到周日晚上才有第一位全体发言人，阿波利奈尔·吉肯他在展览厅的开幕招待会之前。在他的引言中提到的众多荣誉中，阿波利内尔因其在全球农业发展方面的工作而获得了2020年纳尔逊·曼德拉正义奖。他在PAG演讲的主题是“牲畜和粮食系统：关注全球南方的小农系统”。阿波利奈尔概述了我们在全球粮食体系中仍然面临的各种挑战，特别是与粮食安全有关的挑战，并强调了有助于应对这些挑战的最新进展。这次谈话的一个主要特点是不同国家的农业方法不同，特别是与全球南方主要的小农式农业相比，全球北方有一种趋势，即创造大面积的农田，很少或根本没有作物多样性。我们应该意识到，在这些不同的环境中，应对这些挑战的正确解决方案可能会有所不同。

在接下来的3天里，我们又收到了来自世界各地杰出科学家的6次全体会谈。露西·范·多普以最近的新冠肺炎大流行为例，以数据丰富的方式重建病毒基因组随时间的演变，虚拟地介绍了在空间和时间上追踪病原体的主题。

美国三种灌木松鸦的分布

斯科特·爱德华兹（Scott Edwards）在谈到他的史诗时说：“在美国骑自行车认识我的人比认识我的科学还要多！”2020年，从一个海岸骑行到另一个海岸帮助黑人生活物质。事实上，他是哈佛大学比较动物博物馆的一位著名馆长，对鸟类学充满热情。斯科特概述了鸟类种群穿山甲组学的现状，包括灌丛松鸦穿山甲组项目（如图）。

机器学习

根据所有科学领域的当前趋势，有很多讨论使用或讨论机器学习技术的潜力。例如，克里斯·蒙格尔谈到“使用大型语言模型构建本体”。由于航班延误，克里斯实际上是在前一位演讲者的提问时间到达会议室的（有人可能会说时间安排得很好），但这丝毫没有让他感到慌张。植物和动物基因组学中使用了数百种本体论，保持它们的最新性是一个挑战，因此LLMS（大型语言模型）能帮助做到这一点吗？简而言之，克里斯似乎认为它有很大的潜力，是的，尤其是如果可以使用检索增强生成（RAG）工具来获得更准确的结果，例如DRAGON AI。通过盲审和排名，进行了实验来检查DRAGON人工智能生成的术语定义与人工编写的术语定义相比有多好。结果是，人工生成的定义平均比人工智能生成的定义更容易理解和准确。然而，利用人工智能，通过一些人为的监督和检查来填补空白是有可能的。克里斯强调，这些工具不会取代人类，但可以提高生产力。

同样，阿列克西·齐敏介绍了“基因组注释的数据优于机器学习”。Zimin的小组研究了使用机器学习技术注释基因组的情况，发现它们确实提供了更高的覆盖率，但通常会以准确性为代价，尤其是在UTR中。他提出了一种称为“eviAnn”的工具，该工具使用相关物种的蛋白质证据来注释基因组。

公民科学

GigaScience Press的粉丝会知道，我们很棒公民科学项目的倡导者，所以我很高兴参加“参与式和公民科学基因组学”会议。对我来说，会议的重点是“增加公民科学项目”(www.pulsesincrease.eu)”. Kerstin Neumann介绍了该项目的概况，该项目旨在将基因库中的（遗传）多样性恢复到普通大豆的社区中。随着欧洲各地参与人数的稳步增加，该项目已进入第四个年头。它是社会科学（社区建设）和现象学的混合物。市民参与者每人从种子库中获得5个不同的传统种子系和1个控制系（每个参与者都有相同的系），并要求他们在家中种植，并在应用程序中记录各种性状。鼓励社区参与者通过一个脸书群组相互讨论挑战，从而减轻处理直接查询的管理负担。该社区旨在促进人与人之间的种子共享。每个参与者都需要从每次收获中保存一些种子，以便再生和/或与他人分享，而任何多余的农产品都是供他们个人消费的。该应用程序包括36个特征，根据用户的经验水平划分，从初学者到专家，因为这是一个全欧洲的项目，它还被翻译成各种欧洲语言，以便与参与者交流。目前，由于生活材料的进出口问题，该项目仅在欧洲范围内可用。

结束

对于我们中的许多人来说，当会议中心的火警在午餐前的倒数第二次会议上响起时，科学就突然结束了。正在与对话海伦·布拉巴姆在她的演讲（这是被火警打断的演讲之一）之后，似乎大多数参与者（包括我自己，我必须承认！对不起，海伦）都选择在火警之后在草坪上吃午饭，而不是回去上课。尽管工作日的结局有点令人失望，但一切还没有结束！正如传统所说，PAG的最后一晚是会议宴会，在那里，展览厅变成了一个巨大的宴会厅，充满了舞池和DJ，每个人都在这里做得最多最后一次建立联系的机会。

感谢组织者提供新闻通行证，我期待着再次在第32页见到大家！

对于那些不能等待一整年的人，现在世界各地都有可供选择的PAG会议，PAG-亚洲和PAG-澳大利亚将于2024年举行，PAG-India的计划将于2025年制定。