螺旋形抽象建筑形象

案例研究:使用自然语言查询开放目标平台

案例研究 2023年5月25日

这篇博客文章是探索开放目标信息生态系统的应用和扩展的系列文章的一部分,特别是开放目标平台开放目标遗传学通过与用户的对话。

直到最近,Onuralp Soylemez还是Global Blood Therapeutics的数据科学主管。Onuralp是一位在人类遗传学驱动的药物发现方面具有丰富经验的研究科学家,他广泛使用开放靶点信息学工具来收集人类遗传学证据以支持药物靶点,并且之前利用Open Targets的数据开发了一种方法,将各种类型的人类遗传学证据结合起来,以优先考虑有临床前景的靶点裁判.

受BirdSQL(一种允许用户浏览推特大型数据集的搜索界面)的启发,Onuralp希望展示基于GPT的对话式搜索引擎在生物学、医疗保健和药物发现方面的潜力,以促进湿实验室科学家与数据科学家、遗传学家、,和机器学习科学家。

使用OpenAI的Codex模型,他的搜索引擎将自然语言(例如,“与ABCA4相关的前三种疾病是什么?”)转换为提交给Open Targets Platform API的GraphQL查询,并返回答案(严重的儿童早期视网膜营养不良、锥杆营养不良和年龄相关性黄斑变性)。

在此处访问模型.  

照片中一个留着短发和胡茬的男人看着相机,面带微笑。标题:Onuralp Soylemez创建了一个搜索引擎,将自然语言转换为提交给Open Targets Platform API的GraphQL查询

你认为这种应用的局限性是什么?

Text-to-GraphQL对于查询特定领域的数据集是一个非常有趣的挑战,在药物发现方面有许多有用的应用。我认为,我们只受到创造力和我们可以提出的问题的独创性的限制。我坚信,众包最有帮助的问题的最佳方式是让湿式实验室生物学家(和治疗领域专家)能够采用这些高能力的人工智能技术,并能轻松地与计算生物学同行对话。此应用程序突出了减少技术障碍的机会。

你认为自然语言模型如何帮助解决药物发现问题?

我最兴奋的一个用例是文本总结。这些模型在总结长篇文本和突出主要思想时表现出了令人印象深刻的性能。我认为药物发现的成功取决于我们能够有效生成和测试的治疗或生物假设的质量。

这些语言模型可以帮助我们分析大量生物医学文献,根据测试的特定假设对学术论文进行分类。例如,我们可以要求这些语言模型找到测试我们感兴趣的特定假设的论文,例如,找到测试他汀类药物是否有效降低胆固醇水平的论文。用特定假设而不是文字关键词来查询文献,可以为不同背景的科学家之间的科学交流和推理奠定基础。

你认为与ChatGPT进行更长时间的对话可以帮助解决更复杂的问题吗?

当然可以。我认为这些自然语言模型可以帮助将复杂的问题分解为中间步骤,以便用户在生成答案时遵循模型的推理。与模型进行更长、更深入的对话可以揭示模型生成的答案在广泛的药物发现任务中的相对效用。

不幸的是,这个寻找最佳方式来启动对话引擎的过程目前非常手工,需要大量的实验——幸运的是,比起毒品搜索者来说,这是一个更好的群体来实验并找出最有用的用例。


参考。

Soylemez,O.(2022年)。利用综合人类遗传学证据预测临床结果的贝叶斯张量因子分解。arXiv预打印arXiv:2207.12538。

标签