ACM的人-克劳迪娅·鲍泽·梅德罗斯

2018年9月4日

你最初是如何对电子科学感兴趣的?

电子科学的特点是由计算机科学家和其他领域的研究人员进行联合研究,在联合研究中,计算机科学和其他领域都有研究贡献。在20世纪90年代中期,我开始与地球科学家合作,发现了地球参考数据的奇妙世界。在此之前,我是一名数据库研究员,与计算机科学家一起工作。地理数据开辟了许多有趣的探索途径,并引入了各种CS研究挑战。大多数地理应用程序都需要组合非常多样化的数据源,并存在各种有关数据质量的问题。如今,与地理相关的研究需要处理大数据和数据流,以及对传感器网络、时间序列管理、数据挖掘和新架构的研究。

这种应用还包括将不同领域的知识结合起来,从而形成跨学科团队,每个成员都通过不同的视角和要求来看待世界。反过来,这种情况迫使我们作为计算机科学家了解这些科学家是如何工作的,特别是他们是如何收集和处理数据的。查询处理不再“仅仅”是一个优化问题,而是要满足所有这些需求。这项工作的另一个有趣的方面是学习说和理解各种词汇。与地球科学家合作可以让你了解起源、时间框架和其他概念的重要性,例如,我在与社会科学家、医生和化学家合作时也遇到过这些概念。通过电子科学研究,我们可以从许多不同的角度看待世界,同时也推动了计算机科学的发展。

在我职业生涯的后期,我与许多科学家合作,他们正在寻找既能处理数据又能理解地理相关问题的人。这导致我领导了农业和生物多样性两大项目。后者让我在巴西设计了一个非常异构的数据库,其中存储了300多支在巴西圣保罗工作的生物学家团队实地考察的数据,涵盖了各种生物——巴西物种数据库FAPESP BIOTA研究项目为了了解需要什么,我与研究昆虫、哺乳动物、爬行动物、植物物种、海洋生物或植物-物种相互作用的小组进行了交谈,仅举几个例子。我问了一些问题,比如“你是如何收集数据的?”、“你是怎么存储数据的,如何处理将物种信息与其物理环境信息相结合的查询。

一年多以来,我们参与了关于命名事物、管理数据、保存物品(如树叶或昆虫)、拍照、记录动物叫声、给罐子贴标签以及将所有这些信息输入数据库的长期讨论。每次我与不同的小组交谈时,我都会发现如果要为后续查询充分管理数据,就必须考虑另一个方面。

在过去的10年里,我还经常充当计算机科学家和其他领域科学家之间的“媒人”。这让我对研究人员如何处理研究数据生命周期有了宝贵的见解。即使我没有与他们合作,我也有机会了解语言学家、人类学家、天文学家、历史学家、营养专家,甚至宗教研究工作者的一些需求。

最后但并非最不重要的是,通过我作为协调委员会成员的工作圣保罗研究基金会(FAPESP)关于电子科学和数据科学的研究项目,我看到过提交的项目主题需要跨学科评估,通常来自三个或四个不同领域的专家,其中一个领域总是计算机科学。 

我们收集不同类型数据(卫星图像、传感器数据等)的能力对科学数据库的设计和开发产生影响的最重要方式是什么?

数据采集设备的技术演变是所谓“大数据”现象的一部分。术语“大”具有误导性,因为它意味着数量,而还有许多其他与处理和管理大数据相关的问题。我们以更快的速度收集大量科学数据的能力,无疑影响了科学数据库的设计和开发,包括硬件解决方案;人们提出了新的数据结构来支持数据存储和检索,以及新的算法来实现高效的查询和挖掘。数据异构性是另一个需要考虑的因素。异质性不仅是一个收集数据的问题,也是一个看待世界的不同方式的问题。由于这些方式总是会发生变化,新类型的数据总是会出现,旧类型数据也会出现新的解释。异质性将继续影响科学数据库的设计和开发。数据量和异构性,以及不同的质量要求,给数据管理和保存带来了挑战,而这两者通常被认为是科学数据生命周期中成本更高的因素。我们现在必须应对过去不太普遍的要求。例如,科学数据库的设计现在必须优先考虑管理和保存。

你能告诉我们一些关于野生动物声音识别系统(WASIS)你从事的项目?未来可能出现的收集声音数据的其他有趣应用程序是什么?

虽然有工具可用,但我们现在正在寻找更多的人来继续这项工作。这项倡议始于我与参与环境研究的生物学家的合作。通过这项工作,开发了一些有趣的算法,帮助科学家从他们的声音收集工作中收集新的见解。原始数据的记录始于20世纪70年代,由法国生物学家雅克·维亚拉德(Jacques Vieillard)开始,他是我所在大学的讲师。他不幸于20世纪90年代去世,但留给我们的是非常丰富的录音收藏,随着科学家的捐赠,这些收藏仍在不断增加。这已成为世界上最大的动物发声收藏之一,具有极高的科学和历史价值。我不是生物学家,所以我不敢谈论未来的应用。然而,我可以提到一些非常有趣的当前应用程序。例如,许多记录对应于濒危物种,当它们在某一特定地区丰富时进行记录。因此,他们帮助环保主义者了解过去,并提出保护倡议。一些位于同一地点的记录(在空间和时间上)提供了对一起发现的物种的洞察力,但随着时间的推移(以及气候变化和人类干预),这些物种在某种程度上被分离了。

我的一个学生设计了数据清理算法,并通过将可用元数据与历史天气时间序列相结合来填补记录元数据中的空白。在计算机科学中,(声波的)研究-图案匹配有很多机会需要上下文敏感(例如,同时测量的环境变量)。一些科学家认为,我们可以将情绪感知研究应用于动物发声。还需要更好的声音描述符,并以更有效的方式涉及公民科学。

在您的候选人加入ACM理事会的声明中,您提到您的电子科学研究和您为资助机构所做的工作教会了您跨学科的优势(和陷阱)。为什么你认为在计算领域需要更多的交叉学科,ACM可以做些什么来促进这一点?

生物信息学是跨学科优势的一个很好的例子。在过去的24年里,我一直在与非计算机科学家合作,希望通过这次练习,我能成为一名更好的计算机科学家。当然,计算机科学中有许多令人兴奋和具有挑战性的问题,我们不需要走出我们的领域来为科学做出贡献。

另一方面,看到我们的研究如何能为其他领域的人工作做出贡献(并从中获益),真的很有意义(也很有趣)。通过与社会科学家的交谈,我了解了来源对验证结果的价值,以及来源对再现性的需要。我对科学工作流程的兴趣是由我与化学家和地球科学家的研究激发的。

计算也需要跨学科性。与许多其他领域一样,存在过度专业化的危险。我曾与机器学习方面的专家交谈过,他们不担心将要处理的数据的质量,只关心加快处理速度。虽然他们可能进行一流的研究,但我觉得缺少了一些东西。

在我以数据为中心、数据驱动的世界观中,数据已经成为科学家合作的手段:告诉我你的数据,我就会了解你的研究;我将与您讨论一些管理数据的可能方法,您将了解我的研究。通过这次对话,我们将了解彼此的词汇、要求、限制和需求。我们还将发现新的方法,通过这些方法,我们可以共同推进科学,成为更好的导师和教师。

克劳迪娅·鲍泽·梅德罗斯是巴西坎皮纳斯大学计算机研究所(UNICAMP)的数据库教授。她的研究集中于科学数据的管理和分析,以应对从化学和生物学到城市规划和社会科学等大型现实应用所带来的挑战。Medeiros协调了大型多学科项目,包括在农业环境规划和生物多样性方面的应用,其中一些项目包括来自法国和德国的合作伙伴。

她的荣誉包括被秘鲁安特诺·奥雷戈大学和法国巴黎多芬大学任命为巴西科学功绩勋章指挥官和荣誉博士。她是巴西计算机学会前主席,目前是研究数据联盟理事会成员。5月,她当选为ACM理事会的大成员,该理事会是管理协会活动的领导机构。