ACM的人-Gonzalo Navarro

2023年8月22日

你最初是如何对算法和数据结构感兴趣的?

这是一段漫长的旅程!我是阿根廷人,在拉普拉塔国立大学开始本科学习。那是在80年代,计算机科学的事业在拉丁美洲刚刚起步,大学资源有限(我们有几台电脑供数百名学生使用)。尽管如此,这个程序是可靠的,经过深思熟虑的,我很感激它给了我什么。然而,正如拉丁美洲许多地方仍然发生的那样,算法和数据结构的课程非常基础。第三年后,我搬到了ESLAI公司这是一个位于阿根廷的前沿大学计算机科学教育项目,每年挑选几十名学生,并为他们提供奖学金、设备、住房以及最重要的国际教授等方面的全力支持。根据这本书,我和Giorgio Ausiello(今天仍在罗马大学La Sapienza工作)上了我的第一门严肃算法课程计算机算法的设计与分析阿霍、霍普克罗夫特和厄尔曼的作品,就像初恋一样,你永远不会忘记。智利大学的杰出教授豪尔赫·奥利沃斯(Jorge Olivos)在阿根廷休假,他最终确定了我今天的生活和工作地点。

当我毕业进入就业市场后,我意识到当你没有一直学习的时候是多么的无聊。那是90年代,我想今天在谷歌之类的公司工作肯定会更令人兴奋。然后我联系了豪尔赫·奥利沃斯征求意见,他说服我去智利攻读理科硕士。他已经半退休了,所以他把我和Ricardo Baeza Yates联系起来,Ricardo Baeza Yates从滑铁卢大学的博士工作回来,他提出了一个新的美丽话题,成为我的第二个爱好:文本搜索。我仍然记得我对后缀数组数据结构的优雅和美丽的着迷。我和Ricardo Baeza-Yates一起攻读了结构化文本检索和近似字符串匹配的硕士和博士学位。文本搜索与文本压缩的结合是我今天感兴趣的另一个主要领域,尼维奥·齐维亚尼(Nivio Ziviani)是巴西米纳斯吉拉斯联邦大学(Federal University of Minas Gerais)里卡多(Ricardo)的同事,也是拉丁美洲网络搜索引擎发展的另一位领军人物。我目前的兴趣是概括这些经验,并涵盖紧凑数据结构的整个领域,这是数据结构和信息理论的交叉。

你的论文”关于重复序列的压缩和索引(与塞巴斯蒂安·克雷夫特合著)被收录在理论计算机科学中被引用最多的文章汇编中。您在本文中寻求解决的挑战是什么?您引入LZ-End是如何解决的?

这篇论文的会议版本可以追溯到2010年,当时“数据洪流”一词随处可见。我开始意识到,大多数增长最快的文本数据信息含量很低,因为文本收集具有高度重复性,这给了我们一个机会来遏制这些情况下的数据泛滥。想想生物信息学中的基因组集合或相同物种的阅读,或维基百科、GitHub或软件遗产项目等版本化文档集合。十年后的今天,随着对一百万人类基因组进行测序的项目以及个性化医学的前景,从生物信息学实验室的实践到重复性研究的理论以及它如何在文本索引数据结构中表现出来,对大量重复集合进行索引的问题受到了很多关注。

到那时,自我索引的概念已经以压缩后缀数组的形式存在了十年,它是文本的压缩表示,可以在不解压缩的情况下访问和高效搜索文本。然而,这些自我指数侧重于以一种无视重复性的形式使用的统计压缩。其他压缩模型,如基于词典的模型,确实捕捉到了重复性,但以压缩形式访问文本更具挑战性,并且在不解压缩的情况下很难进行搜索。我们已经在基于语法的压缩或运行长度压缩后缀数组等技术上取得了很好的结果,但没有获得巨大的成果:1976年的原始Ziv-Lempel解析(gzip和p7zip等压缩器的基础)提供了对重复序列的最佳压缩,并且它是最具挑战性的使用模型。

塞巴斯蒂安·克雷夫特(Sebastian Kreft)是一名优秀的理科硕士生,他接受了这个挑战。我们研究了如何将Juha Kärkkäinen和Esko Ukkonen(我在1999年的赫尔辛基大学博士后中认识他们)的旧思想应用于减少文本搜索到几何查询和排列,并高效访问压缩文本,发明了Ziv-Lempel的LZ-End变体。我们的压缩文本索引在重复性集合上仍然提供了最佳空间,搜索时间也很有竞争力。

你的论文”彩色范围查询与文档检索,”(与Travis Gagie、Juha Kärkkäinen和Simon J.Puglisi合著)也因对文本搜索做出重要贡献而受到认可。什么是有色范围查询,这篇论文的关键见解是什么?

着色只是将对象分类为类的“彩色”名称。您有一组对象,每个对象都有一个“颜色”(其类),并执行按颜色分组的查询。在彩色范围查询中,您有一系列颜色,想要回答诸如“此范围中出现哪些颜色?”“哪些是最常见的颜色?”等问题。这类抽象问题是在理论计算机科学中研究的,它们的解决方案可以应用于多种情况。

在本文中,我们为这些问题提供了新的解决方案,然后展示了如何将其应用于文档检索。从某种意义上说,这一领域扩展了对自然语言文本起作用的经典信息检索学科,以便将其应用于一般序列集合。然后,它会回答诸如“哪些序列包含这种短模式?”“哪些是它最常出现的序列?”等问题,这些问题在生物信息学(例如,查找某些DNA标记经常出现的基因)、数据挖掘(例如,在某个时间段内查找社交网络中的趋势主题)等领域有意义。

你想强调一下最近的一些研究吗?

我想参考这篇论文”几乎无空间中的最坏情况最优图连接出现在ACM SIGMOD 2021中,因为它属于图形数据库领域,我最近开始在智利IMFD工作的背景下工作。对我来说,这意味着发现了一个新的领域,该领域的算法内容极其丰富,数据洪流正在给高效索引使用的空间量带来压力。最好的索引需要乘以数据空间才能提供相同对象的不同视图,因此对于当前的数据量来说是不切实际的。

这是应用紧凑数据结构的理想场景。经典结构是高度冗余的,紧凑的数据结构旨在提供相同的功能,同时使用接近数据熵的空间,即其真正的信息内容,从而消除冗余。我们成功地开发了新的索引,在普通数据大小的基础上使用几乎为零的空间,甚至压缩数据,同时支持数据库操作,与使用数量级以上空间的当前系统竞争,有时甚至更快。通过进入计算机科学的一个新领域,我在这个过程中学到了很多,我的同事也学到了很多关于复杂数据结构的知识。正如一位同事所说,“就像你带来了外星人的技术一样。”这是一次非常令人满意的冒险,才刚刚开始。

就作者而言,你写得很多。在工作习惯方面,你会为年轻的同事提供什么建议,让他们从事富有成效的职业?

最重要的建议是:与他人合作!至少对我来说,独自寻找和发展想法与在与同事聊天和会面时做想法之间的区别是巨大的。即使是在那些最初是我的想法的情况下,它们也能更好地在启发性的对话中出现和流动,而不是局限在我的脑海中。一个无关紧要的问题,一个与你的伴侣更了解的其他领域的想法的关系,一个对你鼻子前面你没有看到的东西的关键观察,会带来所有的不同。而在其他时候,当你对如何解决问题的意识有限时,通过与他人交流想法,你可以更好地理解障碍,然后进一步改进你的方法等。参加会议,结识朋友,在其他地方长期停留,了解其他团队的工作方式。你会发现这比独自工作更有意义。

我的第二条建议是:好好选择你的问题。有时你会发现平庸的出版物中丢失了一些有趣的想法,因为这些问题并不那么相关。一位经验更丰富的同事,你可以根据她/他的出版物的影响来判断,他可以指导你解决值得花费你的才华的问题。尽管如此,试着做你真正喜欢的事情,因为擅长那些让你兴奋的事情要容易得多。你的生活会更加丰富多彩!

冈萨洛·纳瓦罗是智利大学的教授。他的主要研究兴趣是算法和数据结构的设计和分析。他在压缩数据结构、文本搜索、图形数据库、信息检索和度量数据库等领域做出了重要贡献。纳瓦罗目前担任ACM实验算法杂志(JEA),是ACM算法事务(标签)。他目前还参与了智利生物技术和生物工程中心(CeBiB)和千年数据基础研究所(IMFD)的工作。

纳瓦罗与人合著了两本书(由剑桥大学出版社出版)、近200篇期刊文章和270多篇会议论文。他获得了七项最佳论文奖和四项谷歌研究奖。纳瓦罗因在文本搜索和紧凑数据结构领域的理论和实践贡献而被提名为ACM研究员。