Projekt:文本Web的索引和压缩

沃劳塞琴根

  • Gute Programmierkenntnisse公司
  • 插入算法和日期指令

目标第一册

Web-Suchmaschinen了解aus mehreren Komponenten。

  1. Crawler:死于einer Datenbank ab.的Programm lädt Seiten und Dokumente rekursiv aus dem Netz und speichert sie。
  2. 索引:Um Suchbegriffe schnell in den Dokumenten zu finden,wird ein Index für die Dokumente in der Datenbank anglegt。Dabei werden die Dokumente gleichzeitig komprimert公司。Hier嘲笑了verschiedene Ansätze。德沃尔认为这是贝努岑·冯·索格。反向索引。
    我是Projekt sollen stattdessen neue Indexdatenstrukturen verwendet werden。 
  3. 排名算法:Um die Relevanz eines Dokumentes bezüglich eines Suchbegriffs gegenüber anderen Dokumenten zu berechnen,werden Ranking Algorithmen eingesetzt。Beispiele在PageRank(tm)和谷歌(mit)的Okapi BM25功能代码中都有。



Ziel des Praktikums is es,eine kleine Suchmaschine zu schrieben,die alle Komponenten implementiert und Suchanfragen effizient beantworet公司。

Themen公司

Die Themen sollen-je nach Umfang-alleine oder在Gruppen bis zu drei Studierenden bearbeitet werden。Die Themen stammen aus den Bereichen 1-3号。des vorherigen Absatzes公司。


维兰特沃利希

Enno Ohlebusch教授

 

终端

Vorbesprechung上午11:04.2011 um 16:00 Uhr im Raum O27/531。