Im Laufe der Geschichte des Information Retrieval haben sich wurden ganz unterschiedliche Modelle des Information Retrieval entwickelt. Das Boolesche Modell basiert auf der Booleschen Logik, die bereits 1854 von George Boole veröffentlicht wurde. Es gibt nur die drei Operatoren “und”, “oder” und “nicht”, anhand derer Inhalte gefunden werden können. Diese werden aber nicht nach Relevanz sortiert, das Ergebnis ist somit kein Ranking. Bei der Textstatistik geht es um die Terme innerhalb der Dokumente. TF (Term Frequenz) und IDF (Inverse Dockument Frequenz) spielen dabei als Gewichtungsfaktoren eine Rolle. Zur Textstatistik gehört auch das Vektorraummodell, wobei n-Wörter einen n-dimensionalen Raum aufspannen. Die Wörter bilden darin einen Vektor und anhand der Winkel von Vektoren kann die Ähnlichkeit von Wörtern bestimmt werden.
In diesem Kurs werden alle wesentlichen Begriffe eingeführt und erklärt.