Recall and Precision – Eine Einführung

Im Kontext der Literaturrecherche begegnet Ihnen hin und wieder der Ausdruck „Recall & Precision“, wenn die Güte eines Suchergebnisses oder einer Datenbank beschrieben werden soll. Wofür stehen Recall und Precision? Dieser Beitrag erläutert die beiden Maßzahlen und gibt Hinweise zur Optimierung der Kennzahlen.

Erklärung von Recall and Precision

Die Literaturrecherche für Ihre wissenschaftliche Abschlussarbeit wird üblicherweise mit Datenbanken durchgeführt. OPAC, Verbundkataloge, aber auch Fachdatenbanken wie wiso von Genios oder die EBSCO-Datenbank sowie allgemeine Suchmaschinen sind dabei Ihre Werkzeuge. An diese stellen Sie eine Suchanfrage und erhalten interne Daten aus der Datenbank in einer für Sie verwertbaren Form, z.B. als Liste von anklickbaren Suchergebnissen und Auffindeorten der Quellen.

Die Güte des Suchergebnisses beschreiben die beiden Kennzahlen „Recall“ und „Precision“. Da sie stets gemeinsam betrachtet werden, spricht man auch zusammengefasst von „Recall and Precision“.

Recall ist definiert als die Anzahl der gefundenen relevanten Dokumente dividiert durch die Gesamtzahl der relevanten Dokumente in der abgefragten Datenquelle.

Die Größe „Recall“ wird somit als Prozentwert angegeben und liegt zwischen 0 und 1. Je näher bei 1, desto besser ist die Abdeckung der relevanten Treffer.

Precision ist definiert als die Anzahl der gefundenen relevanten Dokumente dividiert durch die Gesamtzahl der gelieferten Dokumente.

Die Größe „Precision“ wird ebenfalls als Prozentwert angegeben und liegt zwischen 0 und 1. Je näher bei 1, desto relevanter sind die Treffer für die Suchanfrage.

Formel zur Berechnung von Recall and Precision

Stellt man obige Texterläuterungen als Formel da, so resultiert:

Abb.: Formeln von Recall and Precision

Kürzer sind die alternativen Bezeichner: Hits, das sind die relevanten Treffer, Noise, das ist das „Störrauschen“ durch irrelevante Treffer. Und Misses, das sind relevante Dokumente in der Datenbank, die jedoch durch die Suchanfrage nicht angesprochen wurden.

Die Begriffe Hits, Noise, Misses und Rejected – das sind irrelevante Treffer die zu recht nicht in die Trefferliste aufgenommen wurden – werden im sog. Information Retrieval genutzt, um die Güte einer Datenbanksuche zu charakterisieren. Im Bereich der wissenschaftlichen Arbeiten reichen uns die Prozentwerte von Recall and Precision.

Recall versus Precision – Was ist wichtiger?

Im konkreten Fall wird jeder für seine Arbeit individuell bestimmen müssen, ob Recall oder Precision die wichtigere Größe ist: Grundsätzlich stehen Recall and Precision in einem Zielkonflikt. Üblicherweise gilt: Mit steigender Abdeckung der relevanten Suchergebisse (Recall also nahe 1), sinkt die Precision (Precision geht in Richtung 0). Dies gilt auch umgekehrt, also Recall nahe 0, Precision dafür in Richtung 1.

Recall -> 1, gilt üblicherweise: Precision -> 0

Recall -> 0, gilt üblicherweise: Precision -> 1

Wie kann man sich dies erklären? Der Recall gibt an, wie viele der relevanten Literaturquellen aus der Gesamtmenge relevanter Literaturquellen gefunden wurden. Wenn Sie eine maximal offene Suchanfrage ausführen, quasi „Zeig mir alle Inhalte der Datenbank“, werden darunter alle relevanten Dokumente sein, der Recall läge also bei 1. Zugleich erhalten Sie sehr viel unbrauchbare Informationen im Sinne Ihrer Recherche, die Precision leidet damit und liegt nahe 0. Dieses Beispiel geht davon aus, dass die befragte Datenbank zahlreiche Inhalte hat und thematisch breit aufgestellt ist.

Damit können Sie bestimmen, ob Recall oder Precision wichtiger ist: Arbeiten Sie unter Zeitdruck, vielleicht weil der Abgabetermin Ihrer Thesis in Sicht ist, dann werden Sie wahrscheinlich eine Precision von nahe 1 wünschen: Heißt dies doch, dass alle Suchergebnisse Ihrer Literaturrecherche relevant sind und sie damit nichts „unnötig“ lesen müssen.

Haben Sie noch Zeit und wollen Sie ein bestmögliches Verständnis Ihres wissenschaftlichen Forschungsthemas erreichen, wird Recall die wichtigere Größe: Ein Recall nahe 1 heißt dann, dass Sie sich mit den Suchergebnissen „breit“ in Ihr Thema einlesen können, 100% aller relevanten Quellen abdecken und auch viel Wissen „drum herum“ aufnehmen (Noise).

Wie kann ich „Recall and Precision“ optimieren?

Eine Optimierung erfolgt immer in eine der beiden Richtungen, also Recall oder Precision. Die Möglichkeiten werden im Folgenden dargestellt:

Erhöhung von „Recall“

Bedeutet, dass Sie mehr relevante Treffer wollen und dafür ggf. auch unpassende Suchergebnisse in Kauf nehmen. Optimierungsansätze sind:

  • Suchbegriffe verallgemeinern, z.B. durch Trunkierung: „Personal*“ findet „Personalplanung“, „Personalcontrolling“, „Personalprozess“ etc.
  • Verwenden Sie Synonyme: „Mitarbeiter OR Beschäftigte“.
  • Vermeiden Sie exakte Suchanfragen, d.h. schließen Sie Schlüsselworte nicht mit Anführungszeichen ein oder erlauben Sie in der erweiterten Suche „unscharfe“ Suche.
  • Verwenden Sie den Thesaurus der Datenbank.
  • Lassen Sie Ihre Suchbegriffe in allen Feldern der Suchmaske zu, bei EBSCO kann z.B. ausgewählt werden, wo genau ein Wort im Datensatz der Suchergebnisse auftauchen oder ob eine Übereinstimmung in irgendeinem Feld als Treffer gewertet werden soll.

Erhöhung von „Precision“

Bedeutet, dass Sie relevantere Suchergebnisse wollen und dafür in Kauf nehmen, eventuell maßgebliche Quellen nicht zu berücksichtigen. Sie erreichen dies mit folgenden Tipps:

  • Erhöhen Sie die Anzahl der Suchbegriffe.
  • Suchbegriffe möglichst genau spezifizieren und durch AND verknüpfen. Gefunden wird nur, was alle Suchbegriffe enthält.
  • Verzichten Sie auf Wildcards („*“, „.“) und Trunkierung.
  • Setzen Sie zumindest Wortinseln Ihrer Suchanfrage in Anführungszeichen.
  • Geben Sie vor, in welchen Suchfeldern (Autor, Titel, Abstract etc.) die Suchbegriffe vorkommen müssen.

Fazit

Recall and Precision sind Gütemaße zur Beurteilung der Resultate einer Literaturrecherche. Sie werden für die Beurteilung wissenschaftlicher Suchergebnisse, im Information Retrieval, aber auch beim Machine Learning verwendet.

Während Recall den Prozentsatz gefundener relevanter Dokumente an allen relevanten Dokumenten der Datenbank angibt, beschreibt Precision den Prozentsatz der relevanten Dokumente an den Treffern. Sowohl Recall als auch Precision liegen als Prozentwerte zwischen 0 und 1.

Da die Kennzahlen üblicherweise in einer Zielkonkurrenz stehen, kann entweder Recall oder Precision optimiert werden. Tipps zur Verbesserung von Recall oder Precision finden sich oben in diesem Beitrag.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Solve : *
52 ⁄ 26 =