Name Matching Experiment
(Teil 6)
Eurospider hat mit der beliebten Levenshtein-Distanz ein einfaches Experiment durchgeführt. Mit rund 600 Namen aus den Medien wurden Treffer in einer mehr als 1000 mal grösseren Testdatenbank gesucht. Die Testdatenbank enthält zu jedem der 600 Namen den vollständig korrekten Namen, welcher vom Mediennamen abweicht. Für jeden der 600 Namen wurden die gefunden Namen nach aufsteigender Levenshtein-Distanz rangiert. Schliesslich wurden Ausbeute und Präzision ermittelt für den Fall, dass die ersten n Ränge gesichtet werden. Was kann man daraus lernen?
Resultate
Wir sehen, dass je mehr Ränge gesichtet werden, desto mehr korrekte Treffer (True Positives) werden gefunden. Wie erwartet sinkt die Präzision. Das heisst dass je mehr Ränge gesichtet werden, desto mehr falsche Treffer (False Positives) werden gefunden. Das starke Abfallen der Präzisionskurve bedeutet, dass der Verifikationsaufwand signifikant steigt.