Compliance und Qualität der Stammdaten
Eine schlechte Qualität der Stammdaten erhöht die Wahrscheinlichkeit, Treffer zu verpassen. Beispielsweise können Codierungsprobleme dazu führen, dass politisch exponierte Personen (PEP) nicht erkannt werden.
Namenkodierung
Bankensysteme stellen Namen als 0/1-Sequenzen dar. Der Buchstabe "J" wird beispielsweise bei der ASCII-Codierung [1] wie folgt dargestellt: "01001010". Buchstabencodierungen wie ISO-8859-1 und UTF-8 unterscheiden sich, weil ASCII keine Umlaute und andere spezielle Buchstaben nicht darstellen kann. In diesen Fällen werden Umlaute oft ersetzt, beispielsweise "ä" dur "ae". Betrachten wir die Namen "John Doe" und "Jürg Näf", welche in ISO-8859-1 und UTF-8 verschieden dargestellt werden.
Beispiele ASCII
Nicht - ASCII
Buchstabencodierungen wie ISO-8859-1 und UTF-8 unterscheiden sich, weil ASCII keine Umlaute und andere spezielle Buchstaben nicht darstellen kann. Betrachten wir als Beispiel den Namen "Jürg Näf", welche in ISO-8859-1 und UTF-8 verschieden dargestellt wird.
Beispiele ISO-8891-1
Beispiele UTF-8
Diskrepanzen
Die Buchstabencodierung ist relevant, wenn ein Bankensystem aus historischen Gründen Kundennamen verschieden kodiert. In diesem Fall kann "Jürg Näf" perfekt übereinstimmen. Wenn aber die UTF-8-Codierung fälschlicherweise als ISO-8859-1 angenommen wird, resultiert eine Abweichung von 44% (4 von 9 Bytes).
Möchte man Treffer mit 44% und mehr Abweichungen verifizieren, dann führt dies zu einer hohen Zahl von falschen Alarmen.