Leitwerte
LEITWERTE UND STANDARDSUCHE
Einleitung
GENprofi ist seit jeher dafür bekannt, sich nicht mit konventionellen Lösungsansätzen zufrieden zu geben, wenn sie offensichtlich das gestellte Problem nur stellenweise lösen. So ärgern wir uns seit Jahren über die fortschreitende Diskussion über den Nutzen, den eine phonetische Suche bieten soll. Wir halten diese Suche in der Genealogie für nur bedingt - wenn überhaupt - tauglich.
Phonetische Suche
Das Grundprinzip der phonetischen Suche (auch Soundex genannt) ist sehr einfach. (Es ist nicht die Aufgabe dieser Dokumentation, das Prinzip der Phonem Suche vollständig zu beschreiben, wir beschränken uns daher nur auf die Darstellung des Grundsätzlichen.)
Immer wieder ist das beliebteste Beispiel der erfolgreichen phonetischen Suche die Leistung beim Namen Meier.
So hat die Suche keine Schwierigkeiten Meier, Mayer, Mayr, und viele weitere ähnliche Schreibweisen unter einen Hut zu bringen. Erstaunlich? Nein, denn das Prinzip ist eher simpel, aber trotzdem eine tolle Geschichte. (Es geht nicht darum, die phonetische Suche zu kritisieren, sondern den Einsatz in der Genealogie kritisch zu betrachten.)
Das Grundprinzip geht davon aus, daß bestimmte Laute gleich sind, aber unterschiedlich geschrieben werden. Beispiel : ei, ay, ai
Jeder kann selber leicht weitere Beispiele finden, wo Lautreduzierungen möglich sind.
Vorteile der phonetischen Suche :
-
Die Suche kann der Computer automatisch durchführen. Die Regel ist bekannt und kann so dem Anwender schnell eine Auswahl möglicher Treffer anbieten. Der Anwender muß nichts über diesen Automatismus wissen.
-
Die Regeln für die phonetische Suche sind leicht erweiterbar, so daß der Mechanismus verfeinert werden kann.
Nachteile der phonetischen Suche :
-
Die Lautschrift ist sprachabhängig und dies ist nur sehr schwer zu beseitigen.
-
Namensvarianten, die phonetisch etwas weiter entfernt sind, finden keine Übereinstimmung. Dies ist das Knock-Out Kriterium zum Einsatz in der Genealogie.
Beispiel : Oehlmann, Eulenmann, Uhlman
Alle Schreibweisen der Familie Eulenmann sind in einem Zeitraum von 100 Jahren in einem Umkreis von knapp 50 km vertreten.
Beispiel : Heinrich, Hinrich, Henrik, Hendrik, Hendricus, Hein
Übliche Schreibweisen des Vornamens Heinrich.
-
Es werden auch Treffer ermittelt, die nicht sofort der ursprünglichen Anfrage zuzuordnen sind.
-
Durch nicht berücksichtigte Buchstabenkombinationen können Ausschlüsse in der Suche erfolgen, die eine vermeintliche Nicht-Existenz von Daten im Rahmen einer Recherche ergeben.
Grundlagen der Leitwerte
Leitwerte dienen dazu, genealogische Informationen auf einen gemeinsamen “Grundwert” abzubilden. Auf diese Weise werden begriffliche Änderungen sprachlich, zeitlich und räumlich identifizierbar gemacht.
Beispiele | Namen, Orte, … |
---|---|
Nachname … andere übliche Schreibweisen |
Thimm Tim, Thim, Timm, Tiumm, Thumm, … |
Vorname … andere übliche Schreibweisen |
Heinrich Hinrich, Heinerich, Hinrik, Henrik, … |
Vorname … Schreibweisen, Ähnlichkeiten |
Johannes |
Ort … alter Name |
Mülheim Möllm |
Leitwerte in der Praxis
Das Problem bei großen Datenbeständen ist die einfache Recherche. Der Anwender ist sehr wohl in der Lage, auf verschiedene Namensschreibweisen zu reagieren, aber kann er wirklich alle Varianten ausprobieren?
Gesucht wird : Hinrich Thumm, der zwischen 1650 und 1720 in Mülheim war.
Hier treffen wir auf drei Schwierigkeiten, wenn wir eine wirklich vollständige Recherche erwarten. Ist der Vorname richtig geschrieben? Wenn ja, besteht immer noch die Möglichkeit, daß der Vorname in den Kirchenbüchern teilweise anders geschrieben wurde. Dasselbe gilt für den Nachnamen. Beim Ort stellt sich die Frage, ob im Datenbestand der damalige Ortsname (Möllm) oder der später gültige Name abgelegt ist.
Dies ist mit mehreren Recherchen nacheinander nicht mehr zu bewältigen. Hier kann man nur sehr schwer den Überblick bewahren.
Das GENprofi Leitwertsystem bietet hierbei eine große Hilfe. Allerdings müssen zunächst die Register auf mögliche Leitwerte hin überarbeitet werden.
Dies klingt aber viel schwieriger und aufwendiger, als es tatsächlich ist. Ein Datenbestand von ca. 15000 Datensätzen hat in der Regel ca. 2000 Registereinträge (Orte, Namen, Berufe, Titel, Vornamen). Nicht alle Registereinträge sind über das Leitwertsystem einsetzbar, so daß nur eine kleine Überarbeitung des Registers erforderlich ist. Sofern man bereits bei der Anlage der Werte diese Angaben pflegt, ist überhaupt keine Nacharbeit mehr fällig.
Die GENprofi Suchroutine ermittelt nun erst einmal alle passenden Varianten :
-
Vornamen: Hinrich
-> Leitwerte : Heinrich, Heinerich, Hinrik, Henrik -
Nachnamen: Thumm
-> Leitwerte : Thimm Tim, Thim, Timm, Tiumm -
Ort: Mülheim
-> Leitwerte : Möllm
Das Programm benötigt bei einer normalen Datenstreuung ca. 1-4 Sekunden, um den passenden “Hinrik Tiumm aus Möllm, der dort 1670 gearbeitet hat” zu finden. Die Größe des Datenbestandes ist dabei sekundär. Wichtiger ist die Verteilung der Daten, d.h., daß nicht 100000 Namensträger Thimm enthalten sind. Das würde die Suche verlängern. Aber auch für diesen Fall bieten wir entsprechende Lösungen an.
Die Standardsuche in GENprofi
Um die Suche über Leitwerte zu vereinfachen, haben wir ein einfach zu bedienendes Suchsystem entwickelt. Diese Standardsuche kann sowohl innerhalb der Personen- als auch in der Familienverwaltung aufgerufen werden.
┌──────────────────────────────┤Personensuche├──────────────────────────────┐
│ │
│ Vorname Sex Konf │
│ Name │
│ Jahr von bis 9999 │
│ Ort │
│ Zusatz │
├───────────────────────────────────────────────────────────────────────────┤
│ Region │
├───────────────────────────────────────────────────────────────────────────┤
│ Beruf │
│ Titel │
│ Krankheit │
│ Leitwerte verwenden J │
│ Reduzierter Zeichenumfang N │
│ Sortierung 2 │
│ Gewichtung NVO │
├───────────────────────────────────────────────────────────────────────────┤
│ < OK > < ESC > < HILFE > │
└───────────────────────────────────────────────────────────────────────────┘
Feld | Beschreibung |
---|---|
Vorname | ein Vorname mit möglichen Platzhaltern |
Nachname | ein Nachname mit möglichen Platzhaltern |
Datum von …. bis | |
Ort | Ort mit möglichen Platzhaltern |
Zusatzfeld | Zusatzfeld mit Platzhaltern |
Region | Alternativ zum Ort kann hier eine Region verwendet werden. |
Leitwerte verwenden | Die Suche über Leitwerte kann auf Wunsch ausgeschaltet werden. |
Reduzierter Zeichenumfang | Noch ein sensationelles Konzept. Alle Sonderzeichen werden aus den Zeichenketten entfernt und weiterhin werden Zeichen wie z.B. “Ç” auf “C” umgesetzt. Dies erleichtert die Suche bei z.B. französischen Datenbeständen erheblich. Beispiel: Suche L’Abbe bzw. L’Abbé Zusätzlich passiert es leider immer wieder, daß die Zeichen ` und ’ vertauscht werden. Also reduziert suchen und als Namen LABBE eingeben. So findet das Programm alle Varianten. |
Sortierung | 1-Suche 1, 2-Suche 2, 3-Suche 3 |
Gewichtung | Hier dann nochmal der abolute “Überkick” für Profis und große Datenbestände. Die Gewichtung gibt an, in welcher Reihenfolge die Register bei der Suche abgearbeitet werden. Normalerweise ist die Reihenfolge “Name-Vorname-Ort”. Wenn Sie nun aber eine Namenforschung machen und 90% des Bestandes heißt Müller, dann ist diese Reihenfolge schlecht. Sie sollten dann besser auf “Ort-Vorname-Name” schalten. |
-
Als Platzhalter kann “*” und “?” verwendet werden. Bei Verwendung von Platzhaltern wird das gesamte Register sequentiell nach Treffern durchsucht.
-
Bei Verwendung des reduzierten Zeichenumfangs wird das gesamte Register sequentiell nach Treffern durchsucht.
-
Es muß mindestens ein Registerwert Name, Vorname oder Ort für die Suche vorgegeben werden.
-
Wird kein Ort angegeben aber ein Zeitraum, dann erhöht sich die Suchdauer, da alle Sachgebiete der Person geprüft werden müssen.
An dieser Stelle möchte ich mich bei Herrn Schaaf und Herrn Wiesner bedanken, die uns mit großen Datenbeständen versorgt haben. Nur dadurch war es überhaupt möglich, diese Suchroutine auszudenken. Der Deutsche Hugenottenverein gab die Anregung für den “reduzierten” Zeichenumfang.