73630 Remshalden info@geiger-zaehler.de

Transkription und künstliche Intelligenz

Im Rahmen eines Vortrags bei meinem  Ahnenforscherkreis Schorndorf habe ich mich vor fast einem halben Jahr mit dem Thema »Genealogie und KI« beschäftigt und auch einige Tests hierzu durchgeführt. Die Ergebnisse und Resultate dazu können in der entsprechenden  Präsentation nachvollzogen werden und sind meiner Meinung nach gut dargestellt. Leider muss man aber sagen, dass das halbe Jahr ausgereicht hat, sodass die Ergebnisse fast alle null und nichtig sind. Die KI-Welt hat sich weitergedreht und macht meine Präsentation teilweise schon wieder obsolet. Ich muss sie wohl überarbeiten und neue Ergebnisse liefern.

Schuld daran ist unter anderem das neue Tool  Scribe AI von  MyHeritage. Es soll KI-unterstützte Transkriptionen ermöglichen, bei denen man nur ein Bild oder einen Scan eines Dokuments oder einer Quelle hochlädt und nach kurzer Zeit die entsprechende Transkription erhält. Zum Testen habe ich mein damaliges Testdokument bzw. -scan aus einem Kirchenbucheintrag verwendet, den ich schon vor Jahren einmal manuell transkribiert habe und der wirklich sehr schwer zu lesen ist. Außerdem wurde er am Anfang relativ häufig durchgestrichen und überschrieben. Auch einige Randnotizen machen das Lesen nicht einfacher.

Scribe AI Testfile [2]

Ich habe mit dieser Testdatei nun auch einen Test mit Scribe AI durchgeführt und muss sagen, dass ich von den Ergebnissen doch recht überrascht bin. Scribe AI hat den Kirchenbucheintrag ziemlich gut analysiert und transkribiert. Insbesondere die schriftlichen Notizen und Randbemerkungen wurden von Scribe AI erkannt und als gesonderte Transkription ausgegeben. Im Scan sind diese nämlich wirklich nur sehr schwer zu erkennen bzw. zu erfassen, da hier mehrmals durchgestrichen und überschrieben wird:

[…]
so daß Knall, Fall und Todt eins gewesen. Seines alters 33. Jahr, 6. Monat. wurde d. 23 hernach mit großem gefolge zur Erden bestattet.
[Randnotiz rechts:] Bartholomäus Geiger wurde von des Lieutenants Besserers Leuth erschossen.
[Notiz unten:] i. Thess: 5. v. 9. 10. darauß gezeigt word. daß auch gläubige Xpisten plötzlichen todtes sterben können, seye ein seeliger todt.

Das allein ist schon wirklich gut, was z. B.  Transkribus auch nicht hinbekommen hat. Das lässt sich aber vielleicht durch entsprechendes Training oder die Verwendung des kostenpflichtigen Zugangs/Abos verbessern, wodurch sich möglicherweise auch bessere Ergebnisse erzielen lassen. Auch inhaltlich kommt die Transkription meiner manuellen Transkription durchaus sehr nahe.

Wobei auch meine manuelle Transkription sicherlich nicht perfekt sein wird … 😉

Die anderen Bereiche, die zusätzlich bei Scribe AI ausgegeben werden, sind sehr hilfreich, insbesondere der Historische Kontext und die Erwähnten Details. Sie können als Grundlage für die Übernahme der extrahierten Daten in ein Genealogieprogramm verwendet werden.

MyHeritage AI Scribe 01 [3]

Ich habe die beiden Testergebnisse von Transkribus und Scribe AI nun auch mit Gemini AI analysieren und bewerten lassen. Auch hier wurden die Unterschiede erkannt und das Ergebnis bestätigt meine Einschätzung:

2. Quantitative Abweichungsanalyse

Die Prozentwerte beziehen sich auf die inhaltliche Übereinstimmung (Semantik und Wortgenauigkeit) im Vergleich zur Referenzdatei.

DateiInhaltliche AbweichungGrund der Abweichung
AI-Scribe ~8% Hauptsächlich durch Erweiterung/Korrektur. Die KI hat Lücken gefüllt und Eigennamen (Sigmaringen) logisch korrigiert.
Transkribus ~45% Hauptsächlich durch Erkennungsfehler. Die Struktur bleibt gleich, aber die Wortgenauigkeit ist durch Fehlinterpretationen der Handschrift gering.


[…]
Analysten-Notiz: Die AI-Scribe-Version ist genealogisch wertvoller, da sie den „Barbierer“ (den damaligen Chirurgen) identifiziert, der die Kugel entfernte, während die Referenz fälschlich „Barbaren“ las. Auch die Korrektur auf „Sigmaringen“ ermöglicht erst eine korrekte Zuordnung des Lieutenants.

Insgesamt muss ich sagen, dass mich das wirklich überzeugt hat. Für ganz schwierige Fälle kann ich mir durchaus vorstellen, das Tool Scribe AI mitzubenutzen.

Eine manuelle Nachprüfung ist aber weiterhin angebracht, denn auch hier hat das Tool die »Barbaren« meiner Meinung nach falsch übersetzt. Dabei muss man allerdings berücksichtigen, dass das Wort vermutlich nachträglich überschrieben worden ist und es wirklich nicht eindeutig ist.

Vermutung meinerseits: Dem Pfarrer war seine erste Beschreibung damals doch zu »ausdrucksstark« und er hat sie nachträglich abgemildert. Das vermeintliche „-i-” wird im ganzen Text nämlich jedes Mal anders geschrieben als genau bei diesem Wort!?

Scribe AI Testfile Detail [4]

Somit bin ich doch etwas erstaunt, wie schnell sich die KI-Welt weiterdreht und meine kompletten Tests nach fast fünf Monaten schon wieder um 180° auf den Kopf gestellt werden!

Mal sehen, was in nächster Zeit noch so geht … Und ja, mein nächster neuer und überarbeiteter Vortrag zur KI und Genealogie steht somit wohl auch schon wieder auf der Liste für eines der nächsten Treffen des Ahnenforschkreis Schorndorf im Wintersemester 2026/2027!

__________
Bildquellen:
[1] Blog-Image: eigene Erstellung, Oliver Geiger
[2] Auszug aus dem Merklinger Kirchenbuch »Mischbuch II« (1694-1784), Band 2, Seite 19 Rechts, Bild 335, Jahr 1707, Merklingen a. d. Würm, eigene Aufnahme
[3] Screenshot von meinem Test mit Scribe AI von MyHeritage, eigene Aufnahme
[4] Detailauschnitt von Bild Nr. 2