Vergleichsprofile

Filter und Optimierungen

Inhalt gruppieren

PDFC Standard

Mit dieser Option wird das Layout von PDF-Dokumenten von i-net PDFC selbst ermittelt. Alle konfiguruerten Layout-Filter werden dabei angewendet.

Originale PDF-Textreihenfolge vergleichen

Mit dieser Option wird der Inhalt des PDFs in der Reihenfolge verglichen, wie er ins PDF Dokument geschrieben wurde. Dieser Ansatz geht davon aus, dass die Reihenfolge im PDF auch der Lesereihenfolge entspricht.

PDF-Strukturdaten verwenden

Diese Option priorisiert die optionalen Strukturdaten im PDF als Layout. Diese Strukturdaten beinhalten in der Regel den Aufbau von Paragraphen, Tabellen oder Abbildungen im Dokument. Falls die Daten vorhanden und exakt sind, kann damit das Vergleichsergebnis verbessert werden. Sollten keine Strukturdaten vorhanden sein, wird ersatzweise die originale PDF-Textreihenfolge verwendet.

Weitere Details und Beispiele finden Sie in der Hilfe zum PDF Parser.

CMAP Deaktivieren

Mit dieser Option wird der PDF-Parser die Zuordnung von Zeichennummern zu lesbarem Text aufheben. Dies löst oft Probleme mit absichtlich verschleierten PDF-Dateien, die von vornherein keine solche Zuordnung haben. Der Nachteil ist, dass die Lesbarkeit der Unterschiede dadurch schwieriger werden kann und nicht funktioniert, wenn die CMAPs der beiden Dokumente unterschiedlich ist. Es handelt sich also nicht um eine allgemeine Lösung, aber sie funktioniert oft für PDFs, die von derselben Anwendung erzeugt wurden.

Kombiniert werden kann diese Option zudem mit dem Filter Plugin "Textrekonstruktion per OCR". Dieser Filter verwendet eine optische Erkennung zur Wiederherstellung des lesbaren Textes. Standardmäßig wird diese Erkennung nur für Schriftarten durchgeführt, die keine Zeichenzuordnungstabelle besitzen. Mit der Option "CMAP deaktivieren" wird die Erkennung jedoch für alle Schriftarten im Dokument ausgeführt.