PDF-Datenextraktion Benchmark 2025: Vergleich von Docling, Unstructured und LlamaParse für Dokumentenverarbeitungsprozesse

PDF Procesing AI

Arash Javanmard

24.03.2025

Zusammenfassung

Unsere Bewertung von Docling, Unstructured und LlamaParse zeigt Docling als die überlegene Lösung für die Extraktion strukturierter Daten aus unstrukturierten Nachhaltigkeitsberichten im PDF-Format, mit 97,9% Genauigkeit bei der Extraktion komplexer Tabellen und hervorragender Genauigkeit. Während LlamaParse eine beeindruckende Verarbeitungsgeschwindigkeit bietet (konstant etwa 6 Sekunden unabhängig von der Dokumentgröße) und Unstructured starke OCR-Fähigkeiten aufweist (100% Genauigkeit bei einfachen Tabellen, aber nur 75% bei komplexen Strukturen), sticht Docling aufgrund seiner ausgewogenen Performance für die Verarbeitung von Daten zur Analyse von Nachhaltigkeitsberichten heraus.

Zentrale Erkenntnisse:

  • Docling: Beste Gesamtgenauigkeit und Strukturerhaltung (97,9% Genauigkeit bei Tabellenzellen)

  • LlamaParse: Schnellste Verarbeitung (6 Sekunden pro Dokument unabhängig von der Größe)

  • Unstructured: Starke OCR-Leistung, aber langsamste Verarbeitung (51-141 Sekunden je nach Seitenzahl)

Dokumentenanalyse effizient gestalten?

Kontaktieren Sie uns für eine maßgeschneiderte Strategie zur Dokumentenanalyse.

Inhaltsverzeichnis

  1. Einleitung
  2. Überblick der wichtigsten Softwares zur PDF-Datenextraktion
  3. Methodik und Bewertungskriterien
  4. Berichtsauswahl und Begründung
  5. Ergebnisse und Diskussion
  6. Fazit

1. Einleitung

Die manuelle Erhebung, Strukturierung, Bewertung und Validierung von Nachhaltigkeitsparametern stellt viele Unternehmen vor große Herausforderungen. Gleichzeitig bieten technologische Fortschritte, insbesondere in der Künstlichen Intelligenz, viele Möglichkeiten genau diese Herausforderungen zu adressieren und es drängt sich deshalb die Frage auf: Wie können unstrukturierte Nachhaltigkeitsberichte effizient in strukturierte, maschinenlesbare Daten für Analysen und Weiterverarbeitung umgewandelt werden? Als Spezialisten an der Schnittstelle von Nachhaltigkeit und digitaler Transformation wissen wir bei Procycons: Präzise Datenextraktion ist der Schlüssel für fundierte ESG-Analysen, automatisierte Berichterstattung und die Entwicklung wirksamer Klimastrategien.

PDF-Dokumente bleiben das Standardformat für Nachhaltigkeitsberichte, aber ihre unstrukturierte Natur schafft eine erhebliche Hürde für die Automatisierung. Die Extraktion strukturierter Informationen – von komplexen, quantitativen Emissionstabellen bis hin zu qualitativen Maßmahmenbeschreibungen zur Dekarbonisierung – erfordert ausgereifte Verarbeitungslösungen, die sowohl Inhaltsgenauigkeit als auch strukturelle Integrität gewährleisten können.

In dieser Studie vergleichen wir drei führenden Lösungen zur Verarbeitung von PDFs: Docling, Unstructured und LlamaParse. Unser Ziel ist es, herauszufinden, welche Lösung den Herausforderungen der Verarbeitung von Nachhaltigkeitsdokumenten am besten gerecht wird:

  • Erhaltung der Genauigkeit kritischer numerischer ESG-Daten
  • Beibehaltung der hierarchischen Struktur vorgegebener Nachhaltigkeitserklärungen
  • Korrekte Extraktion komplexer mehrstufiger Tabellen mit Emissionen, Ressourcennutzung und anderen Kennzahlen
  • Skalierbarkeit der Lösung auf größere Datenmengen von Unternehmen

Diese Bewertung bildet eine entscheidende Komponente unserer Arbeit bei Procycons, wo wir RAG (Retrieval-Augmented Generation)-Systeme und Wissensgraphen entwickeln, die die Nachhaltigkeitsberichterstattung von einem manuellen Prozess in einen automatisierten, KI-unterstützten Arbeitsablauf verändern. Durch die Optimierung der Grundlage der Dokumentenverarbeitung ermöglichen wir genauere nachgelagerte Anwendungen für Nachhaltigkeits-Benchmarking, automatisierte ESG-Berichterstattung und Entwicklung von Klimastrategien.

2. Überblick der wichtigsten Softwares zur PDF-Datenextraktion

2.1. Docling

Docling ist eine Open-Source-Lösung, die von DS4SD (IBM Research) entwickelt wurde, um die Extraktion und Transformation von Text, Tabellen und Strukturelementen aus PDFs zu erleichtern. Das Tool nutzt fortschrittliche KI-Modelle, darunter DocLayNet für Layoutanalyse und TableFormer für die Erkennung von Tabellenstrukturen. Docling wird weithin in KI-gestützter Dokumentenanalyse, Unternehmensdatenverarbeitung und Forschungsanwendungen eingesetzt und ist darauf ausgelegt, effizient auf lokaler Hardware zu laufen, während es Integrationen mit generativen KI-Ökosystemen unterstützt.

2.2. Unstructured

Unstructured ist eine Dokumentenverarbeitungsplattform, die entwickelt wurde, um komplexe Unternehmensdaten aus verschiedenen Formaten, einschließlich PDFs, DOCX und HTML, zu extrahieren und zu transformieren. Das Tool wendet OCR und Transformer-basierte NLP-Modelle für Text- und Tabellenextraktion an. Als sowohl Open-Source- als auch API-basierte Lösung wird Unstructured häufig für KI-gestütztes Content Enrichment, der juristischer Dokumentenanalyse und Automatisierung von Datenverarbeitungsprozessen eingesetzt und wird aktiv von Unstructured.io gepflegt, einem Unternehmen, das sich auf KI-Lösungen für Unternehmen spezialisiert hat.

2.3. LlamaParse

LlamaParse ist eine NLP-basierte Lösung des Unternehmens LlamaIndex, welche für die Extraktion strukturierter Daten aus Dokumenten, insbesondere PDFs, konzipiert ist. Das Tool integriert Llama-basierte NLP-Verarbeitungsketten für Textanalyse und Strukturerkennung. Während es bei einfachen Dokumenten gute Leistungen erbringt, hat es Schwierigkeiten mit komplexen Layouts, was es eher für wenig aufwendige Anwendungen wie Forschung und kleinere Dokumentenverarbeitungsaufgaben geeignet macht.

3. Methodik und Bewertungskriterien

Um eine faire und umfassende Bewertung der PDF-Verarbeitung für die Extraktion von Nachhaltigkeitsberichten durchzuführen, haben wir folgende Schlüsselmetriken analysiert:

  • Textextraktionsgenauigkeit: Stellt sicher, dass extrahierter Text korrekt und richtig formatiert ist, da Fehler die nachgelagerte Datenintegrität beeinflussen.
  • Tabellenerkennung und -extraktion: Entscheidend für Nachhaltigkeitsberichte mit tabellarischen Daten, bewertet die korrekte Identifizierung und Extraktion von Tabellen.
  • Abschnittsstrukturgenauigkeit: Bewertet die Beibehaltung der Dokumenthierarchie für Lesbarkeit und Benutzerfreundlichkeit.
  • Inhaltsverzeichnisgenauigkeit: Misst die Fähigkeit, ein Inhaltsverzeichnis für verbesserte Navigation zu rekonstruieren.
  • Verarbeitungsgeschwindigkeitsvergleich: Bewertet die Zeit, die für die Verarbeitung von PDFs unterschiedlicher Länge benötigt wird, und liefert Einblicke in Effizienz und Skalierbarkeit.
Wie gut funktionieren diese Extraktions-Tools mit Ihren eigenen Dokumenten?

Fordern Sie jetzt einen individualisierten Vergleichstest mit Ihren spezifischen Unternehmensunterlagen an.

4. Berichtsauswahl und Begründung

Wir haben fünf Unternehmensberichte für den Vergleich ausgewählt, um die Leistung von Docling, Unstructured und LlamaParser zu bewerten.

Berichtsinformationstabelle
BerichtsnameSeitenAnzahl der WörterAnzahl der TabellenKomplexitätsmerkmale
Bayer Nachhaltigkeitsbericht 2023 (Kurz)5234.10432Mehrspaltentext, Eingebettete Diagramme, Detailliertes Inhaltsverzeichnis
DHL 2023135.9555Einspaltentext, Eingebettete Diagramme
Pfizer 2023113.2936Nicht spezifiziert (vermutlich einfaches Layout, möglicherweise einspaltig)
Takeda 2023144.3568Mehrspaltentext, Eingebettete Diagramme, Detailliertes Inhaltsverzeichnis
UPS 202394.4863Detailliertes Inhaltsverzeichnis

Diese Berichte wurden aufgrund ihrer Vielfalt in Layout, Textstilen und Tabellenstrukturen ausgewählt. Um einen fairen Vergleich zu gewährleisten, haben wir die Berichte bei Bedarf gekürzt (z.B. Auswahl bestimmter Seitenbereiche für Pfizer, Takeda und UPS), um verschiedene Arten von Tabellen (einfach, mehrzeilig, Zellen mit Zusammenführungen) und Textinhalten (einspaltig, mehrspaltig, wortreiche Absätze, Aufzählungspunkte) einzubeziehen. Diese Auswahl ermöglichte es uns, zu untersuchen, wie jede Lösung mit unterschiedlichen Dokumentkomplexitäten umgeht, von präsentationsartigen Folien (DHL) bis hin zu umfangreichen Unternehmensberichten (Bayer) und gescannten Auszügen (UPS). Die Einbeziehung verschiedener Themen stellt die Relevanz für mehrere Branchen sicher, während die Bandbreite der Wortzahlen (~4.500 bis ~34.000) und Tabellenzahlen (3 bis 32) die Skalierbarkeit und Genauigkeit über Dokumentgrößen hinweg testet.

5. Ergebnisse und Diskussion

5.1. Übersichtstabelle der Metriken

Diese Vergleichstabelle hebt die wichtigsten Leistungsmetriken aller Lösungen hervor und unterstützt bei der Auswahl für die individuellen Anwendungsfälle der Nutzer.

Leistungsvergleichstabelle
MetrikDoclingUnstructuredLlamaParser
TextextraktionsgenauigkeitHohe Genauigkeit, behält Formatierung beiEffizient, inkonsistente ZeilenumbrücheProbleme mit Mehrspalten, Wortzusammenführung
Tabellenerkennung & -extraktionErkennt komplexe Tabellen gutOCR-basiert, variabel bei mehrzeiligen TabellenGut bei einfachen, schlecht bei komplexen Tabellen
AbschnittsstrukturgenauigkeitKlare hierarchische StrukturGrößtenteils genau, einige FehlklassifizierungenProbleme bei der Abschnittsunterscheidung
InhaltsverzeichniserstellungGenau mit korrekten VerweisenTeilweise, einige UngenauigkeitenKann nicht effektiv rekonstruieren
LeistungsmetrikenModerat (6,28s für 1 Seite, 65,12s für 50 Seiten)Langsam (51,06s für 1 Seite, 141,02s für 50 Seiten)Schnell (6s unabhängig von der Seitenzahl)

5.2. Technologie hinter jeder Lösung

Die folgende Tabelle beschreibt die spezifischen Modelle und Technologien, die die Fähigkeiten der entsprechenden Lösung unterstützen.

Technologievergleichstabelle
MetrikDoclingUnstructuredLlamaParser
TextextraktionDocLayNetOCR + Transformer-basiertes NLPLlama-basierte NLP-Verarbeitungskette
TabellenerkennungTableFormerVision Transformer + OCRLlama-basierter Tabellenparser
AbschnittsstrukturDocLayNet + NLP-KlassifikatorenTransformer-basierter KlassifikatorLlama-basierte Textstrukturierung
InhaltsverzeichniserstellungLayout-basiertes Parsing + NLPOCR + Heuristisches ParsingLlama-basierte Inhaltsverzeichniserkennung

5.3. Detaillierte Analyse

Nachfolgend vergleichen wir die Ausgaben jeder Lösung anhand von Auszügen aus verschiedenen Berichten, mit Fokus auf Text, Tabellen, Abschnitte und Inhaltsverzeichnisse.

5.3.1. Textextraktion

Der Originaltext aus dem „Takeda 2023“-PDF besteht aus zwei wortreichen Absätzen mit Fachbegriffen und klaren Absatzumbrüchen, die den Inhalt trennen.

text extraction 1
Ergebnisse des Textextraktionsprozesses der 3 Tools

Erkenntnisse über den Prozess der Textextraktion

Docling:

  • Textgenauigkeit: Erreicht 100% Genauigkeit für den textlichen Inhalt, stimmt mit allen Sätzen einschließlich Titel und beiden Absätzen überein.
  • Vollständigkeit: Erfasst den gesamten Originaltext und behält Absatzumbrüche und Struktur bei.
  • Textmodifikationen: Behält die Originalformulierung und Fachbegriffe ohne Veränderung bei.
  • Formatierungserhaltung: Bewahrt Absatzumbrüche, die für die Lesbarkeit entscheidend sind, und trennt den Titel entsprechend des ursprünglichen Überschriftenstils.

LlamaParse:

  • Textgenauigkeit: Erreicht hohe Genauigkeit für Originalabsätze, enthält aber zusätzliche Inhalte, die im Quelltext nicht vorhanden sind.
  • Vollständigkeit: Fügt detaillierte technische Informationen hinzu, die nicht Teil des Beispielabschnitts sind, während der ursprüngliche Absatzumbruch verloren geht.
  • Textmodifikationen: Führt neue Sätze und Daten ein, was auf Überextraktion oder Halluzination hindeutet.
  • Formatierungserhaltung: Vereint Inhalte zu einem durchgehenden Block, was die Lesbarkeit verringert, obwohl die Titeltrennung beibehalten wird.

Unstructured:

  • Textgenauigkeit: Extrahiert Titel und Absätze korrekt, enthält aber erhebliche zusätzliche Inhalte, die im Originalabschnitt nicht vorhanden sind.
  • Vollständigkeit: Fügt erhebliche zusätzliche technische Details hinzu, die wahrscheinlich aus anderen Teilen des Dokuments stammen.
  • Textmodifikationen: Führt neue technische Informationen ein, ohne Fehler im Originalinhalt, verändert aber den Umfang der Ausgabe.
  • Formatierungserhaltung: Fasst alle inhakte in einem Blockzusammen, übersieht Absatzumbrüche und den strukturellen Aufbau des Texts trotz korrekter Titelformatierung.

5.3.2. Tabellenextraktionsleistung

Wir haben eine Tabelle aus dem „Bayer-Nachhaltigkeitsbericht-2023“ ausgewählt, um die Tabellenextraktionsleistung dieser Plattformen zu analysieren – siehe Abbildung unten.

Die Tabelle bietet eine Aufschlüsselung der Mitarbeiter nach Geschlecht (Frauen und Männer), Region (Gesamt, Europa/Naher Osten/Afrika, Nordamerika, Asien/Pazifik, Lateinamerika) und Altersgruppe (< 20, 20-29, 30-39, 40-49, 50-59, ≥ 60). Die Struktur ist hierarchisch:

  • Oberste Ebene: Geschlecht (Frauen: 41.562 insgesamt; Männer: 58.161 insgesamt).
  • Zweite Ebene: Regionen unter jedem Geschlecht (z.B. Frauen in Europa/Naher Osten/Afrika: 18.981).
  • Dritte Ebene: Altersgruppen unter jeder Region (z.B. Frauen in Europa/Naher Osten/Afrika, < 20: 6).
table extraction
Ergebnisse des Tabellenexktrationsprozesses der 3 Tools

Erkenntnisse zur Datengenauigkeit

Docling:

  • Problem: Verpasst einen Datenpunkt („5“ für Männer in Lateinamerika, < 20) von 48 Einträgen, erreicht 97,9% Genauigkeit.
  • Auswirkung: Der Fehler ist isoliert und beeinflusst die Gesamtsummen nicht, beeinträchtigt jedoch die Vollständigkeit der Altersgruppe.
  • Stärke: Alle anderen Daten, einschließlich Geschlechtergesamtsummen, sind korrekt platziert.

LlamaParse:

  • Problem: Platziert Werte der Spalte „Gesamt“ falsch, verwendet Lateinamerika-Gesamtsummen anstelle von Geschlechtergesamtsummen.
  • Auswirkung: Systematische Spaltenverschiebung beeinträchtigt die gesamte Tabelleninterpretation, mit 100% Datenextraktion, aber 0% korrekter Platzierung.
  • Stärke: Erfasst den Datenpunkt „5“, den Docling verpasst.

Unstructured:

  • Problem: Schwerwiegender Spaltenverschiebungsfehler mit fehlenden Daten für Europa/Naher Osten/Afrika und verschobenen Regionen.
  • Auswirkung: Tabelle wird uninterpretierbar mit 75% Zellengenauigkeit (36/48 Einträge) und 0% Genauigkeit für Lateinamerika-Daten.
  • Stärke: Einige numerische Daten können manuell den korrekten Regionen zugeordnet werden.

Strukturintegrität

Docling:

  • Bewahrt die ursprüngliche Spaltenreihenfolge und hierarchische Verschachtelung, erhält dabei den strukturellen Aufbau des Texts.
  • Behandelt leere „Gesamt“-Spalte für Altersgruppen korrekt.

LlamaParse:

  • Kehrt die Spaltenreihenfolge mit falscher „Gesamt“-Platzierung um, verzerrt die Tabellenbedeutung.
  • Mangel an hierarchischen Verschachtelungsindikatoren, sekundär zu Spaltenfehlern.

Unstructured:

  • Leidet unter schweren Spaltenverschiebungen, wodurch die regionale Hierarchie bedeutungslos wird.
  • Behält teilweise die Trennung von Geschlecht und Altersgruppen bei, fehlt aber an klaren Verschachtelungsindikatoren.
  • Lässt „Gesamt“-Spalte für Altersgruppen korrekt leer, obwohl irrelevant angesichts der Datenfehlanpassung.

5.3.3. Abschnittsstruktur

Das Abschnittsbeispiel aus dem „UPS 2023“-PDF zeigt, wie die verschiedenen Lösungen mit hierarchischen Dokumentstrukturen umgehen, ein entscheidender Aspekt für die Beibehaltung der Dokumentorganisation. Das Beispiel enthält eine Hauptüberschrift gefolgt von einer Unterüberschrift, mit einer klaren hierarchischen Beziehung, die durch Formatierungsunterschiede im Originaldokument angezeigt wird.

Erkenntnisse zur Verarbeitung der Abschnittsstruktur

Docling:

  • Hierarchiedarstellung: Verwendet die gleiche Markdown-Ebene (##) für beide Überschriften, verfehlt die hierarchische Beziehung.
  • Textgenauigkeit: Erfasst den exakten Text beider Überschriften, einschließlich Groß-/Kleinschreibung und Zeichensetzung.
  • Formatierungserhaltung: Behält ursprüngliche Textelemente bei, verliert aber Stilunterschiede, die Überschriftsebenen unterscheiden.

LlamaParse:

  • Hierarchiedarstellung: Verwendet identische Markdown-Ebene (#) für beide Überschriften, verpasst die Eltern-Kind-Struktur.
  • Textgenauigkeit: Erfasst den Text beider Überschriften perfekt, bewahrt alle Textelemente.
  • Formatierungserhaltung: Behält Groß-/Kleinschreibung und Zeichensetzung bei, kann aber PDF-spezifische Stilunterschiede nicht abbilden.

Unstructured:

  • Hierarchiedarstellung: Verwendet korrekt unterschiedliche Markdown-Ebenen (# für Hauptüberschrift, ## für Unterüberschrift), spiegelt die hierarchische Beziehung richtig wider.
  • Textgenauigkeit: Erfasst den Text beider Überschriften mit allen Originalelementen.
  • Formatierungserhaltung: Kann PDF-Format nicht wiedergeben, kompensiert aber mit angemessener Markdown-Hierarchie, übertrifft andere Lösungen in struktureller Integrität.

5.3.4. Inhaltsverzeichnis

Das Original-Inhaltsverzeichnis aus dem „UPS 2023“-PDF enthält eine „Inhalt“-Überschrift gefolgt von Abschnittseinträgen mit Seitenzahlen, in einem zweispaltigen Layout mit gepunkteten Linien als Trenner zwischen Titeln und Seitenzahlen.

Erkenntnisse zum Verarbeiten des Inhaltsverzeichnis

Docling:

  • Textgenauigkeit: Erfasst alle Inhalte mit 100% Genauigkeit, einschließlich Titel, Seitenzahlen und Zeichensetzung.
  • Strukturdarstellung: Verwendet eine Markdown-Tabelle mit zwei Spalten, behält die Trennung von Titeln und Seitenzahlen bei.
  • Formatierungserhaltung: Behält gepunktete Linien innerhalb von Tabellenzellen bei, markiert aber „Inhalt“ als Unterüberschrift (##) anstatt als Hauptüberschrift.

LlamaParse:

  • Textgenauigkeit: Erreicht 100% Genauigkeit für alle Textelemente, einschließlich Titel, Seitenzahlen und gepunktete Linien.
  • Strukturdarstellung: Implementiert ein Aufzählungslisten-Format mit Titeln und Seitenzahlen in derselben Zeile, bewahrt den logischen Fluss.
  • Formatierungserhaltung: Behält gepunktete Linien bei und markiert „Inhalt“ korrekt als Hauptüberschrift (#), entsprechend seiner Bedeutung.

Unstructured:

  • Textgenauigkeit: Stark mangelhaft, erfasst nur den „Inhalt“-Titel, während alle Einträge und Seitenzahlen fehlen.
  • Strukturdarstellung: Enthält eine leere Markdown-Tabelle, die weder die Originalstruktur noch den Inhalt wiedergibt.
  • Formatierungserhaltung: Markiert „Inhalt“ als Unterüberschrift (##) und bietet keine Inhaltserhaltung, was zu einem vollständigen Strukturverlust führt.

5.4. Vergleich der Verarbeitungsgeschwindigkeit

Einer der wichtigsten Faktoren bei der Bewertung eines PDF-Verarbeitungstools für die automatisierte Dokumentenextraktion ist die Verarbeitungsgeschwindigkeit – wie schnell ein Tool Inhalte aus einem Dokument extrahieren und strukturieren kann. Ein langsames Tool kann die Workflow-Effizienz erheblich beeinträchtigen, besonders bei der Verarbeitung großer Dokumentenmengen.

Um die Geschwindigkeit zu vergleichen, haben wir eine Reihe von Test-PDFs verwendet, die aus einer einzelnen extrahierten Seite erstellt wurden. Durch den Vergleich ihrer Fähigkeit, Dokumente zunehmender Länge zu verarbeiten, haben wir das beste Tool für die strukturierte Dokumentenextraktion im großen Maßstab identifiziert. Wir haben die durchschnittliche verstrichene Zeit für LlamaParse, Docling und Unstructured bei der Verarbeitung von PDFs mit zunehmender Seitenzahl gemessen. Die Ergebnisse zeigen signifikante Unterschiede darin, wie jedes Tool mit Skalierbarkeit und Leistung umgeht – siehe Abbildung unten.

Verarbeitungsgeschwindigkeitsvergleich
Vergleich der Vererbarbeitungsgeschwindigkeit der  3 Tools

Erkenntnisse zum Vergleich der Verarbeitungsgeschwindigkeiten

  1. LlamaParse ist am schnellsten
    • LlamaParse verarbeitet Dokumente konstant in etwa 6 Sekunden, selbst wenn die Seitenzahl zunimmt.
    • Dies deutet darauf hin, dass es effizient mit der Dokumentenskalierung umgeht, ohne signifikante Verlangsamungen.
  2. Docling skaliert linear mit zunehmenden Seiten
    • Die Verarbeitung von 1 Seite dauert 6,28 Sekunden, aber 50 Seiten dauern 65,12 Sekunden – eine nahezu lineare Zunahme der Verarbeitungszeit.
    • Dies zeigt, dass die Leistung von Docling stabil ist, aber proportional zur Dokumentgröße skaliert.
  3. Unstructured hat Geschwindigkeitsprobleme
    • Unstructured ist deutlich langsamer und benötigt 51 Sekunden für eine einzelne Seite und über 140 Sekunden für große Dateien.
    • Es zeigt eine inkonsistente Skalierung, da 15 Seiten etwas weniger Zeit benötigen als 5 Seiten, wahrscheinlich aufgrund von Caching oder internen Optimierungen.
    • Obwohl seine Genauigkeit in einigen Bereichen höher sein mag, macht seine Geschwindigkeit es weniger praktisch für die Verarbeitung großer Datenmengen.

5.5. Analyseergebnisse

Die Ausgaben und Metriken zeigen deutliche Stärken und Schwächen der verschiedenen Lösungen, die nachfolgend analysiert werden:

Textextraktionsgenauigkeit:

  • Docling: Zeigt hohe Genauigkeit mit 100%iger Textübereinstimmung in wortverdichteten Absätzen (z.B. Takeda 2023), behält die ursprüngliche Formulierung, Fachbegriffe und Absatzumbrüche bei. Diese Konsistenz macht es zuverlässig für die Beibehaltung der Datenintegrität in Dokumenten mit umfangreichem textlichen Inhalt.
  • Unstructured: Bietet effiziente Textextraktion mit hoher Genauigkeit für Kerninhalte, führt aber Inkonsistenzen ein, wie das Zusammenführen von Absatzumbrüchen und das Hinzufügen von zusätzlichen Details. Diese Überextraktion deutet auf potenzielle Übergriffe aus anderen Dokumentabschnitten hin, was die Präzision beeinträchtigt.
  • LlamaParse: Hat Schwierigkeiten mit mehrspaltigen Layouts und Wortzusammenführungen, erreicht hohe Genauigkeit nur für einfachen Text, fügt aber irrelevante Inhalte hinzu. Dies weist auf eine Einschränkung im Umgang mit komplexen Textstrukturen hin, was seine Eignung für verschiedene Dokumentformate reduziert.

Tabellenerkennung & -extraktion:

  • Docling: Überzeugt bei der Erkennung komplexer Tabellen, bewahrt hierarchische Verschachtelung und Spaltenreihenfolge (z.B. komplizierte Tabelle aus Bayer 2023), mit einer einzelnen Ausnahme („5“ für Männer in Lateinamerika, < 20), was zu 97,9% Zellengenauigkeit führt. Die Verwendung von TableFormer gewährleistet eine robuste Strukturerhaltung, ideal für detaillierte tabellarische Daten.
  • Unstructured: Leistung ist variabel, mit OCR-basierter Extraktion, die numerisch erfolgreich ist (z.B. 100% Genauigkeit bei einfachen Tabellen), aber strukturell bei mehrreihigen Tabellen versagt (z.B. fehlende Daten durch Spaltenverschiebungen in Bayer 2023). Dies schränkt die Zuverlässigkeit für komplexe Layouts ein.
  • LlamaParse: Behandelt einfache Tabellen gut (z.B. 100% numerische Genauigkeit bei einfachen Tabellen), scheitert aber bei komplexen Tabellen, platziert „Gesamt“-Spalten falsch (z.B. Bayer 2023). Leistung sinkt erheblich bei komplexen Strukturen, was seinen Anwendungsbereich einschränkt.

Abschnittsstrukturgenauigkeit:

  • Docling: Behält klare hierarchische Struktur bei, verwendet aber einheitliche Markdown-Ebenen (##), verpasst Verschachtelungshinweise (z.B. UPS 2023 Abschnitt). Dieser kleine Mangel wird durch perfekte Textgenauigkeit ausgeglichen, was es trotz Formatierungseinschränkungen effektiv für die Lesbarkeit macht.
  • Unstructured: Größtenteils genau, mit korrekter Textextraktion (z.B. UPS 2023 Abschnitt), verwendet aber die gleiche Markdown-Ebene (#) für alle Überschriften, spiegelt Hierarchie nicht wider. Diese Gemeinsamkeit mit Docling und LlamaParse deutet auf eine gemeinsame Einschränkung bei der strukturellen Differenzierung hin.
  • LlamaParse: Schwierigkeiten bei der Abschnittsunterscheidung, verwendet einheitliche Ebenen (#) und mangelt an hierarchischer Klarheit (z.B. UPS 2023), ähnlich wie andere. Seine Textgenauigkeit ist hoch, aber strukturelle Schwächen reduzieren die Nutzbarkeit für organisierte Navigation.

Inhaltsverzeichnis (ToC) Erstellung:

  • Docling: Erreicht genaue Inhaltsverzeichnisrekonstruktion mit 100% Textgenaugkeit, verwendet ein Tabellenformat mit gepunkteten Linien, unterschätzt aber die Bedeutung von „Inhalt“ mit ##. Dies macht es trotz kleinerer Formatierungsprobleme sehr effektiv für die Navigation.
  • Unstructured: Versagt dramatisch, erfasst nur „Inhalt“ mit einer leeren Tabelle, verpasst alle Einträge und Seitenzahlen (z.B. UPS 2023 Inhaltsverzeichnis). Dies zeigt eine erhebliche Schwäche im Umgang mit zweispaltigen Layouts und gepunkteten Linientrennern.
  • LlamaParse: Kann nicht effektiv rekonstruieren, obwohl es eine Aufzählungsliste mit gepunkteten Linien und korrektem Text verwendet, ordnet „Inhalt“ mit # ein. Seine Unfähigkeit, die Struktur vollständig zu reproduzieren, begrenzt seinen Nutzen im Vergleich zu Docling.

Leistungsmetrik (Verarbeitungsgeschwindigkeit):

  • Docling: Bietet moderate Geschwindigkeit (6,28s für 1 Seite, 65,12s für 50 Seiten) mit linearer Skalierung, balanciert Genauigkeit und Effizienz. Dies macht es gut geeignet für Verarbeitung im Unternehmensmaßstab, wo vorhersehbare Leistung entscheidend ist.
  • Unstructured: Hat erhebliche Geschwindigkeitsprobleme (51,06s für 1 Seite, 141,02s für 50 Seiten), zeigt inkonsistente Skalierung. Diese Ineffizienz untergräbt seine ansonsten anständige Genauigkeit und macht es weniger praktisch für Workflows mit großen Datenmengen.
  • LlamaParse: Exzelliert in Geschwindigkeit (~6s konstant, selbst für 50 Seiten), zeigt bemerkenswerte Skalierbarkeit. Diese Effizienz positioniert es als starken Kandidaten für schnelle Verarbeitung, obwohl seine Genauigkeitseinbußen seine Verwendung auf einfachere Dokumente beschränken.

6. Fazit

Basierend auf unseren Benchmark-Ergebnissen, einschließlich der Erkenntnisse zur Verarbeitungsgeschwindigkeit, erweist sich Docling als die robusteste Lösung für die Verarbeitung komplexer Geschäftsdokumente. Es bietet hohe Textextraktionsgenauigkeit, überlegene Tabellenstrukturerhaltung und effektive Inhaltsverzeichnisrekonstruktion, unterstützt durch moderate und vorhersehbare Verarbeitungsgeschwindigkeiten (z.B. 6,28s für 1 Seite, linear skalierend auf 65,12s für 50 Seiten). Der Einsatz fortschrittlicher Modelle wie DocLayNet und TableFormer gewährleistet die zuverlässige Verarbeitung verschiedener Dokumentelemente, mit nur geringfügigen Ausnahmen (z.B. „5“ in der Bayer-Tabelle). Diese Balance aus Präzision, struktureller Integrität und effizienter Leistung macht Docling zur empfohlenen Wahl für Anwendungen, die Skalierbarkeit und Genauigkeit erfordern, wie Unternehmensdatenverarbeitung und Business Intelligence.

Unstructured funktioniert gut bei der Extraktion von Text und einfachen Tabellen und erreicht in simplen Anwendungsfällen eine numerische Genauigkeit von 100%, aber Inkonsistenzen wie Spaltenverschiebungen in komplexen Tabellen und unvollständige Inhaltsverzeichniserstellung schränken die Zuverlässigkeit ein. Die deutlich langsamere Geschwindigkeit (z.B. 51,06s für 1 Seite, 141,02s für 50 Seiten) beeinträchtigt zusätzlich die Praktikabilität, was darauf hindeutet, dass Unstructured am besten für weniger komplexe Dokumente oder Szenarien geeignet ist, in denen Geschwindigkeit und Ressourcenbeschränkungen nicht entscheidend sind. Eine Verbesserung der Geschwindigkeitsineffizienzen und des strukturellen Parsings könnte die Wettbewerbsfähigkeit steigern.

LlamaParse zeichnet sich durch die außergewöhnliche Verarbeitungsgeschwindigkeit aus (~6s konstant über alle Seitenzahlen), bietet die höchste Effizienz und Skalierbarkeit. Das Tool funktioniert angemessen für grundlegende Extraktionen, mit starker numerischer Genauigkeit bei einfachen Tabellen und Texten, hat aber Schwierigkeiten mit komplexer Formatierung (z.B. mehrspaltiger Text, komplizierte Tabellen) und Inhaltsverzeichnisrekonstruktion. Der Geschwindigkeitsvorteil macht es ideal für leichte, unkomplizierte Aufgaben, aber die strukturellen Schwächen und Einbußen bei der Genauigkeit machen es im Vergleich zu Docling weniger geeignet für umfassende Dokumentenverarbeitung.

Für Anwendungen, die Präzision, Effizienz und strukturelle Integrität priorisieren – entscheidend für Geschäftsanalysen – bleibt Docling die optimale Lösung. Die lineare Geschwindigkeitsskalierung stellt sicher, dass große Dokumente effektiv verarbeitet werden können, während LlamaParses zügige Verarbeitung eine Nische für schnelle, einfache Extraktionen bietet. Unstructured benötigt trotz des Potenzials erhebliche Optimierungen in Geschwindigkeit und Tabellenverarbeitung, um konkurrenzfähig zu sein. Zukünftige Verbesserungen für Unstructured könnten sich auf die Reduzierung der Verarbeitungszeiten und die Verbesserung der Tabellenanalyse konzentrieren, während LlamaParse von einer besseren Strukturerkennung profitieren könnte, um den Geschwindigkeitsvorteil in breiteren Anwendungen anzuwenden.

Weitere Blogartikel

Weitere Blogartikel

Digitalization and sustainabiality experts

Sie haben Fragen zur Nachhaltigkeit und Digitalisierung in Ihrem Unternehmen?

Vereinbaren Sie ein unverbindliches Beratungsgespräch mit unseren Experten und lassen Sie uns Lösungen finden.