{"id":16282,"date":"2025-03-24T17:23:19","date_gmt":"2025-03-24T16:23:19","guid":{"rendered":"https:\/\/procycons.com\/?p=16282"},"modified":"2025-10-04T19:12:06","modified_gmt":"2025-10-04T18:12:06","slug":"pdf-datenextraktion-benchmark-2025","status":"publish","type":"post","link":"https:\/\/procycons.com\/de\/blogs\/pdf-datenextraktion-benchmark-2025\/","title":{"rendered":"PDF-Datenextraktion Benchmark 2025: Vergleich von Docling, Unstructured und LlamaParse f\u00fcr Dokumentenverarbeitungsprozesse"},"content":{"rendered":"<h2><strong data-prosemirror-content-type=\"mark\" data-prosemirror-mark-name=\"strong\">Zusammenfassung<\/strong><\/h2>\n<p>Unsere Bewertung von <a href=\"https:\/\/docling-project.github.io\/docling\/\" target=\"_blank\" rel=\"noopener\">Docling<\/a>, <a href=\"https:\/\/unstructured.io\/\" target=\"_blank\" rel=\"noopener\">Unstructured<\/a> und <a href=\"https:\/\/docs.llamaindex.ai\/en\/stable\/llama_cloud\/llama_parse\/\" target=\"_blank\" rel=\"noopener\">LlamaParse<\/a> zeigt Docling als die \u00fcberlegene L\u00f6sung f\u00fcr die Extraktion strukturierter Daten aus unstrukturierten Nachhaltigkeitsberichten im PDF-Format, mit 97,9% Genauigkeit bei der Extraktion komplexer Tabellen und hervorragender Genauigkeit. W\u00e4hrend LlamaParse eine beeindruckende Verarbeitungsgeschwindigkeit bietet (konstant etwa 6 Sekunden unabh\u00e4ngig von der Dokumentgr\u00f6\u00dfe) und Unstructured starke OCR-F\u00e4higkeiten aufweist (100% Genauigkeit bei einfachen Tabellen, aber nur 75% bei komplexen Strukturen), sticht Docling aufgrund seiner ausgewogenen Performance f\u00fcr die Verarbeitung von Daten zur Analyse von Nachhaltigkeitsberichten heraus.<\/p>\n<p data-renderer-start-pos=\"602\"><strong data-renderer-mark=\"true\">Zentrale Erkenntnisse:<\/strong><\/p>\n<ul class=\"ak-ul\" data-indent-level=\"1\">\n<li>\n<p data-renderer-start-pos=\"620\"><strong>Docling<\/strong>: Beste Gesamtgenauigkeit und Strukturerhaltung (97,9% Genauigkeit bei Tabellenzellen)<\/p>\n<\/li>\n<li>\n<p data-renderer-start-pos=\"709\"><strong>LlamaParse<\/strong>: Schnellste Verarbeitung (6 Sekunden pro Dokument unabh\u00e4ngig von der Gr\u00f6\u00dfe)<\/p>\n<\/li>\n<li>\n<p data-renderer-start-pos=\"787\"><strong>Unstructured<\/strong>: Starke OCR-Leistung, aber langsamste Verarbeitung (51-141 Sekunden je nach Seitenzahl)<\/p>\n<\/li>\n<\/ul>\n\t\t<div data-elementor-type=\"section\" data-elementor-id=\"14576\" class=\"elementor elementor-14576 elementor-751\" data-elementor-post-type=\"elementor_library\">\n\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-2171a4a2 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"2171a4a2\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;background_background&quot;:&quot;classic&quot;}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-1191b56\" data-id=\"1191b56\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-inner-section elementor-element elementor-element-17da68f1 elementor-section-full_width elementor-section-height-default elementor-section-height-default\" data-id=\"17da68f1\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-169d8355\" data-id=\"169d8355\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-2eb00953 elementor-widget elementor-widget-heading\" data-id=\"2eb00953\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<div class=\"elementor-heading-title elementor-size-default\">Dokumentenanalyse effizient gestalten?<\/div>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-20306665 elementor-widget elementor-widget-text-editor\" data-id=\"20306665\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Kontaktieren Sie uns f\u00fcr eine ma\u00dfgeschneiderte Strategie zur Dokumentenanalyse.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-5e530c0f\" data-id=\"5e530c0f\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-6f0ba08f elementor-align-right greenbtn elementor-tablet-align-center elementor-mobile-align-justify elementor-widget-mobile__width-initial elementor-widget elementor-widget-button\" data-id=\"6f0ba08f\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"button.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<div class=\"elementor-button-wrapper\">\n\t\t\t\t\t<a class=\"elementor-button elementor-button-link elementor-size-sm\" href=\"https:\/\/procycons.com\/contact-us\/\">\n\t\t\t\t\t\t<span class=\"elementor-button-content-wrapper\">\n\t\t\t\t\t\t\t\t\t<span class=\"elementor-button-text\">Kontakt aufnehmen<\/span>\n\t\t\t\t\t<\/span>\n\t\t\t\t\t<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t\n<p><strong>Inhaltsverzeichnis<\/strong><\/p>\n<ol>\n<li><a href=\"#Einleitung\">Einleitung<\/a><\/li>\n<li><a href=\"#\u00dcberblick der wichtigsten Softwares zur PDF-Datenextraktion\">\u00dcberblick der wichtigsten Softwares zur PDF-Datenextraktion<\/a><\/li>\n<li><a href=\"#Methodik und Bewertungskriterien\">Methodik und Bewertungskriterien<\/a><\/li>\n<li><a href=\"#Berichtsauswahl und Begr\u00fcndung\">Berichtsauswahl und Begr\u00fcndung<\/a><\/li>\n<li><a href=\"#Ergebnisse und Diskussion\">Ergebnisse und Diskussion<\/a><\/li>\n<li><a href=\"#Fazit\">Fazit<\/a><\/li>\n<\/ol>\n<h2 id=\"Einleitung\">1. Einleitung<\/h2>\n<p>Die manuelle Erhebung, Strukturierung, Bewertung und Validierung von Nachhaltigkeitsparametern stellt viele Unternehmen vor gro\u00dfe Herausforderungen. Gleichzeitig bieten technologische Fortschritte, insbesondere in der K\u00fcnstlichen Intelligenz, viele M\u00f6glichkeiten genau diese Herausforderungen zu adressieren und es dr\u00e4ngt sich deshalb die Frage auf: Wie k\u00f6nnen unstrukturierte Nachhaltigkeitsberichte effizient in strukturierte, maschinenlesbare Daten f\u00fcr Analysen und Weiterverarbeitung umgewandelt werden? Als Spezialisten an der Schnittstelle von Nachhaltigkeit und digitaler Transformation wissen wir bei Procycons: Pr\u00e4zise Datenextraktion ist der Schl\u00fcssel f\u00fcr fundierte ESG-Analysen, automatisierte Berichterstattung und die Entwicklung wirksamer Klimastrategien.<\/p>\n<p>PDF-Dokumente bleiben das Standardformat f\u00fcr Nachhaltigkeitsberichte, aber ihre unstrukturierte Natur schafft eine erhebliche H\u00fcrde f\u00fcr die Automatisierung. Die Extraktion strukturierter Informationen \u2013 von komplexen, quantitativen Emissionstabellen bis hin zu qualitativen Ma\u00dfmahmenbeschreibungen zur Dekarbonisierung \u2013 erfordert ausgereifte Verarbeitungsl\u00f6sungen, die sowohl Inhaltsgenauigkeit als auch strukturelle Integrit\u00e4t gew\u00e4hrleisten k\u00f6nnen.<\/p>\n<p>In dieser Studie vergleichen wir drei f\u00fchrenden L\u00f6sungen zur Verarbeitung von PDFs: Docling, Unstructured und LlamaParse. Unser Ziel ist es, herauszufinden, welche L\u00f6sung den Herausforderungen der Verarbeitung von Nachhaltigkeitsdokumenten am besten gerecht wird:<\/p>\n<ul>\n<li>Erhaltung der Genauigkeit kritischer numerischer ESG-Daten<\/li>\n<li>Beibehaltung der hierarchischen Struktur vorgegebener Nachhaltigkeitserkl\u00e4rungen<\/li>\n<li>Korrekte Extraktion komplexer mehrstufiger Tabellen mit Emissionen, Ressourcennutzung und anderen Kennzahlen<\/li>\n<li>Skalierbarkeit der L\u00f6sung auf gr\u00f6\u00dfere Datenmengen von Unternehmen<\/li>\n<\/ul>\n<p>Diese Bewertung bildet eine entscheidende Komponente unserer Arbeit bei Procycons, wo wir <a href=\"https:\/\/de.wikipedia.org\/wiki\/Retrieval-Augmented_Generation\" target=\"_blank\" rel=\"noopener\">RAG (Retrieval-Augmented Generation)<\/a>-Systeme und <a href=\"https:\/\/en.wikipedia.org\/wiki\/Knowledge_graph\" target=\"_blank\" rel=\"noopener\">Wissensgraphen<\/a> entwickeln, die die Nachhaltigkeitsberichterstattung von einem manuellen Prozess in einen automatisierten, KI-unterst\u00fctzten Arbeitsablauf ver\u00e4ndern. Durch die Optimierung der Grundlage der Dokumentenverarbeitung erm\u00f6glichen wir genauere nachgelagerte Anwendungen f\u00fcr Nachhaltigkeits-Benchmarking, automatisierte ESG-Berichterstattung und Entwicklung von Klimastrategien.<\/p>\n<h2 id=\"\u00dcberblick der wichtigsten Softwares zur PDF-Datenextraktion\">2. \u00dcberblick der wichtigsten Softwares zur PDF-Datenextraktion<\/h2>\n<h3>2.1. Docling<\/h3>\n<p>Docling ist eine Open-Source-L\u00f6sung, die von <a href=\"https:\/\/github.com\/docling-project\/docling\" target=\"_blank\" rel=\"noopener\">DS4SD (IBM Research)<\/a> entwickelt wurde, um die Extraktion und Transformation von Text, Tabellen und Strukturelementen aus PDFs zu erleichtern. Das Tool nutzt fortschrittliche KI-Modelle, darunter DocLayNet f\u00fcr Layoutanalyse und <a href=\"https:\/\/arxiv.org\/abs\/2203.00274\" target=\"_blank\" rel=\"noopener\">TableFormer<\/a> f\u00fcr die Erkennung von Tabellenstrukturen. Docling wird weithin in KI-gest\u00fctzter Dokumentenanalyse, Unternehmensdatenverarbeitung und Forschungsanwendungen eingesetzt und ist darauf ausgelegt, effizient auf lokaler Hardware zu laufen, w\u00e4hrend es Integrationen mit generativen KI-\u00d6kosystemen unterst\u00fctzt.<\/p>\n<h3>2.2. Unstructured<\/h3>\n<p><a href=\"https:\/\/unstructured.io\/\" target=\"_blank\" rel=\"noopener\">Unstructured<\/a> ist eine Dokumentenverarbeitungsplattform, die entwickelt wurde, um komplexe Unternehmensdaten aus verschiedenen Formaten, einschlie\u00dflich PDFs, DOCX und HTML, zu extrahieren und zu transformieren. Das Tool wendet OCR und Transformer-basierte NLP-Modelle f\u00fcr Text- und Tabellenextraktion an. Als sowohl Open-Source- als auch API-basierte L\u00f6sung wird Unstructured h\u00e4ufig f\u00fcr KI-gest\u00fctztes Content Enrichment, der juristischer Dokumentenanalyse und Automatisierung von Datenverarbeitungsprozessen eingesetzt und wird aktiv von Unstructured.io gepflegt, einem Unternehmen, das sich auf KI-L\u00f6sungen f\u00fcr Unternehmen spezialisiert hat.<\/p>\n<h3>2.3. LlamaParse<\/h3>\n<p><a href=\"https:\/\/docs.llamaindex.ai\/en\/stable\/llama_cloud\/llama_parse\/\" target=\"_blank\" rel=\"noopener\">LlamaParse<\/a> ist eine NLP-basierte L\u00f6sung des Unternehmens LlamaIndex, welche f\u00fcr die Extraktion strukturierter Daten aus Dokumenten, insbesondere PDFs, konzipiert ist. Das Tool integriert Llama-basierte NLP-Verarbeitungsketten f\u00fcr Textanalyse und Strukturerkennung. W\u00e4hrend es bei einfachen Dokumenten gute Leistungen erbringt, hat es Schwierigkeiten mit komplexen Layouts, was es eher f\u00fcr wenig aufwendige Anwendungen wie Forschung und kleinere Dokumentenverarbeitungsaufgaben geeignet macht.<\/p>\n<h2 id=\"Methodik und Bewertungskriterien\">3. Methodik und Bewertungskriterien<\/h2>\n<p>Um eine faire und umfassende Bewertung der PDF-Verarbeitung f\u00fcr die Extraktion von Nachhaltigkeitsberichten durchzuf\u00fchren, haben wir folgende Schl\u00fcsselmetriken analysiert:<\/p>\n<ul>\n<li><strong>Textextraktionsgenauigkeit<\/strong>: Stellt sicher, dass extrahierter Text korrekt und richtig formatiert ist, da Fehler die nachgelagerte Datenintegrit\u00e4t beeinflussen.<\/li>\n<li><strong>Tabellenerkennung und -extraktion<\/strong>: Entscheidend f\u00fcr Nachhaltigkeitsberichte mit tabellarischen Daten, bewertet die korrekte Identifizierung und Extraktion von Tabellen.<\/li>\n<li><strong>Abschnittsstrukturgenauigkeit<\/strong>: Bewertet die Beibehaltung der Dokumenthierarchie f\u00fcr Lesbarkeit und Benutzerfreundlichkeit.<\/li>\n<li><strong>Inhaltsverzeichnisgenauigkeit<\/strong>: Misst die F\u00e4higkeit, ein Inhaltsverzeichnis f\u00fcr verbesserte Navigation zu rekonstruieren.<\/li>\n<li><strong>Verarbeitungsgeschwindigkeitsvergleich<\/strong>: Bewertet die Zeit, die f\u00fcr die Verarbeitung von PDFs unterschiedlicher L\u00e4nge ben\u00f6tigt wird, und liefert Einblicke in Effizienz und Skalierbarkeit.<\/li>\n<\/ul>\n\t\t<div data-elementor-type=\"section\" data-elementor-id=\"16292\" class=\"elementor elementor-16292 elementor-16227\" data-elementor-post-type=\"elementor_library\">\n\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-3223b51 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"3223b51\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;background_background&quot;:&quot;classic&quot;}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-25c9229a\" data-id=\"25c9229a\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-inner-section elementor-element elementor-element-1c552016 elementor-section-full_width elementor-section-height-default elementor-section-height-default\" data-id=\"1c552016\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-b55dbd9\" data-id=\"b55dbd9\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-760d8458 elementor-widget elementor-widget-heading\" data-id=\"760d8458\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<div class=\"elementor-heading-title elementor-size-default\">Wie gut funktionieren diese Extraktions-Tools mit Ihren eigenen Dokumenten?<\/div>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-53fe9d3b elementor-widget elementor-widget-text-editor\" data-id=\"53fe9d3b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Fordern Sie jetzt einen individualisierten Vergleichstest mit Ihren spezifischen Unternehmensunterlagen an.<\/p>\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-41ca9e5a\" data-id=\"41ca9e5a\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-765af984 elementor-align-right greenbtn elementor-tablet-align-center elementor-mobile-align-justify elementor-widget-mobile__width-initial elementor-widget elementor-widget-button\" data-id=\"765af984\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"button.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<div class=\"elementor-button-wrapper\">\n\t\t\t\t\t<a class=\"elementor-button elementor-button-link elementor-size-sm\" href=\"https:\/\/procycons.com\/en\/contact-us\/\">\n\t\t\t\t\t\t<span class=\"elementor-button-content-wrapper\">\n\t\t\t\t\t\t\t\t\t<span class=\"elementor-button-text\">Contact us<\/span>\n\t\t\t\t\t<\/span>\n\t\t\t\t\t<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t\n<h2 id=\"Berichtsauswahl und Begr\u00fcndung\">4. Berichtsauswahl und Begr\u00fcndung<\/h2>\n<p>Wir haben f\u00fcnf Unternehmensberichte f\u00fcr den Vergleich ausgew\u00e4hlt, um die Leistung von Docling, Unstructured und LlamaParser zu bewerten.<\/p>\n<table style=\"width: 100%; border-collapse: collapse; font-family: Arial, sans-serif; background-color: #f9f9f9; margin: 20px 0;\">\n<caption style=\"caption-side: top; text-align: left; font-weight: bold; font-size: 18px; margin-bottom: 10px;\">Berichtsinformationstabelle<\/caption>\n<thead>\n<tr style=\"background-color: #007bff; color: #ffffff; text-align: left;\">\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Berichtsname<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Seiten<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Anzahl der W\u00f6rter<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Anzahl der Tabellen<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Komplexit\u00e4tsmerkmale<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Bayer Nachhaltigkeitsbericht 2023 (Kurz)<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">52<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">34.104<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">32<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Mehrspaltentext, Eingebettete Diagramme, Detailliertes Inhaltsverzeichnis<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">DHL 2023<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">13<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">5.955<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">5<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Einspaltentext, Eingebettete Diagramme<\/td>\n<\/tr>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Pfizer 2023<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">11<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">3.293<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">6<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Nicht spezifiziert (vermutlich einfaches Layout, m\u00f6glicherweise einspaltig)<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Takeda 2023<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">14<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">4.356<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">8<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Mehrspaltentext, Eingebettete Diagramme, Detailliertes Inhaltsverzeichnis<\/td>\n<\/tr>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">UPS 2023<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">9<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">4.486<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">3<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Detailliertes Inhaltsverzeichnis<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>Diese Berichte wurden aufgrund ihrer Vielfalt in Layout, Textstilen und Tabellenstrukturen ausgew\u00e4hlt. Um einen fairen Vergleich zu gew\u00e4hrleisten, haben wir die Berichte bei Bedarf gek\u00fcrzt (z.B. Auswahl bestimmter Seitenbereiche f\u00fcr Pfizer, Takeda und UPS), um verschiedene Arten von Tabellen (einfach, mehrzeilig, Zellen mit Zusammenf\u00fchrungen) und Textinhalten (einspaltig, mehrspaltig, wortreiche Abs\u00e4tze, Aufz\u00e4hlungspunkte) einzubeziehen. Diese Auswahl erm\u00f6glichte es uns, zu untersuchen, wie jede L\u00f6sung mit unterschiedlichen Dokumentkomplexit\u00e4ten umgeht, von pr\u00e4sentationsartigen Folien (DHL) bis hin zu umfangreichen Unternehmensberichten (Bayer) und gescannten Ausz\u00fcgen (UPS). Die Einbeziehung verschiedener Themen stellt die Relevanz f\u00fcr mehrere Branchen sicher, w\u00e4hrend die Bandbreite der Wortzahlen (~4.500 bis ~34.000) und Tabellenzahlen (3 bis 32) die Skalierbarkeit und Genauigkeit \u00fcber Dokumentgr\u00f6\u00dfen hinweg testet.<\/p>\n<h2 id=\"Ergebnisse und Diskussion\">5. Ergebnisse und Diskussion<\/h2>\n<h3>5.1. \u00dcbersichtstabelle der Metriken<\/h3>\n<p>Diese Vergleichstabelle hebt die wichtigsten Leistungsmetriken aller L\u00f6sungen hervor und unterst\u00fctzt bei der Auswahl f\u00fcr die individuellen Anwendungsf\u00e4lle der Nutzer.<\/p>\n<table style=\"width: 100%; border-collapse: collapse; font-family: Arial, sans-serif; background-color: #f9f9f9; margin: 20px 0;\">\n<caption style=\"caption-side: top; text-align: left; font-weight: bold; font-size: 18px; margin-bottom: 10px;\">Leistungsvergleichstabelle<\/caption>\n<thead>\n<tr style=\"background-color: #90ee90; color: #000; text-align: left;\">\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Metrik<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Docling<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Unstructured<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">LlamaParser<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Textextraktionsgenauigkeit<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Hohe Genauigkeit, beh\u00e4lt Formatierung bei<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Effizient, inkonsistente Zeilenumbr\u00fcche<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Probleme mit Mehrspalten, Wortzusammenf\u00fchrung<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Tabellenerkennung &amp; -extraktion<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Erkennt komplexe Tabellen gut<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">OCR-basiert, variabel bei mehrzeiligen Tabellen<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Gut bei einfachen, schlecht bei komplexen Tabellen<\/td>\n<\/tr>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Abschnittsstrukturgenauigkeit<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Klare hierarchische Struktur<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Gr\u00f6\u00dftenteils genau, einige Fehlklassifizierungen<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Probleme bei der Abschnittsunterscheidung<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Inhaltsverzeichniserstellung<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Genau mit korrekten Verweisen<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Teilweise, einige Ungenauigkeiten<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Kann nicht effektiv rekonstruieren<\/td>\n<\/tr>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Leistungsmetriken<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Moderat (6,28s f\u00fcr 1 Seite, 65,12s f\u00fcr 50 Seiten)<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Langsam (51,06s f\u00fcr 1 Seite, 141,02s f\u00fcr 50 Seiten)<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Schnell (6s unabh\u00e4ngig von der Seitenzahl)<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3>5.2. Technologie hinter jeder L\u00f6sung<\/h3>\n<p>Die folgende Tabelle beschreibt die spezifischen Modelle und Technologien, die die F\u00e4higkeiten der entsprechenden L\u00f6sung unterst\u00fctzen.<\/p>\n<table style=\"width: 100%; border-collapse: collapse; font-family: Arial, sans-serif; background-color: #f9f9f9; margin: 20px 0;\">\n<caption style=\"caption-side: top; text-align: left; font-weight: bold; font-size: 18px; margin-bottom: 10px;\">Technologievergleichstabelle<\/caption>\n<thead>\n<tr style=\"background-color: #90ee90; color: #000; text-align: left;\">\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Metrik<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Docling<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">Unstructured<\/th>\n<th style=\"padding: 12px 15px; border: 1px solid #ddd;\">LlamaParser<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Textextraktion<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">DocLayNet<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">OCR + Transformer-basiertes NLP<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Llama-basierte NLP-Verarbeitungskette<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Tabellenerkennung<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">TableFormer<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Vision Transformer + OCR<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Llama-basierter Tabellenparser<\/td>\n<\/tr>\n<tr style=\"background-color: #fff;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Abschnittsstruktur<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">DocLayNet + NLP-Klassifikatoren<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Transformer-basierter Klassifikator<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Llama-basierte Textstrukturierung<\/td>\n<\/tr>\n<tr style=\"background-color: #f3f3f3;\">\n<td style=\"padding: 12px 15px; border: 1px solid #ddd; font-weight: bold;\">Inhaltsverzeichniserstellung<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Layout-basiertes Parsing + NLP<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">OCR + Heuristisches Parsing<\/td>\n<td style=\"padding: 12px 15px; border: 1px solid #ddd;\">Llama-basierte Inhaltsverzeichniserkennung<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3 id=\"5.3.-Detailed-Performance-Analysis\" data-renderer-start-pos=\"8713\">5.3. Detaillierte Analyse<\/h3>\n<p>Nachfolgend vergleichen wir die Ausgaben jeder L\u00f6sung anhand von Ausz\u00fcgen aus verschiedenen Berichten, mit Fokus auf Text, Tabellen, Abschnitte und Inhaltsverzeichnisse.<\/p>\n<h4>5.3.1. Textextraktion<\/h4>\n<p>Der Originaltext aus dem &#8222;Takeda 2023&#8220;-PDF besteht aus zwei wortreichen Abs\u00e4tzen mit Fachbegriffen und klaren Absatzumbr\u00fcchen, die den Inhalt trennen.<\/p>\n<figure id=\"attachment_16248\" aria-describedby=\"caption-attachment-16248\" style=\"width: 1024px\" class=\"wp-caption alignnone\"><img fetchpriority=\"high\" decoding=\"async\" class=\"wp-image-16248 size-large\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-1024x696.png\" alt=\"\" width=\"1024\" height=\"696\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-1024x696.png 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-300x204.png 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-150x102.png 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-768x522.png 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1-1536x1044.png 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/text-extraction-1.png 1779w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption id=\"caption-attachment-16248\" class=\"wp-caption-text\"><strong>Ergebnisse des Textextraktionsprozesses der 3 Tools<\/strong><\/figcaption><\/figure>\n<h5><strong>Erkenntnisse <\/strong>\u00fcber den Prozess der Textextraktion<\/h5>\n<p><strong>Docling:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Erreicht 100% Genauigkeit f\u00fcr den textlichen Inhalt, stimmt mit allen S\u00e4tzen einschlie\u00dflich Titel und beiden Abs\u00e4tzen \u00fcberein.<\/li>\n<li><strong>Vollst\u00e4ndigkeit<\/strong>: Erfasst den gesamten Originaltext und beh\u00e4lt Absatzumbr\u00fcche und Struktur bei.<\/li>\n<li><strong>Textmodifikationen<\/strong>: Beh\u00e4lt die Originalformulierung und Fachbegriffe ohne Ver\u00e4nderung bei.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Bewahrt Absatzumbr\u00fcche, die f\u00fcr die Lesbarkeit entscheidend sind, und trennt den Titel entsprechend des urspr\u00fcnglichen \u00dcberschriftenstils.<\/li>\n<\/ul>\n<p><strong>LlamaParse:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Erreicht hohe Genauigkeit f\u00fcr Originalabs\u00e4tze, enth\u00e4lt aber zus\u00e4tzliche Inhalte, die im Quelltext nicht vorhanden sind.<\/li>\n<li><strong>Vollst\u00e4ndigkeit<\/strong>: F\u00fcgt detaillierte technische Informationen hinzu, die nicht Teil des Beispielabschnitts sind, w\u00e4hrend der urspr\u00fcngliche Absatzumbruch verloren geht.<\/li>\n<li><strong>Textmodifikationen<\/strong>: F\u00fchrt neue S\u00e4tze und Daten ein, was auf \u00dcberextraktion oder Halluzination hindeutet.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Vereint Inhalte zu einem durchgehenden Block, was die Lesbarkeit verringert, obwohl die Titeltrennung beibehalten wird.<\/li>\n<\/ul>\n<p><strong>Unstructured:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Extrahiert Titel und Abs\u00e4tze korrekt, enth\u00e4lt aber erhebliche zus\u00e4tzliche Inhalte, die im Originalabschnitt nicht vorhanden sind.<\/li>\n<li><strong>Vollst\u00e4ndigkeit<\/strong>: F\u00fcgt erhebliche zus\u00e4tzliche technische Details hinzu, die wahrscheinlich aus anderen Teilen des Dokuments stammen.<\/li>\n<li><strong>Textmodifikationen<\/strong>: F\u00fchrt neue technische Informationen ein, ohne Fehler im Originalinhalt, ver\u00e4ndert aber den Umfang der Ausgabe.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Fasst alle inhakte in einem Blockzusammen, \u00fcbersieht Absatzumbr\u00fcche und den strukturellen Aufbau des Texts trotz\u00a0korrekter Titelformatierung.<\/li>\n<\/ul>\n<h4>5.3.2. Tabellenextraktionsleistung<\/h4>\n<p>Wir haben eine Tabelle aus dem &#8222;Bayer-Nachhaltigkeitsbericht-2023&#8220; ausgew\u00e4hlt, um die Tabellenextraktionsleistung dieser Plattformen zu analysieren &#8211; siehe Abbildung unten.<\/p>\n<p data-renderer-start-pos=\"11014\">Die Tabelle bietet eine Aufschl\u00fcsselung der Mitarbeiter nach Geschlecht (Frauen und M\u00e4nner), Region (Gesamt, Europa\/Naher Osten\/Afrika, Nordamerika, Asien\/Pazifik, Lateinamerika) und Altersgruppe (&lt; 20, 20-29, 30-39, 40-49, 50-59, \u2265 60). Die Struktur ist hierarchisch:<\/p>\n<ul>\n<li data-renderer-start-pos=\"11262\"><strong data-renderer-mark=\"true\">Oberste Ebene<\/strong>: Geschlecht (Frauen: 41.562 insgesamt; M\u00e4nner: 58.161 insgesamt).<\/li>\n<li data-renderer-start-pos=\"11325\"><strong data-renderer-mark=\"true\">Zweite Ebene<\/strong>: Regionen unter jedem Geschlecht (z.B. Frauen in Europa\/Naher Osten\/Afrika: 18.981).<\/li>\n<li data-renderer-start-pos=\"11420\"><strong data-renderer-mark=\"true\">Dritte Ebene<\/strong>: Altersgruppen unter jeder Region (z.B. Frauen in Europa\/Naher Osten\/Afrika, &lt; 20: 6).<\/li>\n<\/ul>\n<figure id=\"attachment_16251\" aria-describedby=\"caption-attachment-16251\" style=\"width: 1024px\" class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"wp-image-16251 size-large\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction-1024x884.png\" alt=\"\" width=\"1024\" height=\"884\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction-1024x884.png 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction-300x259.png 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction-150x130.png 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction-768x663.png 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/table-extraction.png 1164w\" sizes=\"(max-width: 1024px) 100vw, 1024px\" \/><figcaption id=\"caption-attachment-16251\" class=\"wp-caption-text\"><strong>Ergebnisse des Tabellenexktrationsprozesses der 3 Tools<\/strong><\/figcaption><\/figure>\n<h5><strong>Erkenntnisse zur Datengenauigkeit<\/strong><\/h5>\n<p><strong>Docling:<\/strong><\/p>\n<ul>\n<li><strong>Problem<\/strong>: Verpasst einen Datenpunkt (&#8222;5&#8220; f\u00fcr M\u00e4nner in Lateinamerika, &lt; 20) von 48 Eintr\u00e4gen, erreicht 97,9% Genauigkeit.<\/li>\n<li><strong>Auswirkung<\/strong>: Der Fehler ist isoliert und beeinflusst die Gesamtsummen nicht, beeintr\u00e4chtigt jedoch die Vollst\u00e4ndigkeit der Altersgruppe.<\/li>\n<li><strong>St\u00e4rke<\/strong>: Alle anderen Daten, einschlie\u00dflich Geschlechtergesamtsummen, sind korrekt platziert.<\/li>\n<\/ul>\n<p><strong>LlamaParse:<\/strong><\/p>\n<ul>\n<li><strong>Problem<\/strong>: Platziert Werte der Spalte &#8222;Gesamt&#8220; falsch, verwendet Lateinamerika-Gesamtsummen anstelle von Geschlechtergesamtsummen.<\/li>\n<li><strong>Auswirkung<\/strong>: Systematische Spaltenverschiebung beeintr\u00e4chtigt die gesamte Tabelleninterpretation, mit 100% Datenextraktion, aber 0% korrekter Platzierung.<\/li>\n<li><strong>St\u00e4rke<\/strong>: Erfasst den Datenpunkt &#8222;5&#8220;, den Docling verpasst.<\/li>\n<\/ul>\n<p><strong>Unstructured:<\/strong><\/p>\n<ul>\n<li><strong>Problem<\/strong>: Schwerwiegender Spaltenverschiebungsfehler mit fehlenden Daten f\u00fcr Europa\/Naher Osten\/Afrika und verschobenen Regionen.<\/li>\n<li><strong>Auswirkung<\/strong>: Tabelle wird uninterpretierbar mit 75% Zellengenauigkeit (36\/48 Eintr\u00e4ge) und 0% Genauigkeit f\u00fcr Lateinamerika-Daten.<\/li>\n<li><strong>St\u00e4rke<\/strong>: Einige numerische Daten k\u00f6nnen manuell den korrekten Regionen zugeordnet werden.<\/li>\n<\/ul>\n<h5><strong>Strukturintegrit\u00e4t<\/strong><\/h5>\n<p><strong>Docling:<\/strong><\/p>\n<ul>\n<li>Bewahrt die urspr\u00fcngliche Spaltenreihenfolge und hierarchische Verschachtelung, erh\u00e4lt dabei den strukturellen Aufbau des Texts.<\/li>\n<li>Behandelt leere &#8222;Gesamt&#8220;-Spalte f\u00fcr Altersgruppen korrekt.<\/li>\n<\/ul>\n<p><strong>LlamaParse:<\/strong><\/p>\n<ul>\n<li>Kehrt die Spaltenreihenfolge mit falscher &#8222;Gesamt&#8220;-Platzierung um, verzerrt die Tabellenbedeutung.<\/li>\n<li>Mangel an hierarchischen Verschachtelungsindikatoren, sekund\u00e4r zu Spaltenfehlern.<\/li>\n<\/ul>\n<p><strong>Unstructured:<\/strong><\/p>\n<ul>\n<li>Leidet unter schweren Spaltenverschiebungen, wodurch die regionale Hierarchie bedeutungslos wird.<\/li>\n<li>Beh\u00e4lt teilweise die Trennung von Geschlecht und Altersgruppen bei, fehlt aber an klaren Verschachtelungsindikatoren.<\/li>\n<li>L\u00e4sst &#8222;Gesamt&#8220;-Spalte f\u00fcr Altersgruppen korrekt leer, obwohl irrelevant angesichts der Datenfehlanpassung.<\/li>\n<\/ul>\n<h4>5.3.3. Abschnittsstruktur<\/h4>\n<p>Das Abschnittsbeispiel aus dem &#8222;UPS 2023&#8220;-PDF zeigt, wie die verschiedenen L\u00f6sungen mit hierarchischen Dokumentstrukturen umgehen, ein entscheidender Aspekt f\u00fcr die Beibehaltung der Dokumentorganisation. Das Beispiel enth\u00e4lt eine Haupt\u00fcberschrift gefolgt von einer Unter\u00fcberschrift, mit einer klaren hierarchischen Beziehung, die durch Formatierungsunterschiede im Originaldokument angezeigt wird.<\/p>\n<h5><strong>Erkenntnisse zur Verarbeitung der Abschnittsstruktur<\/strong><\/h5>\n<p><strong>Docling:<\/strong><\/p>\n<ul>\n<li><strong>Hierarchiedarstellung<\/strong>: Verwendet die gleiche Markdown-Ebene (##) f\u00fcr beide \u00dcberschriften, verfehlt die hierarchische Beziehung.<\/li>\n<li><strong>Textgenauigkeit<\/strong>: Erfasst den exakten Text beider \u00dcberschriften, einschlie\u00dflich Gro\u00df-\/Kleinschreibung und Zeichensetzung.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Beh\u00e4lt urspr\u00fcngliche Textelemente bei, verliert aber Stilunterschiede, die \u00dcberschriftsebenen unterscheiden.<\/li>\n<\/ul>\n<p><strong>LlamaParse:<\/strong><\/p>\n<ul>\n<li><strong>Hierarchiedarstellung<\/strong>: Verwendet identische Markdown-Ebene (#) f\u00fcr beide \u00dcberschriften, verpasst die Eltern-Kind-Struktur.<\/li>\n<li><strong>Textgenauigkeit<\/strong>: Erfasst den Text beider \u00dcberschriften perfekt, bewahrt alle Textelemente.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Beh\u00e4lt Gro\u00df-\/Kleinschreibung und Zeichensetzung bei, kann aber PDF-spezifische Stilunterschiede nicht abbilden.<\/li>\n<\/ul>\n<p><strong>Unstructured:<\/strong><\/p>\n<ul>\n<li><strong>Hierarchiedarstellung<\/strong>: Verwendet korrekt unterschiedliche Markdown-Ebenen (# f\u00fcr Haupt\u00fcberschrift, ## f\u00fcr Unter\u00fcberschrift), spiegelt die hierarchische Beziehung richtig wider.<\/li>\n<li><strong>Textgenauigkeit<\/strong>: Erfasst den Text beider \u00dcberschriften mit allen Originalelementen.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Kann PDF-Format nicht wiedergeben, kompensiert aber mit angemessener Markdown-Hierarchie, \u00fcbertrifft andere L\u00f6sungen in struktureller Integrit\u00e4t.<\/li>\n<\/ul>\n<h4>5.3.4. Inhaltsverzeichnis<\/h4>\n<p>Das Original-Inhaltsverzeichnis aus dem &#8222;UPS 2023&#8220;-PDF enth\u00e4lt eine &#8222;Inhalt&#8220;-\u00dcberschrift gefolgt von Abschnittseintr\u00e4gen mit Seitenzahlen, in einem zweispaltigen Layout mit gepunkteten Linien als Trenner zwischen Titeln und Seitenzahlen.<\/p>\n<h5><strong>Erkenntnisse zum Verarbeiten des Inhaltsverzeichnis<\/strong><\/h5>\n<p><strong>Docling:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Erfasst alle Inhalte mit 100% Genauigkeit, einschlie\u00dflich Titel, Seitenzahlen und Zeichensetzung.<\/li>\n<li><strong>Strukturdarstellung<\/strong>: Verwendet eine Markdown-Tabelle mit zwei Spalten, beh\u00e4lt die Trennung von Titeln und Seitenzahlen bei.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Beh\u00e4lt gepunktete Linien innerhalb von Tabellenzellen bei, markiert aber &#8222;Inhalt&#8220; als Unter\u00fcberschrift (##) anstatt als Haupt\u00fcberschrift.<\/li>\n<\/ul>\n<p><strong>LlamaParse:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Erreicht 100% Genauigkeit f\u00fcr alle Textelemente, einschlie\u00dflich Titel, Seitenzahlen und gepunktete Linien.<\/li>\n<li><strong>Strukturdarstellung<\/strong>: Implementiert ein Aufz\u00e4hlungslisten-Format mit Titeln und Seitenzahlen in derselben Zeile, bewahrt den logischen Fluss.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Beh\u00e4lt gepunktete Linien bei und markiert &#8222;Inhalt&#8220; korrekt als Haupt\u00fcberschrift (#), entsprechend seiner Bedeutung.<\/li>\n<\/ul>\n<p><strong>Unstructured:<\/strong><\/p>\n<ul>\n<li><strong>Textgenauigkeit<\/strong>: Stark mangelhaft, erfasst nur den &#8222;Inhalt&#8220;-Titel, w\u00e4hrend alle Eintr\u00e4ge und Seitenzahlen fehlen.<\/li>\n<li><strong>Strukturdarstellung<\/strong>: Enth\u00e4lt eine leere Markdown-Tabelle, die weder die Originalstruktur noch den Inhalt wiedergibt.<\/li>\n<li><strong>Formatierungserhaltung<\/strong>: Markiert &#8222;Inhalt&#8220; als Unter\u00fcberschrift (##) und bietet keine Inhaltserhaltung, was zu einem vollst\u00e4ndigen Strukturverlust f\u00fchrt.<\/li>\n<\/ul>\n<h3>5.4. Vergleich der Verarbeitungsgeschwindigkeit<\/h3>\n<p>Einer der wichtigsten Faktoren bei der Bewertung eines PDF-Verarbeitungstools f\u00fcr die automatisierte Dokumentenextraktion ist die Verarbeitungsgeschwindigkeit \u2013 wie schnell ein Tool Inhalte aus einem Dokument extrahieren und strukturieren kann. Ein langsames Tool kann die Workflow-Effizienz erheblich beeintr\u00e4chtigen, besonders bei der Verarbeitung gro\u00dfer Dokumentenmengen.<\/p>\n<p>Um die Geschwindigkeit zu vergleichen, haben wir eine Reihe von Test-PDFs verwendet, die aus einer einzelnen extrahierten Seite erstellt wurden. Durch den Vergleich ihrer F\u00e4higkeit, Dokumente zunehmender L\u00e4nge zu verarbeiten, haben wir das beste Tool f\u00fcr die strukturierte Dokumentenextraktion im gro\u00dfen Ma\u00dfstab identifiziert. Wir haben die durchschnittliche verstrichene Zeit f\u00fcr LlamaParse, Docling und Unstructured bei der Verarbeitung von PDFs mit zunehmender Seitenzahl gemessen. Die Ergebnisse zeigen signifikante Unterschiede darin, wie jedes Tool mit Skalierbarkeit und Leistung umgeht &#8211; siehe Abbildung unten.<\/p>\n<figure id=\"attachment_16254\" aria-describedby=\"caption-attachment-16254\" style=\"width: 640px\" class=\"wp-caption alignnone\"><img decoding=\"async\" class=\"size-large wp-image-16254\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval-1024x678.png\" alt=\"Verarbeitungsgeschwindigkeitsvergleich\" width=\"640\" height=\"424\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval-1024x678.png 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval-300x199.png 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval-150x99.png 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval-768x509.png 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/03\/eval.png 1184w\" sizes=\"(max-width: 640px) 100vw, 640px\" \/><figcaption id=\"caption-attachment-16254\" class=\"wp-caption-text\"><strong>Vergleich der Vererbarbeitungsgeschwindigkeit der\u00a0 3 Tools<\/strong><\/figcaption><\/figure>\n<p><strong>Erkenntnisse zum Vergleich der Verarbeitungsgeschwindigkeiten<\/strong><\/p>\n<ol>\n<li><strong>LlamaParse ist am schnellsten<\/strong>\n<ul>\n<li>LlamaParse verarbeitet Dokumente konstant in etwa 6 Sekunden, selbst wenn die Seitenzahl zunimmt.<\/li>\n<li>Dies deutet darauf hin, dass es effizient mit der Dokumentenskalierung umgeht, ohne signifikante Verlangsamungen.<\/li>\n<\/ul>\n<\/li>\n<li><strong>Docling skaliert linear mit zunehmenden Seiten<\/strong>\n<ul>\n<li>Die Verarbeitung von 1 Seite dauert 6,28 Sekunden, aber 50 Seiten dauern 65,12 Sekunden \u2013 eine nahezu lineare Zunahme der Verarbeitungszeit.<\/li>\n<li>Dies zeigt, dass die Leistung von Docling stabil ist, aber proportional zur Dokumentgr\u00f6\u00dfe skaliert.<\/li>\n<\/ul>\n<\/li>\n<li><strong>Unstructured hat Geschwindigkeitsprobleme<\/strong>\n<ul>\n<li>Unstructured ist deutlich langsamer und ben\u00f6tigt 51 Sekunden f\u00fcr eine einzelne Seite und \u00fcber 140 Sekunden f\u00fcr gro\u00dfe Dateien.<\/li>\n<li>Es zeigt eine inkonsistente Skalierung, da 15 Seiten etwas weniger Zeit ben\u00f6tigen als 5 Seiten, wahrscheinlich aufgrund von Caching oder internen Optimierungen.<\/li>\n<li>Obwohl seine Genauigkeit in einigen Bereichen h\u00f6her sein mag, macht seine Geschwindigkeit es weniger praktisch f\u00fcr die Verarbeitung gro\u00dfer Datenmengen.<\/li>\n<\/ul>\n<\/li>\n<\/ol>\n<h3>5.5. Analyseergebnisse<\/h3>\n<p>Die Ausgaben und Metriken zeigen deutliche St\u00e4rken und Schw\u00e4chen der verschiedenen L\u00f6sungen, die nachfolgend analysiert werden:<\/p>\n<p><strong>Textextraktionsgenauigkeit:<\/strong><\/p>\n<ul>\n<li><strong>Docling<\/strong>: Zeigt hohe Genauigkeit mit 100%iger Text\u00fcbereinstimmung in wortverdichteten Abs\u00e4tzen (z.B. Takeda 2023), beh\u00e4lt die urspr\u00fcngliche Formulierung, Fachbegriffe und Absatzumbr\u00fcche bei. Diese Konsistenz macht es zuverl\u00e4ssig f\u00fcr die Beibehaltung der Datenintegrit\u00e4t in Dokumenten mit umfangreichem textlichen Inhalt.<\/li>\n<li><strong>Unstructured<\/strong>: Bietet effiziente Textextraktion mit hoher Genauigkeit f\u00fcr Kerninhalte, f\u00fchrt aber Inkonsistenzen ein, wie das Zusammenf\u00fchren von Absatzumbr\u00fcchen und das Hinzuf\u00fcgen von zus\u00e4tzlichen Details. Diese \u00dcberextraktion deutet auf potenzielle \u00dcbergriffe aus anderen Dokumentabschnitten hin, was die Pr\u00e4zision beeintr\u00e4chtigt.<\/li>\n<li><strong>LlamaParse<\/strong>: Hat Schwierigkeiten mit mehrspaltigen Layouts und Wortzusammenf\u00fchrungen, erreicht hohe Genauigkeit nur f\u00fcr einfachen Text, f\u00fcgt aber irrelevante Inhalte hinzu. Dies weist auf eine Einschr\u00e4nkung im Umgang mit komplexen Textstrukturen hin, was seine Eignung f\u00fcr verschiedene Dokumentformate reduziert.<\/li>\n<\/ul>\n<p><strong>Tabellenerkennung &amp; -extraktion:<\/strong><\/p>\n<ul>\n<li><strong>Docling<\/strong>: \u00dcberzeugt bei der Erkennung komplexer Tabellen, bewahrt hierarchische Verschachtelung und Spaltenreihenfolge (z.B. komplizierte Tabelle aus Bayer 2023), mit einer einzelnen Ausnahme (&#8222;5&#8220; f\u00fcr M\u00e4nner in Lateinamerika, &lt; 20), was zu 97,9% Zellengenauigkeit f\u00fchrt. Die Verwendung von TableFormer gew\u00e4hrleistet eine robuste Strukturerhaltung, ideal f\u00fcr detaillierte tabellarische Daten.<\/li>\n<li><strong>Unstructured<\/strong>: Leistung ist variabel, mit OCR-basierter Extraktion, die numerisch erfolgreich ist (z.B. 100% Genauigkeit bei einfachen Tabellen), aber strukturell bei mehrreihigen Tabellen versagt (z.B. fehlende Daten durch Spaltenverschiebungen in Bayer 2023). Dies schr\u00e4nkt die Zuverl\u00e4ssigkeit f\u00fcr komplexe Layouts ein.<\/li>\n<li><strong>LlamaParse<\/strong>: Behandelt einfache Tabellen gut (z.B. 100% numerische Genauigkeit bei einfachen Tabellen), scheitert aber bei komplexen Tabellen, platziert &#8222;Gesamt&#8220;-Spalten falsch (z.B. Bayer 2023). Leistung sinkt erheblich bei komplexen Strukturen, was seinen Anwendungsbereich einschr\u00e4nkt.<\/li>\n<\/ul>\n<p><strong>Abschnittsstrukturgenauigkeit:<\/strong><\/p>\n<ul>\n<li><strong>Docling<\/strong>: Beh\u00e4lt klare hierarchische Struktur bei, verwendet aber einheitliche Markdown-Ebenen (##), verpasst Verschachtelungshinweise (z.B. UPS 2023 Abschnitt). Dieser kleine Mangel wird durch perfekte Textgenauigkeit ausgeglichen, was es trotz Formatierungseinschr\u00e4nkungen effektiv f\u00fcr die Lesbarkeit macht.<\/li>\n<li><strong>Unstructured<\/strong>: Gr\u00f6\u00dftenteils genau, mit korrekter Textextraktion (z.B. UPS 2023 Abschnitt), verwendet aber die gleiche Markdown-Ebene (#) f\u00fcr alle \u00dcberschriften, spiegelt Hierarchie nicht wider. Diese Gemeinsamkeit mit Docling und LlamaParse deutet auf eine gemeinsame Einschr\u00e4nkung bei der strukturellen Differenzierung hin.<\/li>\n<li><strong>LlamaParse<\/strong>: Schwierigkeiten bei der Abschnittsunterscheidung, verwendet einheitliche Ebenen (#) und mangelt an hierarchischer Klarheit (z.B. UPS 2023), \u00e4hnlich wie andere. Seine Textgenauigkeit ist hoch, aber strukturelle Schw\u00e4chen reduzieren die Nutzbarkeit f\u00fcr organisierte Navigation.<\/li>\n<\/ul>\n<p><strong>Inhaltsverzeichnis (ToC) Erstellung:<\/strong><\/p>\n<ul>\n<li><strong>Docling<\/strong>: Erreicht genaue Inhaltsverzeichnisrekonstruktion mit 100% Textgenaugkeit, verwendet ein Tabellenformat mit gepunkteten Linien, untersch\u00e4tzt aber die Bedeutung von &#8222;Inhalt&#8220; mit ##. Dies macht es trotz kleinerer Formatierungsprobleme sehr effektiv f\u00fcr die Navigation.<\/li>\n<li><strong>Unstructured<\/strong>: Versagt dramatisch, erfasst nur &#8222;Inhalt&#8220; mit einer leeren Tabelle, verpasst alle Eintr\u00e4ge und Seitenzahlen (z.B. UPS 2023 Inhaltsverzeichnis). Dies zeigt eine erhebliche Schw\u00e4che im Umgang mit zweispaltigen Layouts und gepunkteten Linientrennern.<\/li>\n<li><strong>LlamaParse<\/strong>: Kann nicht effektiv rekonstruieren, obwohl es eine Aufz\u00e4hlungsliste mit gepunkteten Linien und korrektem Text verwendet, ordnet &#8222;Inhalt&#8220; mit # ein. Seine Unf\u00e4higkeit, die Struktur vollst\u00e4ndig zu reproduzieren, begrenzt seinen Nutzen im Vergleich zu Docling.<\/li>\n<\/ul>\n<p><strong>Leistungsmetrik (Verarbeitungsgeschwindigkeit):<\/strong><\/p>\n<ul>\n<li><strong>Docling<\/strong>: Bietet moderate Geschwindigkeit (6,28s f\u00fcr 1 Seite, 65,12s f\u00fcr 50 Seiten) mit linearer Skalierung, balanciert Genauigkeit und Effizienz. Dies macht es gut geeignet f\u00fcr Verarbeitung im Unternehmensma\u00dfstab, wo vorhersehbare Leistung entscheidend ist.<\/li>\n<li><strong>Unstructured<\/strong>: Hat erhebliche Geschwindigkeitsprobleme (51,06s f\u00fcr 1 Seite, 141,02s f\u00fcr 50 Seiten), zeigt inkonsistente Skalierung. Diese Ineffizienz untergr\u00e4bt seine ansonsten anst\u00e4ndige Genauigkeit und macht es weniger praktisch f\u00fcr Workflows mit gro\u00dfen Datenmengen.<\/li>\n<li><strong>LlamaParse<\/strong>: Exzelliert in Geschwindigkeit (~6s konstant, selbst f\u00fcr 50 Seiten), zeigt bemerkenswerte Skalierbarkeit. Diese Effizienz positioniert es als starken Kandidaten f\u00fcr schnelle Verarbeitung, obwohl seine Genauigkeitseinbu\u00dfen seine Verwendung auf einfachere Dokumente beschr\u00e4nken.<\/li>\n<\/ul>\n<h2 id=\"Fazit\">6. Fazit<\/h2>\n<p>Basierend auf unseren Benchmark-Ergebnissen, einschlie\u00dflich der Erkenntnisse zur Verarbeitungsgeschwindigkeit, erweist sich <strong>Docling als die robusteste L\u00f6sung f\u00fcr die Verarbeitung komplexer Gesch\u00e4ftsdokumente<\/strong>. Es bietet hohe Textextraktionsgenauigkeit, \u00fcberlegene Tabellenstrukturerhaltung und effektive Inhaltsverzeichnisrekonstruktion, unterst\u00fctzt durch moderate und vorhersehbare Verarbeitungsgeschwindigkeiten (z.B. 6,28s f\u00fcr 1 Seite, linear skalierend auf 65,12s f\u00fcr 50 Seiten). Der Einsatz fortschrittlicher Modelle wie DocLayNet und TableFormer gew\u00e4hrleistet die zuverl\u00e4ssige Verarbeitung verschiedener Dokumentelemente, mit nur geringf\u00fcgigen Ausnahmen (z.B. &#8222;5&#8220; in der Bayer-Tabelle). Diese Balance aus Pr\u00e4zision, struktureller Integrit\u00e4t und effizienter Leistung macht Docling zur empfohlenen Wahl f\u00fcr Anwendungen, die Skalierbarkeit und Genauigkeit erfordern, wie Unternehmensdatenverarbeitung und Business Intelligence.<\/p>\n<p><strong>Unstructured<\/strong> funktioniert gut bei der Extraktion von Text und einfachen Tabellen und erreicht in simplen Anwendungsf\u00e4llen eine numerische Genauigkeit von 100%, aber Inkonsistenzen wie Spaltenverschiebungen in komplexen Tabellen und unvollst\u00e4ndige Inhaltsverzeichniserstellung schr\u00e4nken die Zuverl\u00e4ssigkeit ein. Die deutlich langsamere Geschwindigkeit (z.B. 51,06s f\u00fcr 1 Seite, 141,02s f\u00fcr 50 Seiten) beeintr\u00e4chtigt zus\u00e4tzlich die Praktikabilit\u00e4t, was darauf hindeutet, dass Unstructured am besten f\u00fcr weniger komplexe Dokumente oder Szenarien geeignet ist, in denen Geschwindigkeit und Ressourcenbeschr\u00e4nkungen nicht entscheidend sind. Eine Verbesserung der Geschwindigkeitsineffizienzen und des strukturellen Parsings k\u00f6nnte die Wettbewerbsf\u00e4higkeit steigern.<\/p>\n<p><strong>LlamaParse<\/strong> zeichnet sich durch die au\u00dfergew\u00f6hnliche Verarbeitungsgeschwindigkeit aus (~6s konstant \u00fcber alle Seitenzahlen), bietet die h\u00f6chste Effizienz und Skalierbarkeit. Das Tool funktioniert angemessen f\u00fcr grundlegende Extraktionen, mit starker numerischer Genauigkeit bei einfachen Tabellen und Texten, hat aber Schwierigkeiten mit komplexer Formatierung (z.B. mehrspaltiger Text, komplizierte Tabellen) und Inhaltsverzeichnisrekonstruktion. Der Geschwindigkeitsvorteil macht es ideal f\u00fcr leichte, unkomplizierte Aufgaben, aber die strukturellen Schw\u00e4chen und Einbu\u00dfen bei der Genauigkeit machen es im Vergleich zu Docling weniger geeignet f\u00fcr umfassende Dokumentenverarbeitung.<\/p>\n<p>F\u00fcr Anwendungen, die Pr\u00e4zision, Effizienz und strukturelle Integrit\u00e4t priorisieren \u2013 entscheidend f\u00fcr Gesch\u00e4ftsanalysen \u2013 bleibt Docling die optimale L\u00f6sung. Die lineare Geschwindigkeitsskalierung stellt sicher, dass gro\u00dfe Dokumente effektiv verarbeitet werden k\u00f6nnen, w\u00e4hrend LlamaParses z\u00fcgige Verarbeitung eine Nische f\u00fcr schnelle, einfache Extraktionen bietet. Unstructured ben\u00f6tigt trotz des Potenzials erhebliche Optimierungen in Geschwindigkeit und Tabellenverarbeitung, um konkurrenzf\u00e4hig zu sein. Zuk\u00fcnftige Verbesserungen f\u00fcr Unstructured k\u00f6nnten sich auf die Reduzierung der Verarbeitungszeiten und die Verbesserung der Tabellenanalyse konzentrieren, w\u00e4hrend LlamaParse von einer besseren Strukturerkennung profitieren k\u00f6nnte, um den Geschwindigkeitsvorteil in breiteren Anwendungen anzuwenden.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Umfassender Vergleich von PDF-Extraktionsl\u00f6sungen f\u00fcr Nachhaltigkeitsberichte: Analyse von Textgenauigkeit, Tabellenextraktion und Verarbeitungsgeschwindigkeit. Entdecken Sie die optimale Technologie f\u00fcr Ihre ESG-Datenverarbeitungsprozesse.<\/p>\n","protected":false},"author":2,"featured_media":16281,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[26],"tags":[61,59,62,60],"class_list":["post-16282","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-digitization-de","tag-esg-datenautomatisierung","tag-ki-dokumentenverarbeitung","tag-nachhaltigkeitsberichtanalyse","tag-pdf-datenextraktion"],"acf":[],"_links":{"self":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16282","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/comments?post=16282"}],"version-history":[{"count":18,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16282\/revisions"}],"predecessor-version":[{"id":17766,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16282\/revisions\/17766"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/media\/16281"}],"wp:attachment":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/media?parent=16282"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/categories?post=16282"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/tags?post=16282"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}