{"id":16762,"date":"2025-07-06T12:41:03","date_gmt":"2025-07-06T11:41:03","guid":{"rendered":"https:\/\/procycons.com\/?p=16762"},"modified":"2025-07-09T10:41:49","modified_gmt":"2025-07-09T09:41:49","slug":"long-document-classification-benchmark-2025","status":"publish","type":"post","link":"https:\/\/procycons.com\/de\/blogs\/long-document-classification-benchmark-2025\/","title":{"rendered":"Long Document Classification 2025: XGBoost vs BERT Benchmark &#8211; Kompletter Leitfaden f\u00fcr KI-Textklassifikation"},"content":{"rendered":"<p><em>Artikel maschinell aus dem <a style=\"color: blue;\" href=\"https:\/\/procycons.com\/en\/blogs\/long-document-classification-benchmark-2025\/\">Englischen<\/a> \u00fcbersetzt<\/em><\/p>\n<h2>Was ist Klassifikation langer Dokumente?<\/h2>\n<p style=\"text-align: justify;\">Die Klassifikation langer Dokumente ist ein spezialisiertes Teilgebiet der Dokumentenklassifikation im Natural Language Processing (NLP), das sich auf die Kategorisierung von Dokumenten mit 1.000+ W\u00f6rtern (2+ Seiten) konzentriert, wie etwa wissenschaftliche Arbeiten, Rechtsvertr\u00e4ge und technische Berichte. Anders als bei kurzen Texten stellen lange Dokumente besondere Herausforderungen dar: begrenzte Eingabel\u00e4ngen (z. B. 512 Token bei BERT), Verlust kontextueller Koh\u00e4renz beim Aufteilen des Dokuments, hohe Rechenkosten und die Notwendigkeit komplexer Label-Strukturen wie Multi-Label- oder hierarchische Klassifikation.<\/p>\n<h2>Zusammenfassung<\/h2>\n<p style=\"text-align: justify;\">Diese Benchmark-Studie evaluiert verschiedene Ans\u00e4tze zur Klassifikation langer Dokumente (7.000-14.000 W\u00f6rter \u2248 14-28 Seiten \u2248 kurze bis mittlere wissenschaftliche Arbeiten) in 11 akademischen Kategorien. <strong>XGBoost<\/strong><strong>\u00a0erwies sich als vielseitigste L\u00f6sung<\/strong> und erreichte F1-Werte (ausgewogenes Ma\u00df aus Precision und Recall) von 75-86 mit vern\u00fcnftigen Rechenanforderungen (Chen und Guestrin, 2016). <strong>Logistic Regression <\/strong><strong>bietet das beste Effizienz-Leistungs-Verh\u00e4ltnis<\/strong> f\u00fcr ressourcenbeschr\u00e4nkte Umgebungen mit Trainingszeiten unter 20 Sekunden bei konkurrenzf\u00e4higer Genauigkeit (Genkin, Lewis und Madigan, 2005). \u00dcberraschenderweise <strong>schnitt RoBERTa-base<\/strong><strong>\u00a0deutlich schlechter ab<\/strong> trotz seines allgemeinen Rufs, w\u00e4hrend traditionelle maschinelle Lernverfahren sich als hochgradig konkurrenzf\u00e4hig gegen\u00fcber fortgeschrittenen Transformer-Modellen erwiesen (Liu et al., 2019).<\/p>\n<p style=\"text-align: justify;\">Unsere Experimente analysierten 27.000+ Dokumente in vier Komplexit\u00e4tskategorien, von einfachem Keyword-Matching bis hin zu Large Language Models, und zeigten, dass <strong>traditionelle ML-Methoden oft ausgefeiltere Transformer \u00fcbertreffen und dabei 10x weniger Rechenressourcen verwenden<\/strong>. Diese \u00fcberraschenden Ergebnisse stellen die g\u00e4ngige Annahme in Frage, dass komplexe Modelle f\u00fcr die Klassifikation langer Dokumente notwendig sind.<\/p>\n<h3>Schnelle Empfehlungen<\/h3>\n<ul>\n<li style=\"text-align: justify;\"><strong>Insgesamt beste<\/strong>: XGBoost (F1: 86%, schnelles Training)<\/li>\n<li style=\"text-align: justify;\"><strong>Effizienteste<\/strong>: Logistic Regression (trainiert in &lt;20s)<\/li>\n<li style=\"text-align: justify;\"><strong>Bei verf\u00fcgbarer GPU<\/strong>: BERT-base (Devlin et. al, 2019)\u00a0(F1: 82%, aber langsamer)<\/li>\n<li style=\"text-align: justify;\"><strong>Zu vermeiden<\/strong>: Keyword-basierte Methoden, RoBERTa-base<\/li>\n<\/ul>\n<h3>Studienmethodik &amp; Glaubw\u00fcrdigkeit<\/h3>\n<ul>\n<li style=\"text-align: justify;\"><strong>Datensatzgr\u00f6\u00dfe<\/strong>: 27.000+ Dokumente in 11 akademischen Kategorien [<a href=\"#ref1\">Download<\/a>]<\/li>\n<li style=\"text-align: justify;\"><strong>Hardware-Spezifikation<\/strong>: 15x vCPUs, 45GB RAM, NVIDIA Tesla V100S 32GB<\/li>\n<li style=\"text-align: justify;\"><strong>Reproduzierbarkeit<\/strong>: Alle Code und Konfigurationen sind auf <a href=\"#ref19\">GitHub<\/a> verf\u00fcgbar<\/li>\n<\/ul>\n<h3>Wichtige Forschungsergebnisse (Verifizierte Ergebnisse)<\/h3>\n<ul>\n<li style=\"text-align: justify;\">XGBoost erreichte einen 86% F1-Wert bei 27.000 akademischen Dokumenten<\/li>\n<li style=\"text-align: justify;\">Traditionelle ML-Methoden trainieren 10x schneller als Transformer-Modelle<\/li>\n<li style=\"text-align: justify;\">BERT ben\u00f6tigt 2GB+ GPU-Speicher vs 100MB RAM f\u00fcr XGBoost<\/li>\n<li style=\"text-align: justify;\">RoBERTa-base erreichte nur einen 57% F1-Wert und blieb damit hinter den Erwartungen bei kleinen Datens\u00e4tzen zur\u00fcck<\/li>\n<li style=\"text-align: justify;\">Das Training transformer-basierter Modelle auf dem vollst\u00e4ndigen Datensatz ist aufgrund der extrem langen Trainingszeit (\u00fcber 4 Stunden) nicht gerechtfertigt. Bemerkenswerterweise steigt mit wachsendem Datenvolumen die Modellkomplexit\u00e4t und die Trainingszeit exponentiell an<\/li>\n<\/ul>\n<h3>Wie man die richtige Dokumentenklassifikationsmethode f\u00fcr lange Dokumente mit einer kleinen Anzahl von Beispielen (~100 bis 150 Beispiele) w\u00e4hlt<\/h3>\n<table style=\"border: 2px solid #333; border-collapse: collapse; width: 100%;\">\n<thead>\n<tr style=\"background-color: #4caf50; color: white;\">\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Kriterium<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Logistic Regression<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">XGBoost<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">BERT-base<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Bester Anwendungsfall<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Ressourcenbeschr\u00e4nkt<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Produktionssysteme<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Forschungsanwendungen<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Trainingszeit<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3 Sekunden<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">35 Sekunden<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">23 Minuten<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Genauigkeit (F1 %)<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">81<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">82<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Speicheranforderungen<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">50MB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">100MB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">2GB GPU RAM<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Implementierungsschwierigkeit<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Niedrig<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Mittel<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Hoch<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h2>Inhaltsverzeichnis<\/h2>\n<ol>\n<li><a href=\"#intro\">Einf\u00fchrung<\/a><\/li>\n<li><a href=\"#classification-methods\">Klassifikationsmethoden: Einfach bis Komplex<\/a><\/li>\n<li><a href=\"#technical-specification\">Technische Spezifikationen<\/a><\/li>\n<li><a href=\"#results\">Ergebnisse und Analyse<\/a><\/li>\n<li><a href=\"#deployment\">Bereitstellungs-Szenarien<\/a><\/li>\n<li><a href=\"#faq\">H\u00e4ufig gestellte Fragen<\/a><\/li>\n<li><a href=\"#conclusion\">Fazit<\/a><\/li>\n<\/ol>\n<h2 id=\"intro\">1. Einf\u00fchrung<\/h2>\n<p style=\"text-align: justify;\">Die Klassifikation langer Dokumente ist ein spezialisiertes Teilgebiet der Dokumentenklassifikation im Natural Language Processing (NLP). Im Kern geht es bei der Dokumentenklassifikation darum, einem gegebenen Dokument basierend auf seinem Inhalt eine oder mehrere vordefinierte Kategorien oder Labels zuzuweisen. Dies ist eine grundlegende Aufgabe f\u00fcr die effiziente Organisation, Verwaltung und Auffindung von Informationen in verschiedenen Bereichen, von Recht und Gesundheitswesen bis hin zu News und Kundenbewertungen.<\/p>\n<p style=\"text-align: justify;\">Bei der Klassifikation langer Dokumente bezieht sich &#8222;lang&#8220; auf die erhebliche L\u00e4nge der zu verarbeitenden Dokumente. W\u00e4hrend kurze Texte wie Tweets, Schlagzeilen oder einzelne S\u00e4tze nur wenige W\u00f6rter enthalten, k\u00f6nnen lange Dokumente mehrere Abs\u00e4tze, ganze Artikel, B\u00fccher oder sogar Rechtsvertr\u00e4ge umfassen. Diese Dokumentenl\u00e4nge f\u00fchrt zu besonderen Herausforderungen, mit denen traditionelle Textklassifikationsmethoden oft Schwierigkeiten haben.<\/p>\n<h3>Hauptherausforderungen bei der Klassifikation langer Dokumente<\/h3>\n<ul>\n<li style=\"text-align: justify;\"><strong>Kontextuelle Informationen<\/strong>: Lange Dokumente enthalten deutlich reichhaltigere und komplexere Kontexte. Sie genau zu verstehen und zu klassifizieren erfordert die Verarbeitung von Informationen, die sich \u00fcber mehrere S\u00e4tze und Abs\u00e4tze erstrecken, nicht nur wenige Keywords.<\/li>\n<li style=\"text-align: justify;\"><strong>Rechenkomplexit\u00e4t<\/strong>: Viele fortgeschrittene NLP-Modelle, insbesondere Transformer-basierte wie BERT, haben Grenzen bei der maximalen Eingabel\u00e4nge (so genannte Tokens), die sie effizient verarbeiten k\u00f6nnen. Ihre Self-Attention-Mechanismen sind zwar m\u00e4chtig f\u00fcr die Erfassung von Wortbeziehungen, werden aber rechnerisch teuer (O(N\u00b2)-Komplexit\u00e4t &#8211; w\u00e4chst exponentiell mit der Dokumentenl\u00e4nge) und speicherintensiv beim Umgang mit sehr langen Texten.<\/li>\n<li style=\"text-align: justify;\"><strong>Informationsdichte und -sp\u00e4rlichkeit<\/strong>: Obwohl lange Dokumente viele Informationen enthalten, sind die wichtigsten Features f\u00fcr die Klassifikation oft sp\u00e4rlich verteilt. Dadurch f\u00e4llt es Modellen schwer, diese wichtigen Signale zwischen gro\u00dfen Mengen weniger relevanter Inhalte zu erkennen und sich darauf zu konzentrieren.<\/li>\n<li style=\"text-align: justify;\"><strong>Erhaltung der Koh\u00e4renz<\/strong>: Ein g\u00e4ngiger Ansatz ist es, lange Dokumente in kleinere Segmente aufzuteilen. Dies kann jedoch den Fluss und Kontext unterbrechen, was es f\u00fcr Modelle schwieriger macht, die Gesamtbedeutung zu erfassen und genaue Klassifikationen vorzunehmen.<\/li>\n<\/ul>\n<h3>Studienziele<\/h3>\n<p style=\"text-align: justify;\">In dieser Benchmark-Studie evaluieren wir verschiedene Methoden zur Klassifikation langer Dokumente aus praktischer sowie entwicklungsorientierter Perspektive. Unser Ziel ist es zu identifizieren, welcher Ansatz die einzigartigen Herausforderungen der Verarbeitung langer Dokumente am besten bew\u00e4ltigt, basierend auf folgenden Kriterien:<\/p>\n<ol>\n<li style=\"text-align: justify;\"><strong>Effizienz<\/strong>: Modelle sollten lange Dokumente effizient in Bezug auf Zeit und Speicher verarbeiten k\u00f6nnen<\/li>\n<li style=\"text-align: justify;\"><strong>Genauigkeit<\/strong>: Modelle sollten Dokumente auch bei gro\u00dfer L\u00e4nge genau klassifizieren k\u00f6nnen<\/li>\n<li style=\"text-align: justify;\"><strong>Robustheit<\/strong>: Modelle sollten robust gegen\u00fcber variierenden Dokumentenl\u00e4ngen und verschiedenen Arten der Informationsorganisation sein<\/li>\n<\/ol>\n<p><span data-teams=\"true\">\t\t<div data-elementor-type=\"container\" data-elementor-id=\"16324\" class=\"elementor elementor-16324\" data-elementor-post-type=\"elementor_library\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-0e9d192 elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"0e9d192\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;background_background&quot;:&quot;classic&quot;}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-09d4dc5\" data-id=\"09d4dc5\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-inner-section elementor-element elementor-element-b61c536 elementor-section-full_width elementor-section-height-default elementor-section-height-default\" data-id=\"b61c536\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-af082c2\" data-id=\"af082c2\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-c482e7b elementor-widget elementor-widget-heading\" data-id=\"c482e7b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<div class=\"elementor-heading-title elementor-size-default\">Optimieren Sie Ihre Dokumentenklassifikation mit professioneller KI-Beratung<\/div>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-bd5891a elementor-widget elementor-widget-text-editor\" data-id=\"bd5891a\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Erreichen Sie h\u00f6chste Genauigkeit bei minimalen Kosten durch unsere bew\u00e4hrten Machine Learning-L\u00f6sungen<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-5b7f964\" data-id=\"5b7f964\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-ec9b4e1 elementor-align-right greenbtn elementor-tablet-align-center elementor-mobile-align-justify elementor-widget-mobile__width-initial elementor-widget elementor-widget-button\" data-id=\"ec9b4e1\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"button.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<div class=\"elementor-button-wrapper\">\n\t\t\t\t\t<a class=\"elementor-button elementor-button-link elementor-size-sm\" href=\"https:\/\/procycons.com\/de\/kontakt\/\">\n\t\t\t\t\t\t<span class=\"elementor-button-content-wrapper\">\n\t\t\t\t\t\t\t\t\t<span class=\"elementor-button-text\">Kontakt aufnehmen<\/span>\n\t\t\t\t\t<\/span>\n\t\t\t\t\t<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t<\/span><\/p>\n<h2 id=\"classification methods\">2. Klassifikationsmethoden: Einfach bis Komplex<\/h2>\n<p style=\"text-align: justify;\">Dieser Abschnitt pr\u00e4sentiert vier Kategorien von Klassifikationsmethoden, die von einfachem Keyword-Matching bis hin zu ausgekl\u00fcgelten Sprachmodellen reichen. Jede Methode repr\u00e4sentiert unterschiedliche Kompromisse zwischen Genauigkeit, Geschwindigkeit und Umsetzungsaufwand.<\/p>\n<h3>2.1 Einfache Methoden (Kein Training erforderlich)<\/h3>\n<p style=\"text-align: justify;\">Diese Methoden sind schnell zu implementieren und funktionieren gut, wenn die Dokumente relativ einfach und nicht strukturell komplex sind. Typischerweise regelbasiert, musterbasiert oder Keyword-basiert ben\u00f6tigen sie keine Trainingszeit, was sie besonders robust gegen\u00fcber \u00c4nderungen in der Anzahl der Labels macht.<\/p>\n<p><strong>Wann zu verwenden<\/strong>: Bekannte Dokumentstrukturen, schnelle Prototypenerstellung oder wenn keine Trainingsdaten verf\u00fcgbar sind.<br \/>\n<strong>Hauptvorteil<\/strong>: Null Trainingszeit und hohe Interpretierbarkeit.<br \/>\n<strong>Haupteinschr\u00e4nkung<\/strong>: Schlechte Leistung bei komplexen oder nuancierten Klassifikationsaufgaben.<\/p>\n<h4>Keyword-basierte Klassifikation<\/h4>\n<p>Der Prozess beginnt mit der Extraktion repr\u00e4sentativer Keywords f\u00fcr jede Kategorie aus dem Dokumentensatz. W\u00e4hrend des Tests (oder der Vorhersage) folgt die Klassifikation diesen grundlegenden Schritten:<\/p>\n<ol>\n<li style=\"text-align: justify;\">Tokenisierung des Dokuments<\/li>\n<li style=\"text-align: justify;\">Z\u00e4hlung der Keyword-Treffer f\u00fcr jede Kategorie<\/li>\n<li style=\"text-align: justify;\">Zuordnung des Dokuments zur Kategorie mit der h\u00f6chsten Trefferanzahl oder Keyword-Dichte<\/li>\n<\/ol>\n<p style=\"text-align: justify;\">Fortgeschrittenere Tools wie YAKE (Yet Another Keyword Extractor) [<a href=\"#ref17\">5<\/a>] k\u00f6nnen zur Automatisierung der Keyword-Extraktion verwendet werden. Zus\u00e4tzlich k\u00f6nnen, wenn Kategorienamen im Voraus bekannt sind, externe Keywords &#8211; solche, die nicht in den Dokumenten gefunden werden &#8211; mit Hilfe intelligenter Modelle zu den Keyword-Sets hinzugef\u00fcgt werden.<\/p>\n<div style=\"text-align: center;\">\n<h4>Keyword-basierte Klassifikationsdiagramm<\/h4>\n<p><img fetchpriority=\"high\" decoding=\"async\" class=\"alignnone size-full wp-image-16780\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2.jpg\" alt=\"Keyword-basierte Klassifikation\" width=\"2330\" height=\"114\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2.jpg 2330w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-300x15.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-1024x50.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-150x7.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-768x38.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-1536x75.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Keyword-2-2048x100.jpg 2048w\" sizes=\"(max-width: 2330px) 100vw, 2330px\" \/><\/p>\n<\/div>\n<h4>TF-IDF (Term Frequency-Inverse Document Frequency) + \u00c4hnlichkeit<\/h4>\n<p style=\"text-align: justify;\">Obwohl es TF-IDF-Vektoren verwendet, erfordert es kein Training eines maschinellen Lernmodells. Stattdessen w\u00e4hlen Sie einige repr\u00e4sentative Dokumente f\u00fcr jede Kategorie aus &#8211; oft sind nur 2 oder 3 Beispiele pro Kategorie ausreichend &#8211; und berechnen deren TF-IDF-Vektoren, die die Wichtigkeit jedes Wortes innerhalb des Dokuments relativ zum Rest des Korpus widerspiegeln.<\/p>\n<p style=\"text-align: justify;\">Als n\u00e4chstes berechnen Sie f\u00fcr jede Kategorie einen mittleren TF-IDF-Vektor, um ein typisches Dokument in dieser Klasse zu repr\u00e4sentieren. Beim Testen wandeln Sie das neue Dokument in einen TF-IDF-Vektor um und berechnen seine Kosinus-\u00c4hnlichkeit mit dem mittleren Vektor jeder Kategorie. Die Kategorie mit dem h\u00f6chsten \u00c4hnlichkeitswert wird als vorhergesagtes Label ausgew\u00e4hlt.<\/p>\n<p style=\"text-align: justify;\">Dieser Ansatz ist besonders effektiv f\u00fcr lange Dokumente, da er den gesamten Inhalt ber\u00fccksichtigt, anstatt sich auf eine begrenzte Anzahl von Keywords zu konzentrieren. Er ist auch robuster als einfaches Keyword-Matching und vermeidet dennoch die Notwendigkeit f\u00fcr \u00fcberwachtes Training.<\/p>\n<div style=\"text-align: center;\">\n<h4>TF-IDF-basiertes Klassifikationsdiagramm<\/h4>\n<p><img decoding=\"async\" class=\"alignnone size-full wp-image-16711\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1.jpg\" alt=\"TF-IDF-basiertes Klassifikationsdiagramm\" width=\"2162\" height=\"122\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1.jpg 2162w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-300x17.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-1024x58.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-150x8.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-768x43.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-1536x87.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/TFIDF-1-2048x116.jpg 2048w\" sizes=\"(max-width: 2162px) 100vw, 2162px\" \/><\/p>\n<p>&nbsp;<\/p>\n<\/div>\n<p style=\"text-align: justify;\"><strong>Empfohlenes Vorgehen<\/strong>: Wenn einfache Methoden Ihre Genauigkeitsanforderungen erf\u00fcllen, fahren Sie mit der Keyword-Extraktion mit YAKE oder manueller Auswahl fort. Andernfalls ziehen Sie traditionelle ML-Verfahren f\u00fcr bessere Leistung in Betracht.<\/p>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Einfache Methoden bieten schnelle Implementierung und null Trainingszeit, leiden aber unter schlechter Genauigkeit bei komplexen Klassifikationsaufgaben. Am besten geeignet f\u00fcr gut strukturierte Dokumente mit klaren Keyword-Mustern.<\/p>\n<h3>2.2 Traditionelle ML-Verfahren<\/h3>\n<p style=\"text-align: justify;\">Nachdem wir einfache Methoden behandelt haben, untersuchen wir nun traditionelle ML-Verfahren, die Training erfordern, aber deutlich bessere Leistung bieten.<\/p>\n<p><strong>Wann zu verwenden<\/strong>: Wenn Sie gelabelte Trainingsdaten haben und zuverl\u00e4ssige, schnelle Klassifikation ben\u00f6tigen.<br \/>\n<strong>Hauptvorteil<\/strong>: Ausgezeichnete Balance zwischen Genauigkeit, Geschwindigkeit und Ressourcenanforderungen.<br \/>\n<strong>Haupteinschr\u00e4nkung<\/strong>: Erfordert Feature Engineering und Trainingsdaten.<\/p>\n<p style=\"text-align: justify;\">Eine der einfachsten und bew\u00e4hrtesten Methoden f\u00fcr Dokumentenklassifikation &#8211; besonders als Referenzwert &#8211; ist die Kombination aus TF-IDF-Vektorisierung mit traditionellen maschinellen Lernklassifikatoren wie Logistic Regression, Support Vector Machines (SVMs) oder XGBoost. Trotz ihrer Einfachheit bleibt diese Methode eine konkurrenzf\u00e4hige Option f\u00fcr viele reale Anwendungen, besonders wenn Interpretierbarkeit, Geschwindigkeit und einfache Bereitstellung priorisiert werden.<\/p>\n<h4>Methoden\u00fcberblick<\/h4>\n<p style=\"text-align: justify;\">Das Verfahren ist einfach: Der Dokumententext wird mit TF-IDF in eine numerische Form umgewandelt, die erfasst, wie wichtig ein Wort relativ zu einem Korpus ist. Dies erzeugt einen sp\u00e4rlichen Vektor gewichteter Wortz\u00e4hlungen.<\/p>\n<p>Der resultierende Vektor wird dann an einen klassischen Klassifikator weitergegeben, typischerweise:<\/p>\n<ul style=\"text-align: justify;\">\n<li><strong>Logistic Regression<\/strong> f\u00fcr lineare Trennbarkeit und schnelles Training<\/li>\n<li><strong>SVM<\/strong> f\u00fcr komplexere Grenzen<\/li>\n<li><strong>XGBoost<\/strong> f\u00fcr hochperformante, baumbasierte Modellierung<\/li>\n<\/ul>\n<p style=\"text-align: justify;\">Das Modell lernt, Wortpr\u00e4senz- und H\u00e4ufigkeitsmuster mit den gew\u00fcnschten Output-Labels zu verkn\u00fcpfen (z.B. Themenkategorien oder Dokumenttypen).<\/p>\n<h4>Umgang mit langen Dokumenten<\/h4>\n<p style=\"text-align: justify;\">Standardm\u00e4\u00dfig kann TF-IDF das gesamte Dokument auf einmal verarbeiten, was es f\u00fcr lange Texte ohne die Notwendigkeit komplexer Segmentierungs- oder Truncation-Strategien geeignet macht. Wenn Dokumente jedoch extrem lang sind (z.B. \u00fcber 5.000-10.000 W\u00f6rter), kann es vorteilhaft sein:<\/p>\n<ol>\n<li>Das Dokument in kleinere Segmente aufzuteilen (z.B. 1.000-2.000 W\u00f6rter)<\/li>\n<li>Jeden Abschnitt einzeln zu klassifizieren<\/li>\n<li>Und dann Ergebnisse mit Mehrheitswahl oder durchschnittlichen Konfidenz-Werten zu aggregieren<\/li>\n<\/ol>\n<p style=\"text-align: justify;\">Diese Segmentierungsstrategie kann die Stabilit\u00e4t verbessern und sp\u00e4rliche Vektorprobleme mildern, w\u00e4hrend sie rechnerisch effizient bleibt.<\/p>\n<div style=\"text-align: center;\">\n<h4>ML-basiertes Klassifikationsdiagramm<\/h4>\n<p><img decoding=\"async\" class=\"alignnone size-full wp-image-16709\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2.jpg\" alt=\"ML-basiertes Klassifikationsdiagramm\" width=\"2266\" height=\"122\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2.jpg 2266w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-300x16.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-1024x55.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-150x8.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-768x41.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-1536x83.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/ML-2-2048x110.jpg 2048w\" sizes=\"(max-width: 2266px) 100vw, 2266px\" \/><\/p>\n<p>&nbsp;<\/p>\n<\/div>\n<p style=\"text-align: justify;\"><strong>Empfohlenes Vorgehen<\/strong>: Beginnen Sie mit Logistic Regression f\u00fcr Referenz-Leistung, dann probieren Sie XGBoost f\u00fcr optimale Genauigkeit. Verwenden Sie 5-fache Kreuzvalidierung mit stratifiziertem Sampling f\u00fcr robuste Evaluation.<\/p>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Traditionelle ML-Verfahren zeigen die beste Balance zwischen Genauigkeit und Effizienz. XGBoost liefert konstant Spitzenleistung, w\u00e4hrend Logistic Regression in ressourcenbeschr\u00e4nkten Umgebungen gl\u00e4nzt.<\/p>\n<h3>2.3 Transformer-basierte Verfahren<\/h3>\n<p style=\"text-align: justify;\">\u00dcber traditionelle Ans\u00e4tze hinausgehend erkunden wir transformer-basierte Methoden, die vortrainiertes Sprachverst\u00e4ndnis nutzen.<\/p>\n<p><strong>Wann zu verwenden<\/strong>: Wenn maximale Genauigkeit ben\u00f6tigt wird und GPU-Ressourcen verf\u00fcgbar sind.<br \/>\n<strong>Hauptvorteil<\/strong>: Tiefes Sprachverst\u00e4ndnis und hohes Genauigkeitspotential.<br \/>\n<strong>Haupteinschr\u00e4nkung<\/strong>: Rechenintensit\u00e4t und 512-Token-Limit, das Segmentierung erfordert.<\/p>\n<p style=\"text-align: justify;\">F\u00fcr viele Klassifikationsaufgaben mit m\u00e4\u00dfig langen Dokumenten &#8211; typischerweise im Bereich von 300 bis 1.500 W\u00f6rtern &#8211; stellen feinabgestimmte Transformer-Modelle wie BERT, DistilBERT (Sanh et al., 2019) und RoBERTa eine hocheffektive und zug\u00e4ngliche L\u00f6sung dar. Diese Modelle schlagen eine Br\u00fccke zwischen traditionellen maschinellen Lernans\u00e4tzen und gro\u00dfskaligen Modellen wie Longformer oder GPT-4.<\/p>\n<h4>Architektur und Training<\/h4>\n<p style=\"text-align: justify;\">Im Kern sind diese Modelle vortrainierte Sprachmodelle, die allgemeine sprachliche Muster aus gro\u00dfen Korpora wie Wikipedia und BookCorpus gelernt haben. Wenn sie f\u00fcr Dokumentenklassifikation feinabgestimmt werden, wird die Architektur durch Hinzuf\u00fcgung eines einfachen Klassifikationskopfes &#8211; meist eine dichte Schicht &#8211; auf der gepoolten Ausgabe des Transformers erweitert.<\/p>\n<p style=\"text-align: justify;\">Die Feinabstimmung beinhaltet das Training dieses erweiterten Modells auf einem gelabelten Datensatz f\u00fcr eine spezifische Aufgabe, wie die Klassifikation von Berichten in Kategorien wie Finanzen, Nachhaltigkeit oder Recht. W\u00e4hrend des Trainings passt das Modell sowohl den Klassifikationskopf als auch (optional) die internen Transformer-Gewichte basierend auf aufgabenspezifischen Beispielen an.<\/p>\n<h4>Umgang mit L\u00e4ngenbeschr\u00e4nkungen<\/h4>\n<p style=\"text-align: justify;\">Eine Schl\u00fcsseleinschr\u00e4nkung von Standard-Transformern wie BERT und DistilBERT ist, dass sie nur Sequenzen bis zu 512 Token unterst\u00fctzen. F\u00fcr lange Dokumente muss diese Beschr\u00e4nkung angegangen werden durch:<\/p>\n<ul>\n<li style=\"text-align: justify;\"><strong>Truncation<\/strong>: Einfaches Abschneiden des Textes nach den ersten 512 Token. Schnell, aber kann kritische Informationen sp\u00e4ter im Dokument ignorieren.<\/li>\n<li style=\"text-align: justify;\"><strong>Segmentierung<\/strong>: Aufteilen des Dokuments in \u00fcberlappende oder sequentielle Segmente, individuelle Klassifikation jedes Abschnitts und anschlie\u00dfende Aggregation der Vorhersagen mit Mehrheitswahl, durchschnittlicher Konfidenz oder attention-basierter Gewichtung.<\/li>\n<li style=\"text-align: justify;\"><strong>Preprocessing und Datenvorbereitung<\/strong>: Bei diesem Ansatz werden lange Dokumente zuerst in k\u00fcrzere Texte (bis zu 512 Token) aufgebrochen mithilfe von Vorverarbeitungstechniken wie Keyword-Extraktion oder Zusammenfassung. W\u00e4hrend diese Methoden m\u00f6glicherweise etwas Koh\u00e4renz zwischen Segmenten opfern, bieten sie schnellere Trainings- und Klassifikationszeiten.<\/li>\n<\/ul>\n<p style=\"text-align: justify;\">W\u00e4hrend die Segmentierung Komplexit\u00e4t hinzuf\u00fcgt, erm\u00f6glicht sie diesen Modellen, Dokumente mit mehreren tausend W\u00f6rtern zu verarbeiten, w\u00e4hrend vern\u00fcnftige Leistung beibehalten wird.<\/p>\n<div style=\"text-align: center;\">\n<h4>Transformer-basiertes Klassifikationsdiagramm<\/h4>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-16719\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2.jpg\" alt=\"Transformer-basierte Klassifikation\" width=\"2342\" height=\"262\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2.jpg 2342w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-300x34.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-1024x115.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-150x17.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-768x86.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-1536x172.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/Transformer-2-2048x229.jpg 2048w\" sizes=\"(max-width: 2342px) 100vw, 2342px\" \/><\/p>\n<p>&nbsp;<\/p>\n<\/div>\n<p style=\"text-align: justify;\"><strong>Empfohlenes Vorgehen<\/strong>: Beginnen Sie mit DistilBERT f\u00fcr schnelleres Training, dann upgraden Sie zu BERT, wenn Genauigkeitsgewinne die Rechenkosten rechtfertigen. Implementieren Sie \u00fcberlappende Segmentierungsstrategien f\u00fcr Dokumente \u00fcber 512 Token.<\/p>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Transformer-Methoden bieten hohe Genauigkeit, erfordern aber erhebliche Rechenressourcen. BERT-base liefert gute Leistung, w\u00e4hrend RoBERTa-base \u00fcberraschend unterperformt, was die Wichtigkeit empirischer Evaluation \u00fcber Reputation hinaus betont.<\/p>\n<h3>2.4 Large Language Models<\/h3>\n<p>Schlie\u00dflich untersuchen wir die ausgefeiltesten Ans\u00e4tze mit Large Language Models f\u00fcr instruktionsbasierte Klassifikation.<\/p>\n<p><strong>Wann zu verwenden<\/strong>: Zero-Shot-Klassifikation, extrem lange Dokumente oder wenn Trainingsdaten begrenzt sind.<br \/>\n<strong>Hauptvorteil<\/strong>: Kein Training erforderlich, verarbeitet sehr lange Kontexte, hohe Genauigkeit.<br \/>\n<strong>Haupteinschr\u00e4nkung<\/strong>: Hohe API-Kosten, langsamere Inferenz und Internetverbindung erforderlich.<\/p>\n<p style=\"text-align: justify;\">Diese Methoden sind m\u00e4chtige Modelle, die komplexe Dokumente mit minimalem oder keinem Training verstehen k\u00f6nnen. Sie eignen sich f\u00fcr Aufgaben wie instruktionsbasierte oder Zero-Shot-Klassifikation.<\/p>\n<h4>API-basierte Klassifikation<\/h4>\n<p style=\"text-align: justify;\"><strong>OpenAI GPT-4 \/ Claude \/ Gemini 1.5<\/strong>: Dieser Ansatz nutzt die Instruktionsbefolgungsf\u00e4higkeit von Modellen wie GPT-4, Claude und Gemini durch API-Aufrufe. Diese Modelle k\u00f6nnen lange Kontext-Eingaben verarbeiten &#8211; bis zu 128.000 Token in einigen F\u00e4llen (was etwa 300+ Seiten Text \u2248 mehreren wissenschaftlichen Arbeiten entspricht).<\/p>\n<p style=\"text-align: justify;\">Die Methode ist konzeptionell einfach: Sie geben dem Modell den Dokumententext (oder einen erheblichen Teil davon) zusammen mit einem Prompt wie:<\/p>\n<p style=\"text-align: justify;\"><em>&#8222;Du bist ein Dokumentenklassifikationsassistent. Klassifiziere das unten stehende Dokument in eine der folgenden Kategorien: [Finanzen, Recht, Nachhaltigkeit].&#8220;<\/em><\/p>\n<p style=\"text-align: justify;\">Nach der Eingabe analysiert das LLM das Dokument in Echtzeit und gibt ein Label oder sogar einen Konfidenz-Wert zur\u00fcck, oft mit einer Erkl\u00e4rung.<\/p>\n<div style=\"text-align: center;\">\n<h4>LLM-basiertes Klassifikationsdiagramm<\/h4>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-16717\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2.jpg\" alt=\"LLM-basierte Klassifikation\" width=\"2080\" height=\"114\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2.jpg 2080w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-300x16.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-1024x56.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-150x8.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-768x42.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-1536x84.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/LLM-2-2048x112.jpg 2048w\" sizes=\"(max-width: 2080px) 100vw, 2080px\" \/><\/p>\n<\/div>\n<p>&nbsp;<\/p>\n<h4>RAG-erweiterte Klassifikation<\/h4>\n<p style=\"text-align: justify;\"><strong>LLMs kombiniert mit RAG (Retrieval-Augmented Generation)<\/strong>: Retrieval-Augmented Generation (RAG) ist ein fortgeschritteneres Architekturmuster, das ein vektorbasiertes Retrieval-System mit einem LLM kombiniert. So funktioniert es bei der Klassifikation:<\/p>\n<ul>\n<li style=\"text-align: justify;\">Zuerst wird das lange Dokument in kleinere, semantisch sinnvolle Abschnitte aufgeteilt (z.B. nach Abschnitten, \u00dcberschriften oder Abs\u00e4tzen)<\/li>\n<li style=\"text-align: justify;\">Jeder Abschnitt wird mit einem Embedding-Modell (wie OpenAIs text-embedding oder SentenceTransformers) in einen dichten Vektor eingebettet<\/li>\n<li style=\"text-align: justify;\">Diese Vektoren werden in einer Vektordatenbank (wie FAISS oder Pinecone) gespeichert<\/li>\n<li style=\"text-align: justify;\">Wenn Klassifikation ben\u00f6tigt wird, ruft das System nur die relevantesten Dokumentenabschnitte ab und \u00fcbergibt sie an ein LLM (wie GPT-4) zusammen mit einer Klassifikationsanweisung<\/li>\n<\/ul>\n<div style=\"text-align: center;\">\n<h4>LLM-basiertes + RAG Klassifikationsdiagramm<\/h4>\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone size-full wp-image-16777\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1.jpg\" alt=\"LLM+RAG Klassifikation\" width=\"2162\" height=\"546\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1.jpg 2162w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-300x76.jpg 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-1024x259.jpg 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-150x38.jpg 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-768x194.jpg 768w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-1536x388.jpg 1536w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/RAG-3-1-2048x517.jpg 2048w\" sizes=\"(max-width: 2162px) 100vw, 2162px\" \/><\/p>\n<\/div>\n<p>&nbsp;<\/p>\n<p style=\"text-align: justify;\">Diese Methode erm\u00f6glicht es Ihnen, lange Dokumente effizient und skalierbar zu verarbeiten, w\u00e4hrend Sie trotzdem von der Kraft gro\u00dfer Modelle profitieren.<\/p>\n<p style=\"text-align: justify;\"><strong>Empfohlenes Vorgehen<\/strong>: Beginnen Sie mit einfacheren Prompting-Strategien, bevor Sie RAG implementieren. Ber\u00fccksichtigen Sie die Kosteneffizienz im Vergleich zu feinabgestimmten Modellen f\u00fcr Ihren spezifischen Anwendungsfall.<\/p>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: LLM-Methoden bieten m\u00e4chtige Zero-Shot-F\u00e4higkeiten f\u00fcr lange Dokumente, bringen aber hohe API-Kosten und Latenz mit sich. Am besten geeignet f\u00fcr Szenarien, in denen Trainingsdaten begrenzt sind oder extrem lange Kontextverarbeitung erforderlich ist.<\/p>\n<h3>2.5 Modellvergleichs\u00fcbersicht<\/h3>\n<p style=\"text-align: justify;\">Die folgende Tabelle bietet einen umfassenden \u00dcberblick \u00fcber alle Klassifikationsmethoden und vergleicht ihre F\u00e4higkeiten, Ressourcenanforderungen und optimalen Anwendungsf\u00e4lle, um bei der Auswahl zu helfen.<\/p>\n<table style=\"border: 2px solid #333; border-collapse: collapse; width: 100%;\">\n<thead>\n<tr style=\"background-color: #2196f3; color: white;\">\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Methoden<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Modell\/Klasse<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Max Tokens<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Segmentierung n\u00f6tig?<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Einfachheit (1-5)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Genauigkeit (1-5)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Ressourcenverbrauch<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Am besten f\u00fcr<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"2\"><strong>Einfach<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Keyword\/Regex-Regeln<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">\u221e<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Nein<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">1 (Einfach)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">2 (Niedrig)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Minimal<\/strong> CPU &amp; RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Bekannte Struktur\/Formate (z.B. Recht)<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">TF-IDF + \u00c4hnlichkeit<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">\u221e<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Nein<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">2<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">2-3<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Niedrig<\/strong> CPU, ~150MB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Labeling basierend auf wenigen Beispielen<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Traditionell<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">TF-IDF + ML<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">\u221e (ganzes Dokument)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Optional<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">1 (Einfach)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3 (Gut)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Niedrig<\/strong> CPU, ~100MB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Schnelle Referenzwerte, Prototyping<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"2\"><strong>Transformer-basiert<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">BERT \/ DistilBERT \/ RoBERTa<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">512 Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Ja<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4 (Hoch)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Ben\u00f6tigt GPU<\/strong> \/ ~1-2GB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Kurze\/mittlere Texte, Feinabstimmung m\u00f6glich<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">Longformer \/ BigBird<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4.096-16.000<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Nein<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">5 (H\u00f6chste)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>GPU (8GB+)<\/strong>, ~3-8GB RAM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Lange Berichte, tiefe Genauigkeit ben\u00f6tigt<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Large Language Models<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">GPT-4 \/ Claude \/ Gemini<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">32k-128k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Nein oder leicht<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4 (API-basiert)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">5 (H\u00f6chste)<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Hohe Kosten<\/strong>, API-Limits<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Zero-Shot-Klassifikation gro\u00dfer Dokumente<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Traditionelles ML (XGBoost) \u00fcbertrifft oft fortgeschrittene Transformer bei 10x weniger Ressourcenverbrauch.<\/p>\n<h3>2.6 Referenzierte Datens\u00e4tze &amp; Standards<\/h3>\n<p>Die folgenden Datens\u00e4tze bieten exzellente Benchmarks f\u00fcr das Testen von Klassifikationsmethoden f\u00fcr lange Dokumente:<\/p>\n<table style=\"border: 2px solid #333; border-collapse: collapse; width: 100%;\">\n<thead>\n<tr style=\"background-color: #ff9800; color: white;\">\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Datensatz<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">\u00d8 L\u00e4nge<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Bereich<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Seitenl\u00e4nge<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Kategorien<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Quelle<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">S2ORC<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3k-10k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Akademisch<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">6-20<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Dutzende<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref3link\" href=\"#ref3\">Semantic Scholar<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">ArXiv<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4k-14k W\u00f6rter<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Akademisch<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">8-28<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">38+<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref1link\" href=\"#ref1\">arXiv.org<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">BillSum<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">1,5k-6k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Regierung<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3-12<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Policy-Kategorien<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref4link\" href=\"#ref4\">FiscalNote<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">GOVREPORT<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">4k-10k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Regierung\/Finanzen<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">8-20<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Verschiedene<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref5link\" href=\"#ref5\">Regierungsbeh\u00f6rden<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">CUAD<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3k-10k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Recht<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">6-20<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Vertragsklauseln<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref6link\" href=\"#ref6\">Atticus Project<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">MIMIC-III<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">2k-5k Tokens<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Medizin<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">3-10<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Klinische Notizen<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref7link\" href=\"#ref7\">PhysioNet<\/a><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">SEC 10-K\/Q<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">10k-50k W\u00f6rter<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Finanzen<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">20-100<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Unternehmen\/Bereich<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><a id=\"ref8link\" href=\"#ref8\">SEC EDGAR<\/a><\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p style=\"text-align: justify;\"><strong>Kontext<\/strong>: Alle Datens\u00e4tze sind \u00f6ffentlich verf\u00fcgbar mit entsprechenden Lizenzvereinbarungen. Trainingszeiten variieren von 2 Stunden (kleine Datens\u00e4tze) bis 2 Tage (gro\u00dfe Datens\u00e4tze) auf Standard-Hardware.<\/p>\n<h2 id=\"technical specification\">3. Technische Spezifikationen<\/h2>\n<h3>3.1 Evaluationskriterien<\/h3>\n<p><strong>Genauigkeitsbewertung<\/strong>: Verwendung von Accuracy, Precision (echte Positive \/ vorhergesagte Positive), Recall (echte Positive \/ tats\u00e4chliche Positive) und F1-Wert (harmonisches Mittel aus Precision und Recall) Kriterien.<\/p>\n<p><strong>Ressourcen- und Zeitbewertung<\/strong>: Die Menge an Zeit und Ressourcen, die w\u00e4hrend Training und Testing verwendet werden.<\/p>\n<h3>3.2 Experimenteinstellungen<\/h3>\n<p><strong>Hardware-Konfiguration<\/strong>: 15x vCPUs, 45GB RAM, NVIDIA Tesla V100S 32GB.<\/p>\n<p><strong>Evaluationsmethodik<\/strong>: 5-fache Kreuzvalidierung mit stratifiziertem Sampling wurde verwendet, um robuste statistische Evaluation sicherzustellen.<\/p>\n<p><strong>Software-Bibliotheken<\/strong>: <a id=\"ref9link\" href=\"#ref9\">scikit-learn 1.3.0<\/a>, <a id=\"ref10link\" href=\"#ref10\">transformers 4.38.0<\/a>, <a id=\"ref11link\" href=\"#ref11\">PyTorch 2.7.1<\/a>, <a id=\"ref12link\" href=\"#ref12\">XGBoost 3.0.2<\/a><\/p>\n<h4>3.2.1 Datensatzauswahl<\/h4>\n<p>Wir verwenden den ArXiv-Datensatz mit 11 Labels, die die gr\u00f6\u00dfte L\u00e4ngenvariation bei akademischen Bereichen haben.<\/p>\n<p>&nbsp;<\/p>\n<div style=\"text-align: center;\">\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-16700\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1.png\" alt=\"Anzahl der Beispiele pro Kategorie\" width=\"711\" height=\"474\" srcset=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1.png 1200w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1-300x200.png 300w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1-1024x683.png 1024w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1-150x100.png 150w, https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset1-768x512.png 768w\" sizes=\"(max-width: 711px) 100vw, 711px\" \/><\/p>\n<\/div>\n<p style=\"text-align: justify;\"><strong>Dokumentenl\u00e4ngen-Kontext<\/strong>: Um diese Wortz\u00e4hlungen besser zu kontextualisieren, k\u00f6nnen wir sie in Seitenzahlen umwandeln, mit der Standardsch\u00e4tzung von 500 W\u00f6rtern pro Seite f\u00fcr doppelt zeilenabstandenen akademischen Text (14.000 W\u00f6rter \u2248 28 Seiten \u2248 kurze wissenschaftliche Arbeit). Nach diesem Ma\u00df:<\/p>\n<ul>\n<li>math.ST durchschnittlich etwa 28 Seiten<\/li>\n<li>math.GR und cs.DS sind etwa 25-26 Seiten<\/li>\n<li>cs.IT und math.AC durchschnittlich etwa 20-24 Seiten<\/li>\n<li>w\u00e4hrend cs.CV und cs.NE nur 14-15 Seiten durchschnittlich haben<\/li>\n<\/ul>\n<p style=\"text-align: justify;\">Diese erhebliche Variation zeigt Unterschiede in Schreibstilen, Dokumententiefe oder Forschungsberichtsnormen bei verschiedenen Fachbereichen. Bereiche wie Mathematik und theoretische Informatik tendieren dazu, umfassendere oder technisch dichtere Dokumente zu produzieren, w\u00e4hrend angewandte Bereiche wie Computer Vision pr\u00e4gnantere Kommunikation bevorzugen m\u00f6gen.<\/p>\n<p>&nbsp;<\/p>\n<div style=\"text-align: center;\">\n<p><img loading=\"lazy\" decoding=\"async\" class=\"alignnone wp-image-16700\" src=\"https:\/\/procycons.com\/wp-content\/uploads\/2025\/07\/dataset2.png\" alt=\"Anzahl der Beispiele pro Kategorie\" width=\"711\" height=\"474\" \/><\/p>\n<p>&nbsp;<\/p>\n<\/div>\n<h4>3.2.2 Datengr\u00f6\u00dfe und Training\/Test-Aufteilung<\/h4>\n<p><strong>Erwartete Trainingszeit auf Standard-Hardware<\/strong>: 30 Minuten bis 8 Stunden, abh\u00e4ngig von der Methodenkomplexit\u00e4t.<\/p>\n<p><strong>Mindest-Trainingsdatenanforderungen<\/strong>:<\/p>\n<ul>\n<li>Einfache Methoden: 50+ Beispiele pro Klasse<\/li>\n<li>Logistic Regression: 100+ Beispiele pro Klasse<\/li>\n<li>XGBoost: 1.000+ Beispiele f\u00fcr optimale Leistung<\/li>\n<li>BERT\/Transformer-Modelle: 2.000+ Beispiele pro Klasse<\/li>\n<\/ul>\n<p style=\"text-align: justify;\">In allen Experimenten wurden 30% der Daten als Testset reserviert. Um die Robustheit des Modells zu evaluieren, wurden mehrere Variationen des Datensatzes verwendet: die urspr\u00fcnglichen klassenverteilten Daten, ein ausgewogener Datensatz basierend auf der minimalen Klassengr\u00f6\u00dfe (~2.505 Beispiele) und zus\u00e4tzliche ausgewogene Datens\u00e4tze mit festen Gr\u00f6\u00dfen von 100, 140 und 1.000 Beispielen pro Klasse.<\/p>\n<h2 id=\"results\">4. Ergebnisse und Analyse<\/h2>\n<p style=\"text-align: justify;\">Unsere Experimente zeigen \u00fcberraschende Ergebnisse zu den Leistungs-Effizienz-Kompromissen bei der Klassifikation langer Dokumente.<\/p>\n<h3>Warum traditionelles ML Transformer \u00fcbertrifft<\/h3>\n<p>Unser Benchmark zeigt, dass traditionelle maschinelle Lernans\u00e4tze mehrere Vorteile bieten:<\/p>\n<ol>\n<li><strong>Rechnerische Effizienz<\/strong>: Verarbeitung ganzer Dokumente ohne Token-Limits<\/li>\n<li><strong>Trainingsgeschwindigkeit<\/strong>: 10x schnellere Trainingszeiten bei vergleichbarer Genauigkeit<\/li>\n<li><strong>Ressourcenanforderungen<\/strong>: Funktionieren effektiv auf Standard-CPU-Hardware<\/li>\n<li><strong>Skalierbarkeit<\/strong>: Verarbeitung gro\u00dfer Dokumentensammlungen ohne GPU-Infrastruktur<\/li>\n<\/ol>\n<h3>4.1 Leistungs-Rankings<\/h3>\n<p style=\"text-align: justify;\">Die vergleichende Evaluation bei vier Datens\u00e4tzen &#8211; Original, Balanced-2505, Balanced-140 und Balanced-100 &#8211; zeigt klare Leistungshierarchien:<\/p>\n<h4>Top-Performer nach F1-Wert:<\/h4>\n<p><strong>XGBoost<\/strong> <strong>erreichte die h\u00f6chsten F1-Werte bei drei Datens\u00e4tzen:<\/strong><\/p>\n<ul>\n<li><strong>Original<\/strong>: F1 = 86<\/li>\n<li><strong>Balanced-2505<\/strong>: F1 = 85<\/li>\n<li><strong>Balanced-100<\/strong>: F1 = 75<\/li>\n<\/ul>\n<p><strong>BERT-base<\/strong> <strong>war der Top-Performer beim Balanced-140 Datensatz:<\/strong><\/p>\n<ul>\n<li><strong>Balanced-140<\/strong>: F1 = <strong>82<\/strong> (vs. XGBoost: 81)<\/li>\n<\/ul>\n<p><strong>Logistic Regression und SVM lieferten ebenfalls konkurrenzf\u00e4hige Ergebnisse:<\/strong><\/p>\n<ul>\n<li>F1-Bereich: <strong>71&#8211;83<\/strong><\/li>\n<\/ul>\n<p><strong>DistilBERT-base<\/strong> <strong>hielt anst\u00e4ndige Leistung bei allen Settings:<\/strong><\/p>\n<ul>\n<li>F1 \u2248 <strong>75&#8211;77<\/strong><\/li>\n<\/ul>\n<p><strong>RoBERTa-base<\/strong> <strong>lieferte konstant schlechte Leistung:<\/strong><\/p>\n<ul>\n<li>F1 so niedrig wie <strong>57<\/strong>, besonders in datenarmen Umgebungen<\/li>\n<\/ul>\n<p><strong>Keyword-basierte Methoden<\/strong> hatten die niedrigsten F1-Werte (53&#8211;62)<\/p>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Obwohl XGBoost generell bei den meisten Datensatz-Szenarien am besten performt, \u00fcbertrifft BERT-base es leicht bei mittelgro\u00dfen Datens\u00e4tzen wie Balanced-140. Dies deutet darauf hin, dass Transformer-Modelle traditionelle maschinelle Lernmethoden \u00fcbertreffen k\u00f6nnen, wenn eine moderate Menge an Daten und ausreichende GPU-Ressourcen verf\u00fcgbar sind. Allerdings ist der Leistungsunterschied nicht signifikant, und XGBoost bleibt die ausgewogenste Option, die hohe Genauigkeit, Robustheit und rechnerische Effizienz bei verschiedenen Datensatzgr\u00f6\u00dfen bietet.<\/p>\n<h3>4.2 Kosten-Nutzen-Analyse jeder Methode<\/h3>\n<p>Eine eingehende Analyse der Trainings- und Inferenzzeiten zeigt eine gro\u00dfe Kluft in den Ressourcenanforderungen zwischen traditionellen ML-Methoden und transformer-basierten Modellen:<\/p>\n<h4>Trainings- und Inferenzzeiten:<\/h4>\n<p><strong>Effizienteste<\/strong><\/p>\n<ul>\n<li><strong>Logistic Regression<\/strong>:\n<ul>\n<li><strong>Training<\/strong>: 2&#8211;19 Sekunden bei allen Datens\u00e4tzen<\/li>\n<li><strong>Inferenz<\/strong>: ~0.01&#8211;0.06 Sekunden<\/li>\n<li><strong>Ressourcenverbrauch<\/strong>: Minimal CPU &amp; RAM (~50MB)<\/li>\n<li>Am besten geeignet f\u00fcr schnelle Bereitstellung und ressourcenbeschr\u00e4nkte Umgebungen.<\/li>\n<\/ul>\n<\/li>\n<li><strong>XGBoost<\/strong>:\n<ul>\n<li><strong>Training<\/strong>: Reicht von <strong>23s (Balanced-100)<\/strong> bis <strong>369s (Balanced-2505)<\/strong><\/li>\n<li><strong>Inferenz<\/strong>: ~<strong>0.00&#8211;0.09 Sekunden<\/strong><\/li>\n<li><strong>Ressourcenverbrauch<\/strong>: Effizient auf CPU (~100MB RAM)<\/li>\n<li>Exzellenter Kompromiss zwischen Geschwindigkeit und Genauigkeit, besonders f\u00fcr gro\u00dfe Datens\u00e4tze.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p><strong>Ressourcenintensiv<\/strong><\/p>\n<ul>\n<li><strong>SVM<\/strong>:\n<ul>\n<li><strong>Training<\/strong>: Bis zu <strong>2.480s<\/strong><\/li>\n<li><strong>Inferenz<\/strong>: Bis zu <strong>1.322s<\/strong><\/li>\n<li>Hohe Komplexit\u00e4t und Laufzeit machen es ungeeignet f\u00fcr Echtzeit oder Produktionsnutzung.<\/li>\n<\/ul>\n<\/li>\n<li><strong>Transformer-Modelle<\/strong>:\n<ul>\n<li><strong>DistilBERT-base<\/strong>: Training \u2248 900&#8211;1.400s; Inferenz \u2248 140s<\/li>\n<li><strong>BERT-base<\/strong>: Training \u2248 1.300&#8211;2.700s; Inferenz \u2248 127&#8211;138s<\/li>\n<li><strong>RoBERTa-base<\/strong>: Schlechteste Leistung und h\u00f6chste Trainingszeit (bis zu 2.718s)<\/li>\n<li>GPU-intensiv (\u22652GB RAM) und langsame Inferenz machen sie unpraktisch, es sei denn maximale Genauigkeit ist kritisch.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p><strong>Ineffizient bei der Inferenz<\/strong><\/p>\n<ul>\n<li><strong>Keyword-basierte Methoden<\/strong>:\n<ul>\n<li><strong>Training<\/strong>: Sehr schnell (so niedrig wie 3&#8211;135s)<\/li>\n<li><strong>Inferenz<\/strong>: \u00dcberraschend <strong>langsam<\/strong> &#8212; bis zu <strong>335s<\/strong><\/li>\n<li>Obwohl einfach zu implementieren, machen die langsame Inferenz und schlechte Genauigkeit sie ungeeignet f\u00fcr gro\u00dfangelegte oder Echtzeit-Nutzung.<\/li>\n<\/ul>\n<\/li>\n<\/ul>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Traditionelle ML-Methoden wie <strong>Logistic Regression und XGBoost<\/strong> bieten die beste Kosteneffizienz f\u00fcr den praktischen Einsatz, mit schnellem Training, nahezu sofortiger Inferenz und hoher Genauigkeit ohne GPU-Abh\u00e4ngigkeit. Transformer-Modelle bieten verbesserte Leistung nur bei bestimmten Datens\u00e4tzen (z.B. BERT bei Balanced-140), verursachen aber erhebliche Ressourcen- und Zeitkosten, die in vielen Szenarien m\u00f6glicherweise nicht gerechtfertigt sind. Es ist wichtig zu beachten, dass die Ressourcenanforderungen von Transformer-Modellen exponentiell mit wachsender Komplexit\u00e4t steigen, wie gr\u00f6\u00dferen Datenvolumen.<\/p>\n<h3>4.3 Vollst\u00e4ndige Modellevaluationszusammenfassung<\/h3>\n<table style=\"border: 2px solid #333; border-collapse: collapse; width: 100%;\">\n<thead>\n<tr style=\"background-color: #9c27b0; color: white;\">\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Datensatz<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Methoden<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Modell<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">Accuracy (%)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">Precision (%)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">Recall (%)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">F1-Wert (%)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">Trainingszeit (s)<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: center;\">Testzeit (s)<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"5\"><strong>Original<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Einfach<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Keyword-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">56<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">57<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">56<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">55<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">135<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">335<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"4\">Traditionell<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Logistic Regression<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>84<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>83<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>84<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>83<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>19<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>0.06<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">SVM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">84<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">84<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">2480<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">1322<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">MLP<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">80<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">80<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">80<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">80<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">426<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.53<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>XGBoost<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>86<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>86<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>86<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>86<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>364<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>0.08<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"5\"><strong>Balanced-2505<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Einfach<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Keyword-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">53<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">53<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">53<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">53<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">50<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">253<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"4\">Traditionell<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Logistic Regression<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">83<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">17<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.05<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">SVM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">82<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">82<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">82<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">82<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">1681<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">839<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">MLP<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">301<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.41<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>XGBoost<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>85<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>85<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>85<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>85<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>369<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>0.09<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"8\"><strong>Balanced-100<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Einfach<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Keyword-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">54<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">56<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">54<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">54<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">3<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">10<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"4\">Traditionell<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Logistic Regression<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">72<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">71<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">72<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">71<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">2<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.01<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">SVM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">72<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">73<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">72<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">72<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">7<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">2<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">MLP<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">73<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">73<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">73<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">73<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">15<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.02<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>XGBoost<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>76<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>76<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>76<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>75<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>23<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>0<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"3\">Transformer-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">DistilBERT-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">75<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">75<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">75<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">75<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">907<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">141<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">BERT-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">1357<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">127<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">RoBERTa-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">55<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">62<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">55<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">57<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">1402<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">124<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"8\"><strong>Balanced-140<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Einfach<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Keyword-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">62<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">63<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">62<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">62<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">3<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">14<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"4\">Traditionell<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Logistic Regression<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">3<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.01<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">SVM<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">14<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">4<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">MLP<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">79<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">78<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">19<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">0.02<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>XGBoost<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>81<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>80<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>81<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>80<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>34<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #ffd700;\"><strong>0<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px; vertical-align: top;\" rowspan=\"3\">Transformer-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">DistilBERT-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">77<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">1399<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">142<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>BERT-base<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>82<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>82<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>82<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>82<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>2685<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center; background-color: #e8f5e8;\"><strong>138<\/strong><\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\">RoBERTa-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">64<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">64<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">64<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">64<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">2718<\/td>\n<td style=\"border: 1px solid #333; padding: 8px; text-align: center;\">139<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<p>&nbsp;<\/p>\n<h3>4.4 Modellauswahlentscheidungsmatrix<\/h3>\n<table style=\"border: 2px solid #333; border-collapse: collapse; width: 100%;\">\n<thead>\n<tr style=\"background-color: #607d8b; color: white;\">\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Kriterium<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Bestes Modell<\/th>\n<th style=\"border: 1px solid #333; padding: 12px; text-align: left;\">Anmerkungen<\/th>\n<\/tr>\n<\/thead>\n<tbody>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>H\u00f6chste Genauigkeit (Alle Daten)<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">XGBoost<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">F1 = 86<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>H\u00f6chste Genauigkeit (Klein-Mittlere Daten) &#8211; CPU-Zugang<br \/>\n<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">XGBoost<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">F1 = 81<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>H\u00f6chste Genauigkeit (Klein-Mittlere Daten) &#8211; GPU-Zugang<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">BERT-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">F1 = 82<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Schnellstes Modell<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Logistic Regression<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Training in &lt;20s<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Beste Effizienz (Geschwindigkeit\/Genauigkeits-Kompromiss)<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Logistic Regression<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Exzellente Balance zwischen Laufzeit, Einfachheit und Genauigkeit<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Bester Large-Scale-Klassifizierer<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">XGBoost<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Skaliert gut mit gro\u00dfen Datens\u00e4tzen, robust gegen\u00fcber Ungleichgewicht<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Beste GPU-Nutzung<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">BERT-base<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Hohe Genauigkeit bei verf\u00fcgbarer GPU; besser als RoBERTa\/DistilBERT-base<\/td>\n<\/tr>\n<tr>\n<td style=\"border: 1px solid #333; padding: 8px;\"><strong>Nicht empfohlen<\/strong><\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">RoBERTa-base, Keyword-basiert<\/td>\n<td style=\"border: 1px solid #333; padding: 8px;\">Schlechte Genauigkeit, lange Inferenzzeiten, kein Leistungsvorteil<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n<h3><\/h3>\n<h3>4.5 Robustheitsanalyse<\/h3>\n<p style=\"text-align: justify;\">Dieser Abschnitt analysiert die Robustheit verschiedener Modelle bei unterschiedlichen Datensatzgr\u00f6\u00dfen und -bedingungen und hebt ihre St\u00e4rken, Limitationen und Bereiche hervor, die weitere Untersuchung ben\u00f6tigen.<\/p>\n<p><strong>Hochkonfidente Erkenntnisse<\/strong>:<\/p>\n<ul>\n<li><strong>XGBoost zeigt robuste Leistung<\/strong> bei verschiedenen Datensatzgr\u00f6\u00dfen, besonders f\u00fcr gro\u00dfe und kleine Datenregimes (Original, Balanced-100).<\/li>\n<li><strong>BERT-base zeigt starke Leistung<\/strong> bei mittelgro\u00dfen Datens\u00e4tzen (Balanced-140), was darauf hindeutet, dass Transformer-Modelle traditionelles ML unter den richtigen Daten- und Rechenbedingungen \u00fcbertreffen k\u00f6nnen.<\/li>\n<li><strong>Logistic Regression bleibt eine konstant zuverl\u00e4ssige Grundlinie<\/strong> und liefert starke Ergebnisse mit minimalen Rechenkosten.<\/li>\n<li><strong>Traditionelle ML-Modelle<\/strong>, besonders XGBoost und Logistic Regression, bieten hohe Effizienz mit konkurrenzf\u00e4higer Genauigkeit, besonders wenn Rechenressourcen begrenzt sind.<\/li>\n<\/ul>\n<p><strong>Bereiche, die weitere Forschung erfordern<\/strong>:<\/p>\n<ul>\n<li><strong>RoBERTa-bases schwache Leistung<\/strong> bei allen Settings ist unerwartet und k\u00f6nnte von aufgabenspezifischen Limitationen oder suboptimalen Feinabstimmungsstrategien herr\u00fchren.<\/li>\n<li><strong>Transformer-Segmentierungsstrategien<\/strong> erfordern weitere Domain-Adaptation &#8211; aktuelle Leistung k\u00f6nnte durch generische Aufteilungs- oder Truncation-Techniken begrenzt sein.<\/li>\n<\/ul>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: W\u00e4hrend traditionelle ML-Methoden wie XGBoost und Logistic Regression robust sind, <strong>k\u00f6nnen Transformer-Modelle wie BERT-base sie unter spezifischen Bedingungen \u00fcbertreffen<\/strong>. Diese Ergebnisse unterstreichen die Wichtigkeit, <strong>Modellkomplexit\u00e4t an Datenskala und Bereitstellungseinschr\u00e4nkungen anzupassen<\/strong>, anstatt anzunehmen, dass ausgekl\u00fcgeltere Architekturen standardm\u00e4\u00dfig bessere Ergebnisse liefern.<\/p>\n<h2 id=\"deployment\">5. Bereitstellungs-Szenarien<\/h2>\n<p style=\"text-align: justify;\">In diesem Abschnitt erkunden wir Bereitstellungsszenarien f\u00fcr Textklassifikationsmodelle und heben die best-geeigneten Algorithmen f\u00fcr verschiedene operative Einschr\u00e4nkungen hervor &#8211; von Produktionssystemen bis hin zu schneller Prototypenerstellung &#8211; basierend auf Kompromissen zwischen Genauigkeit, Effizienz und Ressourcenverf\u00fcgbarkeit.<\/p>\n<p><strong>Produktionssysteme<\/strong><\/p>\n<ul>\n<li><strong>Empfehlung<\/strong>: <strong>XGBoost<\/strong><\/li>\n<li><strong>Begr\u00fcndung<\/strong>: Erreicht den h\u00f6chsten F1-Wert (86) bei vollst\u00e4ndigen Datens\u00e4tzen mit schneller Inferenz (~0.08s) und moderater Trainingszeit (~6 Minuten).<\/li>\n<li><strong>Anwendungsfall<\/strong>: High-Volume oder Batch-Processing-Abl\u00e4ufe, wo sowohl Genauigkeit als auch Durchsatz wichtig sind.<\/li>\n<li><strong>Hinweise<\/strong>: Robust bei Datensatzgr\u00f6\u00dfen; geeignet f\u00fcr Umgebungen mit Standard-CPU-Infrastruktur.<\/li>\n<\/ul>\n<p><strong>Ressourcenbeschr\u00e4nkte Umgebungen<\/strong><\/p>\n<ul>\n<li><strong>Empfehlung<\/strong>: <strong>Logistic Regression<\/strong><\/li>\n<li><strong>Begr\u00fcndung<\/strong>: Extrem leichtgewichtig (Training &lt;20s, Inferenz ~0.01s), mit konkurrenzf\u00e4higen F1-Werten (bis zu 83).<\/li>\n<li><strong>Anwendungsfall<\/strong>: Edge-Ger\u00e4te, eingebettete Systeme und Low-Budget-Bereitstellungen.<\/li>\n<li><strong>Hinweise<\/strong>: Auch ideal f\u00fcr schnelle Erkl\u00e4rbarkeit und Debugging.<\/li>\n<\/ul>\n<p><strong>Maximale Genauigkeit mit GPU-Zugang<\/strong><\/p>\n<ul>\n<li><strong>Empfehlung<\/strong>: <strong>BERT-base<\/strong><\/li>\n<li><strong>Begr\u00fcndung<\/strong>: \u00dcbertrifft XGBoost bei moderat gro\u00dfen Datens\u00e4tzen (F1 = 82 vs. 80 bei Balanced-140).<\/li>\n<li><strong>Anwendungsfall<\/strong>: Forschung, Compliance\/Rechtsdokumentenklassifikation und Anwendungen, wo marginale Genauigkeitsverbesserungen missionskritisch sind.<\/li>\n<li><strong>Hinweise<\/strong>: Erfordert GPU-Infrastruktur (~2GB RAM); l\u00e4ngere Trainings- und Inferenzzeiten.<\/li>\n<\/ul>\n<p><strong>Schnelle Prototypenerstellung<\/strong><\/p>\n<ul>\n<li><strong>Empfohlene Verarbeitungskette<\/strong>: <strong>Logistic Regression \u2192 XGBoost \u2192 BERT-base<\/strong><\/li>\n<li><strong>Begr\u00fcndung<\/strong>: Erm\u00f6glicht iterative Verfeinerung &#8211; beginnen Sie einfach und skalieren Sie Komplexit\u00e4t nur bei Bedarf.<\/li>\n<li><strong>Anwendungsfall<\/strong>: Fr\u00fche Experimentierungsphase, Kategorientesting oder ressourcenphasierte Projekte.<\/li>\n<\/ul>\n<p><strong>Nicht empfohlen<\/strong><\/p>\n<ul>\n<li><strong>RoBERTa-base<\/strong>: Schlechte F1-Werte (so niedrig wie 57), lange Trainings-\/Inferenzzeit, kein Leistungsvorteil.<\/li>\n<li><strong>Keyword-basierte Methoden<\/strong>: Schnell zu implementieren, aber niedrige Genauigkeit (F1 \u2248 53&#8211;62) und \u00fcberraschend langsame Inferenz.<\/li>\n<\/ul>\n<p style=\"text-align: justify;\"><strong>Fazit<\/strong>: Das beste Modell f\u00fcr die Bereitstellung h\u00e4ngt von Datengr\u00f6\u00dfe, Infrastrukturbeschr\u00e4nkungen und Genauigkeitsbed\u00fcrfnissen ab. XGBoost ist optimal f\u00fcr allgemeine Produktion, Logistic Regression gl\u00e4nzt unter begrenzten Ressourcen, und BERT-base wird bevorzugt, wenn Genauigkeit h\u00f6chste Priorit\u00e4t hat und GPU-Computing verf\u00fcgbar ist. Das standardm\u00e4\u00dfige Setzen auf Komplexit\u00e4t wird nicht empfohlen &#8211; empirische Evidenz unterst\u00fctzt traditionelles ML f\u00fcr viele praktische Anwendungsf\u00e4lle.<\/p>\n\t\t<div data-elementor-type=\"container\" data-elementor-id=\"16327\" class=\"elementor elementor-16327\" data-elementor-post-type=\"elementor_library\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-top-section elementor-element elementor-element-6517c7e elementor-section-boxed elementor-section-height-default elementor-section-height-default\" data-id=\"6517c7e\" data-element_type=\"section\" data-e-type=\"section\" data-settings=\"{&quot;background_background&quot;:&quot;classic&quot;}\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-100 elementor-top-column elementor-element elementor-element-6f27450\" data-id=\"6f27450\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<section class=\"elementor-section elementor-inner-section elementor-element elementor-element-658054d elementor-section-full_width elementor-section-height-default elementor-section-height-default\" data-id=\"658054d\" data-element_type=\"section\" data-e-type=\"section\">\n\t\t\t\t\t\t<div class=\"elementor-container elementor-column-gap-default\">\n\t\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-02cf5a1\" data-id=\"02cf5a1\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-be8c11b elementor-widget elementor-widget-heading\" data-id=\"be8c11b\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"heading.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t<div class=\"elementor-heading-title elementor-size-default\">Verbessern Sie Ihre Textverarbeitung mit ma\u00dfgeschneiderten KI-L\u00f6sungen<\/div>\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t<div class=\"elementor-element elementor-element-f7409e9 elementor-widget elementor-widget-text-editor\" data-id=\"f7409e9\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"text-editor.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<p>Von der Analyse bis zur Implementierung &#8211; wir entwickeln die perfekte Klassifikationsstrategie f\u00fcr Ihr Unternehmen<\/p>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t<div class=\"elementor-column elementor-col-50 elementor-inner-column elementor-element elementor-element-6f0d604\" data-id=\"6f0d604\" data-element_type=\"column\" data-e-type=\"column\">\n\t\t\t<div class=\"elementor-widget-wrap elementor-element-populated\">\n\t\t\t\t\t\t<div class=\"elementor-element elementor-element-787027c elementor-align-right greenbtn elementor-tablet-align-center elementor-mobile-align-justify elementor-widget-mobile__width-initial elementor-widget elementor-widget-button\" data-id=\"787027c\" data-element_type=\"widget\" data-e-type=\"widget\" data-widget_type=\"button.default\">\n\t\t\t\t<div class=\"elementor-widget-container\">\n\t\t\t\t\t\t\t\t\t<div class=\"elementor-button-wrapper\">\n\t\t\t\t\t<a class=\"elementor-button elementor-button-link elementor-size-sm\" href=\"https:\/\/procycons.com\/de\/kontakt\/\">\n\t\t\t\t\t\t<span class=\"elementor-button-content-wrapper\">\n\t\t\t\t\t\t\t\t\t<span class=\"elementor-button-text\">Kontakt aufnehmen<\/span>\n\t\t\t\t\t<\/span>\n\t\t\t\t\t<\/a>\n\t\t\t\t<\/div>\n\t\t\t\t\t\t\t\t<\/div>\n\t\t\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t\t<\/div>\n\t\t<\/div>\n\t\t\t\t\t<\/div>\n\t\t<\/section>\n\t\t\t\t<\/div>\n\t\t\n<h2 id=\"conclusion\">7. Fazit<\/h2>\n<p style=\"text-align: justify;\">Diese Benchmark-Studie pr\u00e4sentiert eine umfassende Evaluation traditioneller und moderner Ans\u00e4tze f\u00fcr die Klassifikation langer Dokumente bei einer Reihe von Datensatzgr\u00f6\u00dfen und Ressourcenbeschr\u00e4nkungen. Entgegen g\u00e4ngigen Annahmen zeigen unsere Erkenntnisse, dass komplexe Transformer-Modelle nicht immer einfachere maschinelle Lernmethoden \u00fcbertreffen, besonders in praktischen Bereitstellungsbedingungen.<\/p>\n<h3>Zusammenfassung der wichtigsten Erkenntnisse<\/h3>\n<ol>\n<li style=\"text-align: justify;\"><strong>XGBoost sticht als robusteste und skalierbarste L\u00f6sung insgesamt hervor<\/strong> und erreicht den h\u00f6chsten F1-Wert (86) bei vollst\u00e4ndigen Datens\u00e4tzen mit konstanter Leistung bei verschiedenen Stichprobengr\u00f6\u00dfen. Es bietet exzellente rechnerische Effizienz und eignet sich gut f\u00fcr Produktionsumgebungen, die gro\u00dfe Dokumentensammlungen handhaben. Dennoch performt es auch akzeptabel bei kleineren Datens\u00e4tzen &#8211; beispielsweise erreicht es einen F1-Wert von 81 bei Balanced-140.<\/li>\n<li style=\"text-align: justify;\"><strong>BERT-base liefert die h\u00f6chste Genauigkeit bei mittelgro\u00dfen Datens\u00e4tzen<\/strong> (z.B. F1 = 82 bei Balanced-140) und \u00fcbertrifft XGBoost in diesem Setting. Allerdings erfordert es GPU-Infrastruktur und verursacht erhebliche Trainings- und Inferenzzeiten, was es ideal f\u00fcr Forschung oder kritische Anwendungen macht, wo Ressourcenverf\u00fcgbarkeit kein limitierender Faktor ist.<\/li>\n<li style=\"text-align: justify;\"><strong>Logistic Regression bleibt eine herausragende Wahl f\u00fcr ressourcenbeschr\u00e4nkte Umgebungen<\/strong>. Es trainiert in unter 20 Sekunden, inferiert nahezu sofort und erreicht konkurrenzf\u00e4hige F1-Werte (bis zu 83), was es ideal f\u00fcr schnelle Prototypenerstellung, eingebettete Systeme und Edge-Bereitstellung macht.<\/li>\n<li style=\"text-align: justify;\"><strong>RoBERTa-base lieferte konstant schlechte Leistung<\/strong>, trotz seines Rufs, mit F1-Werten so niedrig wie 57. Dies unterstreicht die Notwendigkeit f\u00fcr empirisches Benchmarking anstatt sich allein auf wahrgenommene Modellst\u00e4rke zu verlassen.<\/li>\n<li style=\"text-align: justify;\"><strong>Keyword-basierte und \u00e4hnlichkeitsbasierte Methoden sind unzureichend f\u00fcr komplexe, Multi-Class-Klassifikation langer Dokumente, trotz ihrer Einfachheit und schnellen Einrichtung.<\/strong> Ihre niedrige Genauigkeit und unerwartet langen Inferenzzeiten machen sie ungeeignet f\u00fcr ernsthafte Bereitstellung.<\/li>\n<\/ol>\n<h3>Strategische Empfehlungen<\/h3>\n<ul>\n<li style=\"text-align: justify;\"><strong>Beginnen Sie mit traditionellen ML-Modellen<\/strong> wie Logistic Regression oder XGBoost. Sie bieten starke Leistung mit minimalem Overhead und erm\u00f6glichen schnelle Iteration.<\/li>\n<li style=\"text-align: justify;\"><strong>Verwenden Sie BERT-base<\/strong> nur wenn marginale Genauigkeitsverbesserungen missionskritisch sind und GPU-Ressourcen verf\u00fcgbar sind.<\/li>\n<li style=\"text-align: justify;\"><strong>Vermeiden Sie eine \u00dcberkomplikation fr\u00fcher Phasen<\/strong> der Modellauswahl &#8211; die Ergebnisse zeigen, dass einfache Modelle oft \u00fcberraschend konkurrenzf\u00e4hige Ergebnisse f\u00fcr die Klassifikation langer Texte liefern.<\/li>\n<li style=\"text-align: justify;\">Passen Sie Ihr Modell sorgf\u00e4ltig an Ihr spezifisches Bereitstellungsszenario an und ber\u00fccksichtigen Sie die Balance zwischen Genauigkeit, Laufzeit, Speicheranforderungen und Datenverf\u00fcgbarkeit.<\/li>\n<\/ul>\n<h3>Zuk\u00fcnftige Forschungsrichtungen<\/h3>\n<p>Mehrere Bereiche verdienen tiefere Untersuchung:<\/p>\n<ul>\n<li style=\"text-align: justify;\"><strong>Domain-adaptive Feinabstimmungs- und Segmentierungsstrategien<\/strong> f\u00fcr Transformer-Modelle<\/li>\n<li style=\"text-align: justify;\">Erforschung von Hybrid-Abl\u00e4ufen, die schnelle traditionelle ML-Backends mit transformer-basiertem Reranking oder Verfeinerung kombinieren<\/li>\n<li style=\"text-align: justify;\">Untersuchung, warum RoBERTa unterperformt und ob aufgabenspezifische Anpassungen sein Potenzial wiederherstellen k\u00f6nnten<\/li>\n<li style=\"text-align: justify;\">Evaluation von neuen Long-Context-Transformern (z.B. Longformer, BigBird) auf diesem Benchmark<\/li>\n<\/ul>\n<h3>Abschlie\u00dfende Erkenntnis<\/h3>\n<p style=\"text-align: justify;\">Dieses Benchmark stellt die \u00dcberzeugung in Frage, dass Modellkomplexit\u00e4t immer gerechtfertigt ist. In Wirklichkeit k\u00f6nnen traditionelle ML-Modelle exzellente Leistung f\u00fcr die Klassifikation langer Dokumente liefern &#8211; oft erreichen sie die gleiche oder \u00fcbertreffen Transformer sowohl in Genauigkeit als auch Geschwindigkeit, mit 10\u00d7 weniger Rechenkosten.<\/p>\n<p style=\"text-align: justify;\">Der Schl\u00fcssel zum Erfolg liegt nicht darin, das m\u00e4chtigste Modell zu verfolgen, sondern das richtige Modell f\u00fcr Ihre spezifischen Daten, Einschr\u00e4nkungen und Ziele zu w\u00e4hlen.<\/p>\n<h3>Quellenverzeichnis<\/h3>\n<p>Campos, R., Mangaravite, V., Pasquali, A., Jorge, A., Nunes, C. und Jatowt, A. (2020) &#8218;YAKE! Keyword Extraction from Single Documents Using Multiple Local Features&#8216;, Information Sciences, 509, S. 257-289.<\/p>\n<p>Chen, T. und Guestrin, C. (2016) &#8218;XGBoost: A Scalable Tree Boosting System&#8216;, in Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM.<\/p>\n<p>Devlin, J., Chang, M.-W., Lee, K. und Toutanova, K. (2019) &#8218;BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding&#8216;, in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Band 1 (Long and Short Papers). Minneapolis: Association for Computational Linguistics.<\/p>\n<p>Genkin, A., Lewis, D. D. und Madigan, D. (2005) Sparse Logistic Regression for Text Categorization. DIMACS Working Group on Monitoring Message Streams Project Report.<\/p>\n<p>Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L. und Stoyanov, V. (2019) &#8218;RoBERTa: A Robustly Optimized BERT Pretraining Approach&#8216;, arXiv preprint arXiv:1907.11692.<\/p>\n<p>Sanh, V., Debut, L., Chaumond, J. und Wolf, T. (2019) &#8218;DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter&#8216;, arXiv preprint arXiv:1910.01108.<\/p>\n<h3>Download-Ressourcen und Bibliotheken<\/h3>\n<ul>\n<li id=\"ref1\"><a href=\"https:\/\/github.com\/LiqunW\/Long-document-dataset\" target=\"_blank\" rel=\"noopener\"> Liqun W. (2021). Long Document Dataset &#8212; GitHub Repository<br \/>\n<\/a><\/li>\n<li id=\"ref3\"><a href=\"https:\/\/paperswithcode.com\/paper\/gorc-a-large-contextual-citation-graph-of\" target=\"_blank\" rel=\"noopener\"> S2ORC (Semantic Scholar Open Research Corpus)<br \/>\n<\/a><\/li>\n<li id=\"ref4\"><a href=\"https:\/\/github.com\/FiscalNote\/BillSum\" target=\"_blank\" rel=\"noopener\"> Congressional and California state bills &#8212; GitHub Repository<br \/>\n<\/a><\/li>\n<li id=\"ref5\"><a href=\"https:\/\/paperswithcode.com\/dataset\/govreport\" target=\"_blank\" rel=\"noopener\"> GOVREPORT &#8211; long document summarization dataset<br \/>\n<\/a><\/li>\n<li id=\"ref6\"><a href=\"https:\/\/www.kaggle.com\/datasets\/theatticusproject\/atticus-open-contract-dataset-aok-beta\" target=\"_blank\" rel=\"noopener\"> CUAD (Contract Understanding Atticus Dataset)<br \/>\n<\/a><\/li>\n<li id=\"ref7\"><a href=\"https:\/\/registry.opendata.aws\/mimiciii\/\" target=\"_blank\" rel=\"noopener\"> MIMIC-III (Medical Information Mart for Intensive Care)<br \/>\n<\/a><\/li>\n<li id=\"ref8\"><a href=\"https:\/\/www.kaggle.com\/datasets\/jamesglang\/sec-edgar-company-facts-september2023\" target=\"_blank\" rel=\"noopener\">SEC 10 K\/Q Filings<br \/>\n<\/a><\/li>\n<li id=\"ref9\"><a href=\"https:\/\/pypi.org\/project\/scikit-learn\/1.3.0\/\" target=\"_blank\" rel=\"noopener\">scikit-learn 1.3.0<br \/>\n<\/a><\/li>\n<li id=\"ref10\"><a href=\"https:\/\/pypi.org\/project\/transformers\/4.38.0\/\" target=\"_blank\" rel=\"noopener\">transformers 4.38.0<br \/>\n<\/a><\/li>\n<li id=\"ref11\"><a href=\"https:\/\/pypi.org\/project\/torch\/\" target=\"_blank\" rel=\"noopener\">torch 2.7.1<br \/>\n<\/a><\/li>\n<li id=\"ref12\"><a href=\"https:\/\/pypi.org\/project\/xgboost\/\" target=\"_blank\" rel=\"noopener\">xgboost 3.0.2<br \/>\n<\/a><\/li>\n<li id=\"ref19\"><a href=\"https:\/\/github.com\/Procycons\/Long-Document-Classification-Benchmark.git\" target=\"_blank\" rel=\"noopener\">Alle Code und Konfigurationen im Zusammenhang mit der Klassifikation langer Dokumente Benchmark 2025 &#8212; GitHub Repository<br \/>\n<\/a><\/li>\n<\/ul>\n","protected":false},"excerpt":{"rendered":"<p>Umfassender Benchmark-Test verschiedener KI-Methoden f\u00fcr Long Document Classification: Von einfachen Keyword-Ans\u00e4tzen bis zu Transformer-Modellen. Praktischer Leitfaden mit \u00fcberraschenden Leistungsvergleichen und Deployment-Empfehlungen.<\/p>\n","protected":false},"author":2,"featured_media":16788,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_acf_changed":false,"footnotes":""},"categories":[26],"tags":[92,93,94,97,95,96],"class_list":["post-16762","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-digitization-de","tag-dokumentenklassifizierung","tag-ki","tag-llm-2","tag-nlp-2","tag-transformer-2","tag-xgboost-2"],"acf":[],"_links":{"self":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16762","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/users\/2"}],"replies":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/comments?post=16762"}],"version-history":[{"count":17,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16762\/revisions"}],"predecessor-version":[{"id":16800,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/posts\/16762\/revisions\/16800"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/media\/16788"}],"wp:attachment":[{"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/media?parent=16762"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/categories?post=16762"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/procycons.com\/de\/wp-json\/wp\/v2\/tags?post=16762"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}