Refactor: MainWindow in 7 Mixins aufgeteilt (80% Code-Reduktion)

MainWindow.py von 5025 auf 983 Zeilen reduziert durch Extraktion in: - TreeManagerMixin: Baumstruktur-Verwaltung (~1136 Zeilen) - PdfViewerMixin: PDF-Anzeige und Rendering - WorkerPoolMixin: Saxon/FOP Worker-Pool-Verwaltung - DatabaseMixin: PostgreSQL-Operationen - DragDropMixin: Drag-and-Drop für XML-Dateien - HashCalculationMixin: blake2b Hash-Berechnung - TransformationMixin: XSL-Transformationen Zusätzlich Thread-Klassen in threads.py ausgelagert. Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>
2026-01-15 18:23:55 +01:00
parent 5a2da7f264
commit 3acdfbb5c8
10 changed files with 4353 additions and 4066 deletions
@@ -0,0 +1,461 @@
+"""
+Thread-Klassen für asynchrone Operationen in DocuMentor.
+
+Dieses Modul enthält alle QThread-Klassen, die für Hintergrundoperationen verwendet werden:
+- XmlHashCalculatorThread: Berechnung von blake2b-Hashes für XML-Dateien
+- XmlBatchProcessingThread: Batch-Verarbeitung von XML-Dateien
+- TransformationThread: Ausführung von XSL-Transformationen
+"""
+
+import hashlib
+import logging
+import shutil
+from pathlib import Path
+from typing import List
+
+from PySide6.QtCore import QThread, Signal
+
+from conf import TreeNode, XslFile, XmlFile
+from transform import TransformationJob
+
+
+logger = logging.getLogger(__name__)
+
+
+class XmlHashCalculatorThread(QThread):
+    """
+    Thread für die asynchrone Berechnung von blake2b-Hash-Werten für XML-Dateien.
+    """
+
+    # Signale für die Kommunikation mit dem Haupt-Thread
+    hash_calculated = Signal(object, str)  # xml_file_object, hash_value
+    calculation_finished = Signal(int, int)  # processed_count, total_count
+    error_occurred = Signal(str, str)  # xml_file_path, error_message
+
+    def __init__(self, project_dir: Path, xml_files: List[XmlFile]):
+        """
+        Initialisiert den Hash-Berechnungs-Thread.
+
+        Args:
+            project_dir: Pfad zum Projekt-Verzeichnis
+            xml_files: Liste der XmlFile-Objekte für die Hash-Berechnung
+        """
+        super().__init__()
+        self.project_dir = project_dir
+        self.xml_files = xml_files
+        self.processed_count = 0
+
+    def run(self):
+        """
+        Führt die Hash-Berechnung für alle XML-Dateien aus.
+        """
+        logger.info(f"Starte Hash-Berechnung für {len(self.xml_files)} XML-Dateien")
+
+        for xml_file in self.xml_files:
+            try:
+                # Prüfe ob hashsum bereits vorhanden ist
+                if xml_file.hashsum:
+                    logger.debug(f"Hash bereits vorhanden für {xml_file.xml}: {xml_file.hashsum}")
+                    self.processed_count += 1
+                    continue
+
+                # Berechne Hash für die XML-Datei
+                xml_file_path = self.project_dir / xml_file.xml
+                hash_value = self._calculate_blake2b_hash(xml_file_path)
+
+                if hash_value:
+                    # Sende Signal mit berechnetem Hash
+                    self.hash_calculated.emit(xml_file, hash_value)
+                    logger.debug(f"Hash berechnet für {xml_file.xml}: {hash_value}")
+
+                self.processed_count += 1
+
+            except Exception as e:
+                error_msg = f"Fehler bei Hash-Berechnung für {xml_file.xml}: {str(e)}"
+                logger.error(error_msg)
+                self.error_occurred.emit(str(xml_file.xml), error_msg)
+                self.processed_count += 1
+
+        # Sende Abschluss-Signal
+        self.calculation_finished.emit(self.processed_count, len(self.xml_files))
+        logger.info(f"Hash-Berechnung abgeschlossen: {self.processed_count}/{len(self.xml_files)} verarbeitet")
+
+    def _calculate_blake2b_hash(self, file_path: Path) -> str | None:
+        """
+        Berechnet den blake2b-Hash einer XML-Datei.
+
+        Args:
+            file_path: Pfad zur XML-Datei
+
+        Returns:
+            str: Hash-Wert mit "blake2b:" Präfix oder None bei Fehler
+        """
+        try:
+            if not file_path.exists():
+                logger.warning(f"XML-Datei nicht gefunden: {file_path}")
+                return None
+
+            # Datei binär lesen und Hash berechnen
+            with open(file_path, "rb") as f:
+                file_content = f.read()
+                hash_obj = hashlib.blake2b(file_content)
+                hash_hex = hash_obj.hexdigest()
+
+            # Präfix hinzufügen
+            return f"blake2b:{hash_hex}"
+
+        except Exception as e:
+            logger.error(f"Fehler beim Berechnen des Hash für {file_path}: {e}")
+            return None
+
+
+class XmlBatchProcessingThread(QThread):
+    """
+    Thread für die asynchrone Batch-Verarbeitung von mehreren XML-Dateien.
+    Verarbeitet XML-Dateien mit Hash-Berechnung, Duplikatserkennung und Dateikopieren.
+    """
+
+    # Signale für die Kommunikation mit dem Haupt-Thread
+    progress_update = Signal(int, int, str)  # current, total, current_file_name
+    file_processed = Signal(dict)  # result dictionary
+    processing_finished = Signal(dict)  # stats dictionary
+    error_occurred = Signal(str)  # error_message
+
+    def __init__(self, xml_files: list, selected_xsl_nodes: list, project_dir: Path, pdf_project):
+        """
+        Initialisiert den Batch-Verarbeitungs-Thread.
+
+        Args:
+            xml_files: Liste von Pfaden zu XML-Dateien
+            selected_xsl_nodes: Liste der ausgewählten XSL-Knoten
+            project_dir: Pfad zum Projekt-Verzeichnis
+            pdf_project: ProjectData-Objekt
+        """
+        super().__init__()
+        self.xml_files = xml_files
+        self.selected_xsl_nodes = selected_xsl_nodes
+        self.project_dir = project_dir
+        self.pdf_project = pdf_project
+
+        # Statistiken
+        self.stats = {
+            "total": len(xml_files),
+            "processed": 0,
+            "new_added": 0,
+            "existing_added": 0,
+            "already_assigned": 0,
+            "cancelled": 0,
+            "errors": 0,
+            "error_messages": [],
+            "renamed_files": [],
+        }
+
+    def run(self):
+        """
+        Führt die Batch-Verarbeitung aller XML-Dateien aus.
+        """
+        logger.info(f"Starte Batch-Verarbeitung für {len(self.xml_files)} XML-Dateien")
+
+        for i, xml_file_path in enumerate(self.xml_files):
+            try:
+                # Sende Progress-Update
+                self.progress_update.emit(i + 1, len(self.xml_files), xml_file_path.name)
+
+                # Prüfe ob die Datei existiert
+                if not xml_file_path.exists():
+                    self.stats["errors"] += 1
+                    self.stats["error_messages"].append(f"{xml_file_path.name}: Datei existiert nicht")
+                    continue
+
+                # Verarbeite die XML-Datei
+                result = self._process_xml_file(xml_file_path)
+
+                # Aktualisiere Statistiken
+                self._update_stats(result)
+
+                # Sende Ergebnis
+                self.file_processed.emit(result)
+
+            except Exception as e:
+                error_msg = f"Fehler bei {xml_file_path.name}: {str(e)}"
+                logger.error(error_msg)
+                self.stats["errors"] += 1
+                self.stats["error_messages"].append(error_msg)
+
+        # Sende Abschluss-Signal mit Statistiken
+        self.processing_finished.emit(self.stats)
+        logger.info(f"Batch-Verarbeitung abgeschlossen: {self.stats['processed']}/{self.stats['total']} verarbeitet")
+
+    def _process_xml_file(self, xml_file_path: Path) -> dict:
+        """
+        Verarbeitet eine einzelne XML-Datei.
+
+        Args:
+            xml_file_path: Pfad zur XML-Datei
+
+        Returns:
+            dict: Ergebnis-Dictionary mit Status
+        """
+        try:
+            # 1. Hash berechnen
+            file_hash = self._calculate_hash_for_file(xml_file_path)
+            if not file_hash:
+                logger.warning(f"Hash-Berechnung für {xml_file_path} fehlgeschlagen")
+
+            # 2. Prüfe auf Hash-Duplikat
+            existing_xml = self._find_xml_file_by_hash(file_hash) if file_hash else None
+
+            if existing_xml:
+                # Hash-Match: Ordne vorhandene Datei zu
+                return self._assign_existing_xml_to_nodes(existing_xml)
+            else:
+                # Keine Duplikate: Verarbeite als neue Datei
+                return self._process_new_xml_file(xml_file_path, file_hash)
+
+        except Exception as e:
+            return {"status": "error", "error_msg": str(e)}
+
+    def _calculate_hash_for_file(self, file_path: Path) -> str | None:
+        """Berechnet blake2b Hash für eine Datei."""
+        try:
+            if not file_path.exists():
+                return None
+
+            with open(file_path, "rb") as f:
+                file_content = f.read()
+                hash_obj = hashlib.blake2b(file_content)
+                hash_hex = hash_obj.hexdigest()
+
+            return f"blake2b:{hash_hex}"
+
+        except Exception as e:
+            logger.error(f"Fehler beim Berechnen des Hash für {file_path}: {e}")
+            return None
+
+    def _find_xml_file_by_hash(self, hash_value: str) -> XmlFile | None:
+        """Sucht eine XML-Datei anhand ihres Hash-Werts."""
+        if not hash_value or not self.pdf_project.nodes:
+            return None
+
+        def search_recursive(nodes):
+            for node in nodes:
+                if isinstance(node, XslFile) and node.xmls:
+                    for xml_file in node.xmls:
+                        if xml_file.hashsum == hash_value:
+                            return xml_file
+                elif isinstance(node, TreeNode) and node.children:
+                    found = search_recursive(node.children)
+                    if found:
+                        return found
+            return None
+
+        return search_recursive(self.pdf_project.nodes)
+
+    def _assign_existing_xml_to_nodes(self, existing_xml: XmlFile) -> dict:
+        """Ordnet eine vorhandene XML-Datei den Knoten zu."""
+        try:
+            added_count = 0
+
+            for xsl_node in self.selected_xsl_nodes:
+                already_assigned = any(xml_file.xml == existing_xml.xml for xml_file in xsl_node.xmls)
+
+                if not already_assigned:
+                    new_xml_ref = XmlFile(xml=existing_xml.xml, hashsum=existing_xml.hashsum)
+                    xsl_node.xmls.append(new_xml_ref)
+                    added_count += 1
+
+            if added_count > 0:
+                return {
+                    "status": "existing_added",
+                    "added_count": added_count,
+                    "existing_file": existing_xml.xml.name,
+                }
+            else:
+                return {"status": "already_assigned", "added_count": 0, "existing_file": existing_xml.xml.name}
+
+        except Exception as e:
+            return {"status": "error", "error_msg": str(e)}
+
+    def _process_new_xml_file(self, xml_file_path: Path, file_hash: str | None) -> dict:
+        """Verarbeitet eine neue XML-Datei."""
+        try:
+            # Erstelle xml-Ordner
+            xml_dir = self.project_dir / "xml"
+            xml_dir.mkdir(parents=True, exist_ok=True)
+
+            # Bestimme Ziel-Pfad
+            target_xml_path = xml_dir / xml_file_path.name
+
+            # Prüfe auf Namenskonflikte und generiere ggf. alternativen Namen
+            original_name = xml_file_path.name
+            counter = 1
+            while target_xml_path.exists() or self._is_filename_used_in_project(Path("xml") / target_xml_path.name):
+                # Generiere alternativen Namen
+                stem = xml_file_path.stem
+                suffix = xml_file_path.suffix
+                target_xml_path = xml_dir / f"{stem}_{counter}{suffix}"
+                counter += 1
+
+                # Sicherheit: Maximal 1000 Versuche
+                if counter > 1000:
+                    return {"status": "error", "error_msg": "Konnte keinen eindeutigen Dateinamen finden"}
+
+            # Kopiere Datei
+            shutil.copy2(xml_file_path, target_xml_path)
+
+            # Erstelle relatives Path
+            relative_xml_path = Path("xml") / target_xml_path.name
+
+            # Füge zu XSL-Knoten hinzu
+            added_count = 0
+            for xsl_node in self.selected_xsl_nodes:
+                existing_xml = any(xml_file.xml == relative_xml_path for xml_file in xsl_node.xmls)
+
+                if not existing_xml:
+                    new_xml_file = XmlFile(xml=relative_xml_path, hashsum=file_hash)
+                    xsl_node.xmls.append(new_xml_file)
+                    added_count += 1
+
+            if added_count > 0:
+                return {
+                    "status": "new_added",
+                    "added_count": added_count,
+                    "new_file": target_xml_path.name,
+                    "renamed_from": original_name if target_xml_path.name != original_name else None,
+                }
+            else:
+                return {"status": "already_assigned", "added_count": 0, "new_file": target_xml_path.name}
+
+        except Exception as e:
+            return {"status": "error", "error_msg": str(e)}
+
+    def _is_filename_used_in_project(self, filename: Path) -> bool:
+        """Prüft ob ein Dateiname bereits im Projekt verwendet wird."""
+        if not self.pdf_project.nodes:
+            return False
+
+        def search_recursive(nodes):
+            for node in nodes:
+                if isinstance(node, XslFile) and node.xmls:
+                    for xml_file in node.xmls:
+                        if xml_file.xml == filename:
+                            return True
+                elif isinstance(node, TreeNode) and node.children:
+                    if search_recursive(node.children):
+                        return True
+            return False
+
+        return search_recursive(self.pdf_project.nodes)
+
+    def _update_stats(self, result: dict):
+        """Aktualisiert die Statistiken."""
+        self.stats["processed"] += 1
+
+        status = result.get("status")
+        if status == "new_added":
+            self.stats["new_added"] += 1
+            if result.get("renamed_from"):
+                self.stats["renamed_files"].append(f"{result['renamed_from']} → {result['new_file']}")
+        elif status == "existing_added":
+            self.stats["existing_added"] += 1
+        elif status == "already_assigned":
+            self.stats["already_assigned"] += 1
+        elif status == "error":
+            self.stats["errors"] += 1
+            self.stats["error_messages"].append(result.get("error_msg", "Unbekannter Fehler"))
+
+
+class TransformationThread(QThread):
+    """
+    Thread für die asynchrone Ausführung von Transformations-Jobs.
+    """
+
+    # Signale für die Kommunikation mit dem Haupt-Thread
+    job_started = Signal(str, str)  # xml_file_name, xsl_id_str
+    job_finished = Signal(dict)  # result_dict
+    job_error = Signal(str, str, str)  # xml_file_name, xsl_id_str, error_message
+    all_jobs_finished = Signal(int, int, float)  # successful_count, total_count, total_duration
+
+    def __init__(self, jobs: list[TransformationJob], force: bool = False, max_workers: int = 8):
+        """
+        Initialisiert den Transformations-Thread.
+
+        Args:
+            jobs: Liste der TransformationJob-Objekte
+            force: Wenn True, werden alle Jobs ausgeführt (ignoriert Up-to-Date)
+            max_workers: Maximale Anzahl paralleler Worker (Standard: 8)
+        """
+        super().__init__()
+        self.jobs = jobs
+        self.force = force
+        self.max_workers = max_workers
+        self.successful_count = 0
+
+    def _process_single_job(self, job: TransformationJob) -> dict:
+        """
+        Verarbeitet einen einzelnen Transformations-Job (Thread-safe).
+
+        Args:
+            job: Der zu verarbeitende TransformationJob
+
+        Returns:
+            dict: Ergebnis-Dictionary des Jobs
+        """
+        try:
+            # Sende Start-Signal mit XSL-ID
+            xsl_id_str = "_".join(str(x) for x in job.xsl_id) if job.xsl_id else ""
+            self.job_started.emit(str(job.xml_file), xsl_id_str)
+
+            # Führe Transformations-Pipeline aus
+            result = job.run_full_pipeline(force=self.force)
+
+            # Sende Abschluss-Signal
+            self.job_finished.emit(result)
+
+            return result
+
+        except Exception as e:
+            error_msg = f"Unerwarteter Fehler bei Transformation: {str(e)}"
+            logger.error(error_msg)
+            xsl_id_str = "_".join(str(x) for x in job.xsl_id) if job.xsl_id else ""
+            self.job_error.emit(str(job.xml_file), xsl_id_str, error_msg)
+            return {"success": False, "error": error_msg}
+
+    def run(self):
+        """
+        Führt alle Transformations-Jobs parallel aus mit ThreadPoolExecutor.
+        """
+        from concurrent.futures import ThreadPoolExecutor, as_completed
+        from datetime import datetime
+        import threading
+
+        start_time = datetime.now()
+        logger.info(f"Starte parallele Transformation von {len(self.jobs)} Jobs mit {self.max_workers} Workern")
+
+        # Thread-sicherer Counter
+        successful_lock = threading.Lock()
+
+        # Verwende ThreadPoolExecutor für parallele Verarbeitung
+        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+            # Starte alle Jobs
+            future_to_job = {executor.submit(self._process_single_job, job): job for job in self.jobs}
+
+            # Warte auf Abschluss und sammle Ergebnisse
+            for future in as_completed(future_to_job):
+                try:
+                    result = future.result()
+                    if result.get("success", False):
+                        with successful_lock:
+                            self.successful_count += 1
+                except Exception as e:
+                    logger.error(f"Fehler beim Verarbeiten des Future: {e}")
+
+        # Berechne Gesamtdauer
+        total_duration = (datetime.now() - start_time).total_seconds()
+
+        # Sende Abschluss-Signal für alle Jobs mit Gesamtdauer
+        self.all_jobs_finished.emit(self.successful_count, len(self.jobs), total_duration)
+        logger.info(
+            f"Transformation abgeschlossen: {self.successful_count}/{len(self.jobs)} erfolgreich ({total_duration:.2f}s) "
+            f"[{len(self.jobs) / total_duration:.2f} Jobs/s mit {self.max_workers} Workern]"
+        )