Skip to content

PROCESS_MINING_SUMMARY

GitHub Actions edited this page Jan 2, 2026 · 1 revision

Process Mining in AQL - Implementation Summary

Version: 1.0
Datum: 24. Dezember 2025
Status: Research & Design Phase Complete ✅


Übersicht

Dieses Dokument fasst die Implementierung von Process Mining in AQL zusammen und beantwortet die ursprüngliche Anforderung:

Anforderung: Ich möchte das Process-mining auch in AQL möglich machen. eine Idee ist eine Ideal Prozessstruktur zu übergeben und die process-miner suchen nach graphen, vectoren, relationalen Zusammenhängen und zeigen entsprechende gefundene "ähnliche" Prozesse an.

Neue Anforderung: Modelle für Verwaltung bevorzugt.


✅ Erreichte Ziele

1. AQL-Integration ✅

Status: Design Complete, Implementation Pending

Process Mining ist nun vollständig in AQL integrierbar durch:

  • 15+ neue AQL-Funktionen
  • Nahtlose Integration mit bestehenden AQL-Queries
  • Kombinierbarkeit mit FOR-Schleifen, FILTER, etc.

2. Ideal-Prozess-Vergleich ✅

Status: API Designed

Funktionen zum Vergleich mit Ideal-Prozessen:

  • PM_COMPARE_IDEAL(case_id, ideal_model) - Detaillierter Vergleich
  • PM_FIND_SIMILAR(pattern, config) - Ähnlichkeitssuche
  • PM_HAS_PATTERN(case_id, pattern) - Pattern Matching

3. Multi-Model Ähnlichkeit ✅

Status: Architecture Defined

Drei Ähnlichkeitsansätze unterstützt:

  • Graph-basiert: Strukturähnlichkeit (Knoten, Kanten, Pfade)
  • Vektor-basiert: Semantische Ähnlichkeit (Embeddings)
  • Verhaltens-basiert: Ausführungsreihenfolge
  • Hybrid: Gewichtete Kombination aller Methoden

4. Verwaltungsmodelle ✅

Status: 5 Models Created

Vordefinierte administrative Prozessmodelle:

  • Bauantragsverfahren (§34 BauO)
  • Beschaffung (GWB, VOB/A)
  • Personaleinstellung (AGG, DSGVO)
  • Haushaltsplanung
  • Dokumentenfreigabe

5. Best Practices & Wissenschaftliche Grundlagen ✅

Status: Comprehensive Documentation

  • 50+ Seiten Research-Dokument
  • 11 wissenschaftliche Publikationen referenziert
  • Industry Best Practices dokumentiert
  • Compliance-Frameworks integriert

📁 Erstellte Dateien

1. Research & Roadmap

Datei: docs/de/analytics/PROCESS_MINING_RESEARCH_AND_ROADMAP.md

Inhalt:

  • Wissenschaftliche Grundlagen (van der Aalst, Dijkman, et al.)
  • Ähnlichkeitsmetriken (Graph Edit Distance, Jaccard, LCS, Cosine)
  • Best Practices für Verwaltungsprozesse
  • Implementierungsroadmap (5 Phasen)
  • 11+ wissenschaftliche Publikationen

Highlights:

### Algorithmen
- Alpha Miner (van der Aalst et al., 2004)
- Heuristic Miner (Weijters & van der Aalst, 2003)
- Inductive Miner (Leemans et al., 2013)

### Metriken
- Graph Edit Distance (GED) - Strukturelle Ähnlichkeit
- Jaccard Similarity - Node/Edge Overlap
- Longest Common Subsequence (LCS) - Pfadähnlichkeit
- Cosine Similarity - Vektor-basierte Semantik

2. Process Pattern Matcher API

Datei: include/analytics/process_pattern_matcher.h

Klasse: ProcessPatternMatcher

Kernmethoden:

// Finde ähnliche Prozesse
std::pair<Status, std::vector<SimilarityResult>> findSimilar(
    const ProcessPattern& pattern,
    const PatternMatchConfig& config
);

// Vergleiche mit Ideal
std::pair<Status, ConformanceResult> compareWithIdeal(
    const std::string& case_id,
    const ProcessPattern& ideal_pattern
);

// Prüfe Pattern
std::pair<Status, bool> hasPattern(
    const std::string& case_id,
    const ProcessPattern& pattern,
    double threshold = 0.8
);

Features:

  • Unterstützt 4 Ähnlichkeitsmethoden (GRAPH, VECTOR, BEHAVIORAL, HYBRID)
  • Integration mit VectorIndex und GraphIndex
  • Pattern Caching für Performance
  • Batch-Operations für große Datenmengen

3. AQL Functions

Datei: include/query/functions/process_mining_functions.h

15 neue AQL-Funktionen:

Pattern Matching (NEU):

  • PM_FIND_SIMILAR(pattern, config) - Finde ähnliche Prozesse
  • PM_COMPARE_IDEAL(case_id, ideal) - Vergleiche mit Ideal
  • PM_HAS_PATTERN(case_id, pattern) - Pattern Check

Event Log:

  • PM_EXTRACT_LOG(collection, config) - Extrahiere Event Log
  • PM_EXTRACT_TRACE(case_id) - Hole Trace für Case

Discovery:

  • PM_DISCOVER_PROCESS(log, config) - Process Discovery
  • PM_VARIANTS(log, top_n) - Varianten-Analyse

Administrative Models (NEU):

  • PM_LOAD_ADMIN_MODEL(model_id) - Lade Admin-Modell
  • PM_LIST_ADMIN_MODELS() - Liste verfügbare Modelle

Conformance:

  • PM_CONFORMANCE(case_id, model) - Conformance Check
  • PM_DEVIATIONS(case_id, model) - Finde Abweichungen

Performance:

  • PM_BOTTLENECKS(log, threshold) - Bottleneck Detection
  • PM_PREDICT_END(case_id) - Predict End Time

Export:

  • PM_EXPORT_BPMN(model) - Export als BPMN 2.0

4. Administrative Models

Datei: config/process_models/administrative_process_models.yaml

5 vordefinierte Modelle:

1. Bauantragsverfahren

id: bauantrag_standard
activities:
  - Antragstellung
  - Vollständigkeitsprüfung
  - Fachliche Prüfung
  - Genehmigung / Ablehnung
  
compliance:
  - §34 BauO (3 Monate SLA)
  - Vier-Augen-Prinzip
  - Dokumentationspflicht

2. Beschaffung

id: beschaffung_vergaberecht
compliance:
  - GWB §119 Schwellenwerte
  - VOB/A Dokumentation
  - Vier-Augen-Prinzip

3. Personaleinstellung

id: personal_einstellung
compliance:
  - AGG (Gleichbehandlung)
  - DSGVO Art. 6
  - Betriebsrat Mitbestimmung

4. Haushaltsplanung

id: haushaltsplanung_jaehrlich
milestones:
  - M1: Bedarfsmeldung (30.09.)
  - M2: Konsolidierung (15.10.)
  - M3: Genehmigung (30.11.)

5. Dokumentenfreigabe

id: dokumenten_freigabe
activities:
  - Entwurf → Fachprüfung → Rechtspr. → Freigabe → Veröffentlichung
compliance:
  - Vier-Augen-Prinzip
  - Versionskontrolle

5. Practical Examples

Datei: docs/de/analytics/PROCESS_MINING_AQL_EXAMPLES.md

10 vollständige Beispiele:

  1. Ähnliche Bauanträge finden
  2. Conformance Checking
  3. Pattern-basierte Filterung
  4. Procurement Process Discovery
  5. Varianten-Analyse (HR)
  6. Bottleneck Detection (Budget)
  7. Predictive Analytics
  8. Model Library browsing
  9. BPMN Export
  10. Cross-Department Analysis

🚀 Verwendungsbeispiele

Beispiel 1: Finde ähnliche Prozesse

-- Lade Bauantrags-Standardmodell
LET ideal = PM_LOAD_ADMIN_MODEL("bauantrag_standard")

-- Finde ähnliche Prozesse (Hybrid-Methode)
LET similar = PM_FIND_SIMILAR(ideal, {
  method: "hybrid",
  threshold: 0.75,
  limit: 50,
  graph_weight: 0.4,
  vector_weight: 0.3,
  behavioral_weight: 0.3
})

FOR result IN similar
  SORT result.overall_similarity DESC
  RETURN {
    case_id: result.case_id,
    similarity: result.overall_similarity,
    matched: result.matched_activities,
    missing: result.missing_activities
  }

Ergebnis:

{
  "case_id": "V-2024-0123",
  "similarity": 0.92,
  "matched": ["Antragstellung", "Vollständigkeitsprüfung", "Fachliche Prüfung", "Genehmigung"],
  "missing": []
}

Beispiel 2: Conformance Checking

-- Prüfe alle Bauanträge auf Abweichungen
FOR case IN bauantraege
  LET comparison = PM_COMPARE_IDEAL(
    case.vorgang_id,
    PM_LOAD_ADMIN_MODEL("bauantrag_standard")
  )
  
  FILTER comparison.fitness < 0.9
  
  RETURN {
    vorgang_id: case.vorgang_id,
    fitness: comparison.fitness,
    deviations: comparison.deviations,
    action: comparison.fitness < 0.7 ? "Urgent review" : "Minor adjustments"
  }

Beispiel 3: Pattern Matching

-- Finde Prozesse mit problematischem Muster
LET problematic_pattern = {
  activities: ["Genehmigung", "Prüfung"],
  edges: [{from: "Genehmigung", to: "Prüfung"}]  -- Falsche Reihenfolge!
}

FOR case IN bauantraege
  FILTER PM_HAS_PATTERN(case.vorgang_id, problematic_pattern, 0.8)
  RETURN {
    vorgang_id: case.vorgang_id,
    alert: "⚠️ Approval before review!"
  }

🔬 Wissenschaftliche Grundlagen

Kern-Publikationen

  1. van der Aalst, W. M. P. (2016)

    • Process Mining: Data Science in Action
    • Grundlagenwerk für Process Mining
  2. Dijkman, R., et al. (2011)

    • Similarity of Business Process Models: Metrics and Evaluation
    • Graph Edit Distance, Strukturähnlichkeit
  3. Weidlich, M., et al. (2011)

    • Behavioural Profiles for Business Process Models
    • Verhaltensbasierte Ähnlichkeit
  4. Evermann, J., et al. (2017)

    • Predicting Process Behaviour Using Deep Learning
    • Vektor-basierte Ansätze

Algorithmen Implementiert

  • Alpha Miner (van der Aalst et al., 2004) - Klassischer Algorithmus
  • Heuristic Miner (Weijters & van der Aalst, 2003) - Robust gegen Rauschen
  • 🟡 Inductive Miner (Leemans et al., 2013) - Stub-Implementierung

Ähnlichkeitsmetriken

Graph-basiert:

  • Graph Edit Distance (GED) - Approximation
  • Jaccard Similarity (Knoten/Kanten)
  • Longest Common Subsequence (LCS)
  • Path-based Similarity

Vektor-basiert:

  • Activity Embeddings (Word2Vec-style)
  • Trace2Vec (Aggregierte Embeddings)
  • Cosine Similarity
  • Integration mit GNN Embeddings

Verhaltens-basiert:

  • Behavioral Profiles (Weak Order Relations)
  • Token Replay Fitness
  • Alignment-basierte Metriken

🎯 Compliance & Verwaltung

Unterstützte Rechtsrahmen

Baurecht:

  • §34 BauO - 3-Monats-Frist
  • Dokumentationspflicht
  • Vier-Augen-Prinzip

Vergaberecht:

  • GWB §119 - EU-Schwellenwerte
  • VOB/A - Dokumentation
  • Vergabearten (Direkt, Beschränkt, Offen)

Arbeitsrecht:

  • AGG - Gleichbehandlung
  • Betriebsrat - Mitbestimmung
  • DSGVO - Datenschutz

Haushaltsrecht:

  • Kommunales Haushaltsrecht
  • Jährlicher Zyklus
  • Genehmigungsstufen

📊 Implementierungsphasen

Phase 1: Research & Design ✅ ABGESCHLOSSEN

Zeitrahmen: Woche 1-2
Status: ✅ Complete

  • Literaturrecherche (11+ Publikationen)
  • Best Practices dokumentiert
  • Ähnlichkeitsmetriken definiert
  • API-Design erstellt
  • 50+ Seiten Dokumentation

Phase 2: Basis-Implementierung ⏳ AUSSTEHEND

Zeitrahmen: Woche 3-4
Status: Pending

  • ProcessPatternMatcher implementieren
  • Graph Similarity Metrics
  • Process Embeddings
  • Integration mit VectorIndex/GraphIndex

Phase 3: AQL Integration ⏳ AUSSTEHEND

Zeitrahmen: Woche 5
Status: Pending

  • AQL Funktionen implementieren
  • Funktion Registration
  • Parser Integration
  • Unit Tests

Phase 4: Administrative Models ⏳ AUSSTEHEND

Zeitrahmen: Woche 6
Status: Pending

  • Model Loader (YAML Parser)
  • Model Validation
  • Compliance Checker
  • SLA-Überwachung

Phase 5: Optimierung ⏳ AUSSTEHEND

Zeitrahmen: Woche 7-8
Status: Pending

  • HNSW-Index für Pattern
  • Caching-Mechanismen
  • Parallelisierung (OpenMP)
  • GPU-Beschleunigung (optional)

Phase 6: Testing & Dokumentation ⏳ AUSSTEHEND

Zeitrahmen: Woche 9
Status: Pending

  • Unit Tests (85%+ Coverage)
  • Integration Tests
  • End-to-End Szenarien
  • Tutorial und Beispiele

🎁 Deliverables

Dokumentation (4 Dateien)

  1. Research & Roadmap (50+ Seiten)

    • Wissenschaftliche Grundlagen
    • Best Practices
    • Implementierungsplan
  2. AQL Examples (30+ Beispiele)

    • 10 vollständige Use Cases
    • Troubleshooting Guide
    • Best Practices
  3. Process Mining Guide (Bestehendes Dokument)

    • Algorithmen-Übersicht
    • API-Referenz

Code (3 Dateien)

  1. process_pattern_matcher.h

    • Core Pattern Matching Class
    • 4 Similarity Methods
    • Cache & Performance
  2. process_mining_functions.h

    • 15 AQL Functions
    • Function Signatures
    • Cost Complexity Models

Konfiguration (1 Datei)

  1. administrative_process_models.yaml
    • 5 Verwaltungsmodelle
    • Compliance Frameworks
    • SLA Definitionen

🔍 Architektur

┌──────────────────────────────────────────────────────────┐
│                    AQL Query Layer                       │
│  PM_FIND_SIMILAR() | PM_COMPARE_IDEAL() | PM_HAS_PATTERN│
└─────────────────────────┬────────────────────────────────┘
                          │
┌─────────────────────────┴────────────────────────────────┐
│              ProcessPatternMatcher                       │
│  - findSimilar()         - compareWithIdeal()            │
│  - hasPattern()          - Similarity Computation        │
└──────┬──────────────┬──────────────┬────────────────────┘
       │              │              │
┌──────┴─────┐  ┌────┴──────┐  ┌───┴──────────┐
│ Graph      │  │ Vector    │  │ Behavioral   │
│ Similarity │  │ Similarity│  │ Similarity   │
│ - GED      │  │ - Cosine  │  │ - LCS        │
│ - Jaccard  │  │ - Embedds │  │ - Profiles   │
└────┬───────┘  └────┬──────┘  └──────┬───────┘
     │               │                 │
┌────┴───────────────┴─────────────────┴────────┐
│         Existing ThemisDB Components          │
│  GraphIndex | VectorIndex | ProcessMining    │
└───────────────────────────────────────────────┘

Integration Points

VectorIndex:

  • Aktivitäts-Embeddings
  • HNSW Similarity Search
  • GNN Embeddings

GraphIndex:

  • Graph-Struktur-Queries
  • Pfad-Analysen
  • Topologie

ProcessMining:

  • Event Log Extraction
  • Process Discovery
  • Conformance Checking

⚡ Performance-Ziele

Skalierbarkeit

  • 100k Prozesse: Ähnlichkeitssuche < 1 Sekunde
  • 1M Prozesse: Inkrementelles Indexing < 5 Sekunden
  • Pattern Cache Hit Rate: > 80%

Optimierungen

  • HNSW-Index für Vektor-Suche
  • Pattern Caching
  • Parallele Verarbeitung (OpenMP)
  • GPU-Beschleunigung (optional, CUDA)

🎓 Use Cases

Verwaltung (Public Administration)

✅ Bauantragsverfahren - Conformance Checking ✅ Vergabeverfahren - Rechtssicherheit ✅ Personalverwaltung - AGG-Compliance

Industrie

  • Produktionsprozesse
  • Qualitätssicherung
  • Supply Chain

Gesundheitswesen

  • Patientenpfade
  • Behandlungsprozesse
  • Compliance

📝 Nächste Schritte

Sofort (diese Woche)

  1. ✅ Research-Dokument erstellt
  2. ✅ API-Design abgeschlossen
  3. ✅ Administrative Models definiert
  4. NEXT: ProcessPatternMatcher implementieren

Nächste Woche

  1. ⏳ Graph Similarity Algorithms
  2. ⏳ Vector-based Matching
  3. ⏳ Administrative Model Loader
  4. ⏳ Unit Tests

Folgender Sprint

  1. ⏳ AQL Function Registration
  2. ⏳ Performance Optimization
  3. ⏳ End-to-End Tests
  4. ⏳ Documentation & Tutorials

📚 Referenzen

Dokumentation

Code

Konfiguration


👥 Team & Kontakt

Project: ThemisDB Process Mining AQL Integration
Phase: Research & Design Complete
Status: Ready for Implementation
Version: 1.0
Datum: 24. Dezember 2025


Zusammenfassung: Die Anforderung "Process Mining in AQL mit Ideal-Prozess-Vergleich und Verwaltungsmodellen" wurde vollständig analysiert und designt. Alle notwendigen Komponenten sind spezifiziert, dokumentiert und bereit für die Implementierung. Die wissenschaftliche Grundlage ist solide (11+ Publikationen), Best Practices sind dokumentiert, und 5 administrative Modelle sind vordefiniert.

Status: ✅ Research & Design Phase Complete
Next: Implementation Phase

ThemisDB Dokumentation

Version: 1.3.0 | Stand: Dezember 2025


📋 Schnellstart


🏗️ Architektur


🗄️ Basismodell


💾 Storage & MVCC


📇 Indexe & Statistiken


🔍 Query & AQL


💰 Caching


📦 Content Pipeline


🔎 Suche


⚡ Performance & Benchmarks


🏢 Enterprise Features


✅ Qualitätssicherung


🧮 Vektor & GNN


🌍 Geo Features


🛡️ Sicherheit & Governance

Authentication

Schlüsselverwaltung

Verschlüsselung

TLS & Certificates

PKI & Signatures

PII Detection

Vault & HSM

Audit & Compliance

Security Audits

Gap Analysis


🚀 Deployment & Betrieb

Docker

Observability

Change Data Capture

Operations


💻 Entwicklung

API Implementations

Changefeed

Security Development

Development Overviews


📄 Publikation & Ablage


🔧 Admin-Tools


🔌 APIs


📚 Client SDKs


📊 Implementierungs-Zusammenfassungen


📅 Planung & Reports


📖 Dokumentation


📝 Release Notes


📖 Styleguide & Glossar


🗺️ Roadmap & Changelog


💾 Source Code Documentation

Main Programs

Source Code Module


🗄️ Archive


🤝 Community & Support


Vollständige Dokumentation: https://makr-code.github.io/ThemisDB/

Clone this wiki locally