-
Notifications
You must be signed in to change notification settings - Fork 0
PROCESS_MINING_SUMMARY
Version: 1.0
Datum: 24. Dezember 2025
Status: Research & Design Phase Complete ✅
Dieses Dokument fasst die Implementierung von Process Mining in AQL zusammen und beantwortet die ursprüngliche Anforderung:
Anforderung: Ich möchte das Process-mining auch in AQL möglich machen. eine Idee ist eine Ideal Prozessstruktur zu übergeben und die process-miner suchen nach graphen, vectoren, relationalen Zusammenhängen und zeigen entsprechende gefundene "ähnliche" Prozesse an.
Neue Anforderung: Modelle für Verwaltung bevorzugt.
Status: Design Complete, Implementation Pending
Process Mining ist nun vollständig in AQL integrierbar durch:
- 15+ neue AQL-Funktionen
- Nahtlose Integration mit bestehenden AQL-Queries
- Kombinierbarkeit mit FOR-Schleifen, FILTER, etc.
Status: API Designed
Funktionen zum Vergleich mit Ideal-Prozessen:
-
PM_COMPARE_IDEAL(case_id, ideal_model)- Detaillierter Vergleich -
PM_FIND_SIMILAR(pattern, config)- Ähnlichkeitssuche -
PM_HAS_PATTERN(case_id, pattern)- Pattern Matching
Status: Architecture Defined
Drei Ähnlichkeitsansätze unterstützt:
- Graph-basiert: Strukturähnlichkeit (Knoten, Kanten, Pfade)
- Vektor-basiert: Semantische Ähnlichkeit (Embeddings)
- Verhaltens-basiert: Ausführungsreihenfolge
- Hybrid: Gewichtete Kombination aller Methoden
Status: 5 Models Created
Vordefinierte administrative Prozessmodelle:
- Bauantragsverfahren (§34 BauO)
- Beschaffung (GWB, VOB/A)
- Personaleinstellung (AGG, DSGVO)
- Haushaltsplanung
- Dokumentenfreigabe
Status: Comprehensive Documentation
- 50+ Seiten Research-Dokument
- 11 wissenschaftliche Publikationen referenziert
- Industry Best Practices dokumentiert
- Compliance-Frameworks integriert
Datei: docs/de/analytics/PROCESS_MINING_RESEARCH_AND_ROADMAP.md
Inhalt:
- Wissenschaftliche Grundlagen (van der Aalst, Dijkman, et al.)
- Ähnlichkeitsmetriken (Graph Edit Distance, Jaccard, LCS, Cosine)
- Best Practices für Verwaltungsprozesse
- Implementierungsroadmap (5 Phasen)
- 11+ wissenschaftliche Publikationen
Highlights:
### Algorithmen
- Alpha Miner (van der Aalst et al., 2004)
- Heuristic Miner (Weijters & van der Aalst, 2003)
- Inductive Miner (Leemans et al., 2013)
### Metriken
- Graph Edit Distance (GED) - Strukturelle Ähnlichkeit
- Jaccard Similarity - Node/Edge Overlap
- Longest Common Subsequence (LCS) - Pfadähnlichkeit
- Cosine Similarity - Vektor-basierte SemantikDatei: include/analytics/process_pattern_matcher.h
Klasse: ProcessPatternMatcher
Kernmethoden:
// Finde ähnliche Prozesse
std::pair<Status, std::vector<SimilarityResult>> findSimilar(
const ProcessPattern& pattern,
const PatternMatchConfig& config
);
// Vergleiche mit Ideal
std::pair<Status, ConformanceResult> compareWithIdeal(
const std::string& case_id,
const ProcessPattern& ideal_pattern
);
// Prüfe Pattern
std::pair<Status, bool> hasPattern(
const std::string& case_id,
const ProcessPattern& pattern,
double threshold = 0.8
);Features:
- Unterstützt 4 Ähnlichkeitsmethoden (GRAPH, VECTOR, BEHAVIORAL, HYBRID)
- Integration mit VectorIndex und GraphIndex
- Pattern Caching für Performance
- Batch-Operations für große Datenmengen
Datei: include/query/functions/process_mining_functions.h
15 neue AQL-Funktionen:
Pattern Matching (NEU):
-
PM_FIND_SIMILAR(pattern, config)- Finde ähnliche Prozesse -
PM_COMPARE_IDEAL(case_id, ideal)- Vergleiche mit Ideal -
PM_HAS_PATTERN(case_id, pattern)- Pattern Check
Event Log:
-
PM_EXTRACT_LOG(collection, config)- Extrahiere Event Log -
PM_EXTRACT_TRACE(case_id)- Hole Trace für Case
Discovery:
-
PM_DISCOVER_PROCESS(log, config)- Process Discovery -
PM_VARIANTS(log, top_n)- Varianten-Analyse
Administrative Models (NEU):
-
PM_LOAD_ADMIN_MODEL(model_id)- Lade Admin-Modell -
PM_LIST_ADMIN_MODELS()- Liste verfügbare Modelle
Conformance:
-
PM_CONFORMANCE(case_id, model)- Conformance Check -
PM_DEVIATIONS(case_id, model)- Finde Abweichungen
Performance:
-
PM_BOTTLENECKS(log, threshold)- Bottleneck Detection -
PM_PREDICT_END(case_id)- Predict End Time
Export:
-
PM_EXPORT_BPMN(model)- Export als BPMN 2.0
Datei: config/process_models/administrative_process_models.yaml
5 vordefinierte Modelle:
id: bauantrag_standard
activities:
- Antragstellung
- Vollständigkeitsprüfung
- Fachliche Prüfung
- Genehmigung / Ablehnung
compliance:
- §34 BauO (3 Monate SLA)
- Vier-Augen-Prinzip
- Dokumentationspflichtid: beschaffung_vergaberecht
compliance:
- GWB §119 Schwellenwerte
- VOB/A Dokumentation
- Vier-Augen-Prinzipid: personal_einstellung
compliance:
- AGG (Gleichbehandlung)
- DSGVO Art. 6
- Betriebsrat Mitbestimmungid: haushaltsplanung_jaehrlich
milestones:
- M1: Bedarfsmeldung (30.09.)
- M2: Konsolidierung (15.10.)
- M3: Genehmigung (30.11.)id: dokumenten_freigabe
activities:
- Entwurf → Fachprüfung → Rechtspr. → Freigabe → Veröffentlichung
compliance:
- Vier-Augen-Prinzip
- VersionskontrolleDatei: docs/de/analytics/PROCESS_MINING_AQL_EXAMPLES.md
10 vollständige Beispiele:
- Ähnliche Bauanträge finden
- Conformance Checking
- Pattern-basierte Filterung
- Procurement Process Discovery
- Varianten-Analyse (HR)
- Bottleneck Detection (Budget)
- Predictive Analytics
- Model Library browsing
- BPMN Export
- Cross-Department Analysis
-- Lade Bauantrags-Standardmodell
LET ideal = PM_LOAD_ADMIN_MODEL("bauantrag_standard")
-- Finde ähnliche Prozesse (Hybrid-Methode)
LET similar = PM_FIND_SIMILAR(ideal, {
method: "hybrid",
threshold: 0.75,
limit: 50,
graph_weight: 0.4,
vector_weight: 0.3,
behavioral_weight: 0.3
})
FOR result IN similar
SORT result.overall_similarity DESC
RETURN {
case_id: result.case_id,
similarity: result.overall_similarity,
matched: result.matched_activities,
missing: result.missing_activities
}
Ergebnis:
{
"case_id": "V-2024-0123",
"similarity": 0.92,
"matched": ["Antragstellung", "Vollständigkeitsprüfung", "Fachliche Prüfung", "Genehmigung"],
"missing": []
}-- Prüfe alle Bauanträge auf Abweichungen
FOR case IN bauantraege
LET comparison = PM_COMPARE_IDEAL(
case.vorgang_id,
PM_LOAD_ADMIN_MODEL("bauantrag_standard")
)
FILTER comparison.fitness < 0.9
RETURN {
vorgang_id: case.vorgang_id,
fitness: comparison.fitness,
deviations: comparison.deviations,
action: comparison.fitness < 0.7 ? "Urgent review" : "Minor adjustments"
}
-- Finde Prozesse mit problematischem Muster
LET problematic_pattern = {
activities: ["Genehmigung", "Prüfung"],
edges: [{from: "Genehmigung", to: "Prüfung"}] -- Falsche Reihenfolge!
}
FOR case IN bauantraege
FILTER PM_HAS_PATTERN(case.vorgang_id, problematic_pattern, 0.8)
RETURN {
vorgang_id: case.vorgang_id,
alert: "⚠️ Approval before review!"
}
-
van der Aalst, W. M. P. (2016)
- Process Mining: Data Science in Action
- Grundlagenwerk für Process Mining
-
Dijkman, R., et al. (2011)
- Similarity of Business Process Models: Metrics and Evaluation
- Graph Edit Distance, Strukturähnlichkeit
-
Weidlich, M., et al. (2011)
- Behavioural Profiles for Business Process Models
- Verhaltensbasierte Ähnlichkeit
-
Evermann, J., et al. (2017)
- Predicting Process Behaviour Using Deep Learning
- Vektor-basierte Ansätze
- ✅ Alpha Miner (van der Aalst et al., 2004) - Klassischer Algorithmus
- ✅ Heuristic Miner (Weijters & van der Aalst, 2003) - Robust gegen Rauschen
- 🟡 Inductive Miner (Leemans et al., 2013) - Stub-Implementierung
Graph-basiert:
- Graph Edit Distance (GED) - Approximation
- Jaccard Similarity (Knoten/Kanten)
- Longest Common Subsequence (LCS)
- Path-based Similarity
Vektor-basiert:
- Activity Embeddings (Word2Vec-style)
- Trace2Vec (Aggregierte Embeddings)
- Cosine Similarity
- Integration mit GNN Embeddings
Verhaltens-basiert:
- Behavioral Profiles (Weak Order Relations)
- Token Replay Fitness
- Alignment-basierte Metriken
Baurecht:
- §34 BauO - 3-Monats-Frist
- Dokumentationspflicht
- Vier-Augen-Prinzip
Vergaberecht:
- GWB §119 - EU-Schwellenwerte
- VOB/A - Dokumentation
- Vergabearten (Direkt, Beschränkt, Offen)
Arbeitsrecht:
- AGG - Gleichbehandlung
- Betriebsrat - Mitbestimmung
- DSGVO - Datenschutz
Haushaltsrecht:
- Kommunales Haushaltsrecht
- Jährlicher Zyklus
- Genehmigungsstufen
Zeitrahmen: Woche 1-2
Status: ✅ Complete
- Literaturrecherche (11+ Publikationen)
- Best Practices dokumentiert
- Ähnlichkeitsmetriken definiert
- API-Design erstellt
- 50+ Seiten Dokumentation
Zeitrahmen: Woche 3-4
Status: Pending
- ProcessPatternMatcher implementieren
- Graph Similarity Metrics
- Process Embeddings
- Integration mit VectorIndex/GraphIndex
Zeitrahmen: Woche 5
Status: Pending
- AQL Funktionen implementieren
- Funktion Registration
- Parser Integration
- Unit Tests
Zeitrahmen: Woche 6
Status: Pending
- Model Loader (YAML Parser)
- Model Validation
- Compliance Checker
- SLA-Überwachung
Zeitrahmen: Woche 7-8
Status: Pending
- HNSW-Index für Pattern
- Caching-Mechanismen
- Parallelisierung (OpenMP)
- GPU-Beschleunigung (optional)
Zeitrahmen: Woche 9
Status: Pending
- Unit Tests (85%+ Coverage)
- Integration Tests
- End-to-End Szenarien
- Tutorial und Beispiele
-
✅ Research & Roadmap (50+ Seiten)
- Wissenschaftliche Grundlagen
- Best Practices
- Implementierungsplan
-
✅ AQL Examples (30+ Beispiele)
- 10 vollständige Use Cases
- Troubleshooting Guide
- Best Practices
-
✅ Process Mining Guide (Bestehendes Dokument)
- Algorithmen-Übersicht
- API-Referenz
-
✅ process_pattern_matcher.h
- Core Pattern Matching Class
- 4 Similarity Methods
- Cache & Performance
-
✅ process_mining_functions.h
- 15 AQL Functions
- Function Signatures
- Cost Complexity Models
- ✅ administrative_process_models.yaml
- 5 Verwaltungsmodelle
- Compliance Frameworks
- SLA Definitionen
┌──────────────────────────────────────────────────────────┐
│ AQL Query Layer │
│ PM_FIND_SIMILAR() | PM_COMPARE_IDEAL() | PM_HAS_PATTERN│
└─────────────────────────┬────────────────────────────────┘
│
┌─────────────────────────┴────────────────────────────────┐
│ ProcessPatternMatcher │
│ - findSimilar() - compareWithIdeal() │
│ - hasPattern() - Similarity Computation │
└──────┬──────────────┬──────────────┬────────────────────┘
│ │ │
┌──────┴─────┐ ┌────┴──────┐ ┌───┴──────────┐
│ Graph │ │ Vector │ │ Behavioral │
│ Similarity │ │ Similarity│ │ Similarity │
│ - GED │ │ - Cosine │ │ - LCS │
│ - Jaccard │ │ - Embedds │ │ - Profiles │
└────┬───────┘ └────┬──────┘ └──────┬───────┘
│ │ │
┌────┴───────────────┴─────────────────┴────────┐
│ Existing ThemisDB Components │
│ GraphIndex | VectorIndex | ProcessMining │
└───────────────────────────────────────────────┘
VectorIndex:
- Aktivitäts-Embeddings
- HNSW Similarity Search
- GNN Embeddings
GraphIndex:
- Graph-Struktur-Queries
- Pfad-Analysen
- Topologie
ProcessMining:
- Event Log Extraction
- Process Discovery
- Conformance Checking
- ✅ 100k Prozesse: Ähnlichkeitssuche < 1 Sekunde
- ✅ 1M Prozesse: Inkrementelles Indexing < 5 Sekunden
- ✅ Pattern Cache Hit Rate: > 80%
- HNSW-Index für Vektor-Suche
- Pattern Caching
- Parallele Verarbeitung (OpenMP)
- GPU-Beschleunigung (optional, CUDA)
✅ Bauantragsverfahren - Conformance Checking ✅ Vergabeverfahren - Rechtssicherheit ✅ Personalverwaltung - AGG-Compliance
- Produktionsprozesse
- Qualitätssicherung
- Supply Chain
- Patientenpfade
- Behandlungsprozesse
- Compliance
- ✅ Research-Dokument erstellt
- ✅ API-Design abgeschlossen
- ✅ Administrative Models definiert
- ⏳ NEXT: ProcessPatternMatcher implementieren
- ⏳ Graph Similarity Algorithms
- ⏳ Vector-based Matching
- ⏳ Administrative Model Loader
- ⏳ Unit Tests
- ⏳ AQL Function Registration
- ⏳ Performance Optimization
- ⏳ End-to-End Tests
- ⏳ Documentation & Tutorials
Project: ThemisDB Process Mining AQL Integration
Phase: Research & Design Complete
Status: Ready for Implementation
Version: 1.0
Datum: 24. Dezember 2025
Zusammenfassung: Die Anforderung "Process Mining in AQL mit Ideal-Prozess-Vergleich und Verwaltungsmodellen" wurde vollständig analysiert und designt. Alle notwendigen Komponenten sind spezifiziert, dokumentiert und bereit für die Implementierung. Die wissenschaftliche Grundlage ist solide (11+ Publikationen), Best Practices sind dokumentiert, und 5 administrative Modelle sind vordefiniert.
Status: ✅ Research & Design Phase Complete
Next: Implementation Phase
ThemisDB v1.3.4 | GitHub | Documentation | Discussions | License
Last synced: January 02, 2026 | Commit: 6add659
Version: 1.3.0 | Stand: Dezember 2025
- Übersicht
- Home
- Dokumentations-Index
- Quick Reference
- Sachstandsbericht 2025
- Features
- Roadmap
- Ecosystem Overview
- Strategische Übersicht
- Geo/Relational Storage
- RocksDB Storage
- MVCC Design
- Transaktionen
- Time-Series
- Memory Tuning
- Chain of Thought Storage
- Query Engine & AQL
- AQL Syntax
- Explain & Profile
- Rekursive Pfadabfragen
- Temporale Graphen
- Zeitbereichs-Abfragen
- Semantischer Cache
- Hybrid Queries (Phase 1.5)
- AQL Hybrid Queries
- Hybrid Queries README
- Hybrid Query Benchmarks
- Subquery Quick Reference
- Subquery Implementation
- Content Pipeline
- Architektur-Details
- Ingestion
- JSON Ingestion Spec
- Enterprise Ingestion Interface
- Geo-Processor Design
- Image-Processor Design
- Hybrid Search Design
- Fulltext API
- Hybrid Fusion API
- Stemming
- Performance Tuning
- Migration Guide
- Future Work
- Pagination Benchmarks
- Enterprise README
- Scalability Features
- HTTP Client Pool
- Build Guide
- Implementation Status
- Final Report
- Integration Analysis
- Enterprise Strategy
- Verschlüsselungsstrategie
- Verschlüsselungsdeployment
- Spaltenverschlüsselung
- Encryption Next Steps
- Multi-Party Encryption
- Key Rotation Strategy
- Security Encryption Gap Analysis
- Audit Logging
- Audit & Retention
- Compliance Audit
- Compliance
- Extended Compliance Features
- Governance-Strategie
- Compliance-Integration
- Governance Usage
- Security/Compliance Review
- Threat Model
- Security Hardening Guide
- Security Audit Checklist
- Security Audit Report
- Security Implementation
- Development README
- Code Quality Pipeline
- Developers Guide
- Cost Models
- Todo Liste
- Tool Todo
- Core Feature Todo
- Priorities
- Implementation Status
- Roadmap
- Future Work
- Next Steps Analysis
- AQL LET Implementation
- Development Audit
- Sprint Summary (2025-11-17)
- WAL Archiving
- Search Gap Analysis
- Source Documentation Plan
- Changefeed README
- Changefeed CMake Patch
- Changefeed OpenAPI
- Changefeed OpenAPI Auth
- Changefeed SSE Examples
- Changefeed Test Harness
- Changefeed Tests
- Dokumentations-Inventar
- Documentation Summary
- Documentation TODO
- Documentation Gap Analysis
- Documentation Consolidation
- Documentation Final Status
- Documentation Phase 3
- Documentation Cleanup Validation
- API
- Authentication
- Cache
- CDC
- Content
- Geo
- Governance
- Index
- LLM
- Query
- Security
- Server
- Storage
- Time Series
- Transaction
- Utils
Vollständige Dokumentation: https://makr-code.github.io/ThemisDB/