feat: add expression rules, registry, and pre-commit hooks

if · if · commit 8eb2111e1780 · 2026-02-04T12:06:01.000+03:00
diff --git a/.pre-commit-config.yaml b/.pre-commit-config.yaml
@@ -0,0 +1,18 @@
+repos:
+  - repo: local
+    hooks:
+      - id: ruff
+        name: ruff
+        entry: ruff check src tests
+        language: system
+        pass_filenames: false
+      - id: black
+        name: black
+        entry: black --check src tests
+        language: system
+        pass_filenames: false
+      - id: pytest
+        name: pytest
+        entry: pytest -vv
+        language: system
+        pass_filenames: false
diff --git a/README.md b/README.md
@@ -3,32 +3,68 @@
 Polars-first data-quality toolkit delivering deterministic validation, structured logging, and a composable rule registry.
 
 ## Why Aqualisys?
-- **Declarative rules**: ship reusable expectations such as not-null, uniqueness, accepted-values, and referential checks.
+- **Declarative rules**: ship reusable expectations such as not-null, uniqueness, accepted-values, referential checks, and full Polars expression rules.
 - **Deterministic logging**: every run is persisted to SQLite (JSON-friendly) for audits and debugging.
 - **Pipeline-ready**: run from Python code or via `aqualisys validate configs/orders.yml` in CI.
 
 ## Quick Start
 ```bash
 python -m venv .venv && source .venv/bin/activate
 pip install -e .[dev]
+pre-commit install
 pytest
 aqualisys validate configs/orders.yml
 ```
 
 ## Usage Example
 ```python
 import polars as pl
-from aqualisys import DataQualityChecker, NotNullRule, UniqueRule, SQLiteRunLogger
+from aqualisys import (
+    DataQualityChecker,
+    ExpressionRule,
+    NotNullRule,
+    UniqueRule,
+    SQLiteRunLogger,
+)
 
-df = pl.DataFrame({"order_id": [1, 2, 3], "status": ["pending", "shipped", "shipped"]})
+df = pl.DataFrame(
+    {
+        "order_id": [1, 2, 3],
+        "status": ["pending", "shipped", "shipped"],
+        "total": [10, 20, 10],
+    }
+)
 checker = DataQualityChecker(
-    rules=[NotNullRule("order_id"), UniqueRule("order_id")],
+    rules=[
+        NotNullRule("order_id"),
+        UniqueRule("order_id"),
+        ExpressionRule("pl.col('total') >= 0", description="Totals stay positive"),
+    ],
     logger=SQLiteRunLogger("artifacts/example_runs.db"),
 )
 report = checker.run(df, dataset_name="orders")
 assert report.passed
 ```
 
+## Rule Catalog
+
+Rules are registered via metadata so configs can reference them by type and even override severity:
+
+```yaml
+rules:
+  - type: not_null
+    column: order_id
+  - type: accepted_values
+    column: order_status
+    allowed_values: ["pending", "shipped", "delivered", "cancelled"]
+  - type: expression
+    expression: "pl.col('total') >= 0"
+    severity: warn
+    description: "Order totals must be non-negative"
+```
+
+Available built-in types today: `not_null`, `unique`, `accepted_values`, `relationship`, and `expression`. Use `severity: warn|error` per rule and add descriptions for richer logging.
+
 ## Project Structure
 - `src/aqualisys/`: library source (rules, checker, logging, CLI).
 - `tests/`: pytest suites (unit + integration).
diff --git a/configs/orders.yml b/configs/orders.yml
@@ -13,3 +13,7 @@ rules:
   - type: accepted_values
     column: order_status
     allowed_values: ["pending", "shipped", "delivered", "cancelled"]
+  - type: expression
+    expression: "pl.col('total') >= 0"
+    severity: warn
+    description: "Order totals must be non-negative"
diff --git a/docs/ROADMAP.md b/docs/ROADMAP.md
@@ -13,21 +13,21 @@
 
 ## Milestones
 1. **Foundation (Week 1)**  
-   - Scaffold repo: `pyproject.toml`, `src/aqualisys`, `tests`.  
-   - Implement minimal Polars rule set (unique, not_null) and SQLite logger.  
-   - Provide quick-start documentation + architecture diagrams in README.
+   - ✅ Scaffold repo: `pyproject.toml`, `src/aqualisys`, `tests`.  
+   - ✅ Implement minimal Polars rule set (unique, not_null) and SQLite logger.  
+   - ✅ Provide quick-start documentation + architecture diagrams in README.
 2. **Rule Expansion (Week 2)**  
-   - Add accepted-values, referential-integrity, expression-based checks.  
-   - Introduce rule registry + tagging for bundles.  
-   - Emit structured results (JSON + SQLite) to support downstream observability.
+   - ✅ Add accepted-values, referential-integrity, expression-based checks (new `ExpressionRule`).  
+   - ✅ Introduce rule registry + tagging for bundles (config now resolves via metadata, severity overrides supported).  
+   - ✅ Emit structured results (JSON + SQLite) to support downstream observability.
 3. **Configuration & CLI (Week 3)**  
    - YAML config parser, CLI wrappers for running suites locally or in CI.  
    - Support `--fail-fast`, severity overrides, include/exclude selectors.  
    - Harden logging with retries + summary tables.
 4. **DX & Publishing (Week 4)**  
    - Add docs site snippets, end-to-end demo notebook, telemetry opt-in.  
-   - Set up `uv build`, publish to TestPyPI, smoke-test install, then promote to PyPI.  
-   - Configure CI (lint, type-check, pytest with coverage) and badges.
+   - ✅ Set up `uv build`, publish to TestPyPI, smoke-test install, then promote to PyPI.  
+   - ✅ Configure CI (lint, type-check, pytest with coverage) and badges.
 
 ## Success Metrics
 - Unit + integration coverage ≥90% on validators/loggers.  
diff --git a/pyproject.toml b/pyproject.toml
@@ -22,6 +22,7 @@ dev = [
     "mypy>=1.8.0",
     "pytest>=7.4.4",
     "pytest-cov>=4.1.0",
+    "pre-commit>=3.5.0",
     "ruff>=0.2.1",
 ]
 
diff --git a/src/aqualisys/__init__.py b/src/aqualisys/__init__.py
@@ -5,12 +5,19 @@
 """
 
 from .checker import DataQualityChecker, RuleBundle
-from .checks.rules import AcceptedValuesRule, NotNullRule, RelationshipRule, UniqueRule
+from .checks.rules import (
+    AcceptedValuesRule,
+    ExpressionRule,
+    NotNullRule,
+    RelationshipRule,
+    UniqueRule,
+)
 from .logging.sqlite import SQLiteRunLogger
 
 __all__ = [
     "AcceptedValuesRule",
     "DataQualityChecker",
+    "ExpressionRule",
     "NotNullRule",
     "RelationshipRule",
     "RuleBundle",
diff --git a/src/aqualisys/checks/registry.py b/src/aqualisys/checks/registry.py
@@ -0,0 +1,177 @@
+from __future__ import annotations
+
+from collections.abc import Callable, Iterable, Mapping
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Any
+
+import polars as pl
+
+from .base import BaseRule, RuleSeverity
+from .rules import (
+    AcceptedValuesRule,
+    ExpressionRule,
+    NotNullRule,
+    RelationshipRule,
+    UniqueRule,
+)
+
+RuleFactory = Callable[[Mapping[str, Any]], BaseRule]
+
+
+@dataclass(frozen=True)
+class RuleDefinition:
+    name: str
+    description: str
+    tags: frozenset[str]
+    builder: RuleFactory
+
+
+_REGISTRY: dict[str, RuleDefinition] = {}
+
+
+def _register_builtin(
+    name: str,
+    builder: RuleFactory,
+    *,
+    description: str,
+    tags: Iterable[str],
+) -> None:
+    register_rule(name, builder, description=description, tags=tags)
+
+
+def register_rule(
+    name: str,
+    builder: RuleFactory,
+    *,
+    description: str = "",
+    tags: Iterable[str] | None = None,
+) -> None:
+    key = name.lower()
+    if key in _REGISTRY:
+        raise ValueError(f"rule '{name}' is already registered")
+    _REGISTRY[key] = RuleDefinition(
+        name=name,
+        description=description,
+        tags=frozenset(tags or ()),
+        builder=builder,
+    )
+
+
+def get_rule(name: str) -> RuleDefinition:
+    try:
+        return _REGISTRY[name.lower()]
+    except KeyError as exc:  # pragma: no cover - defensive
+        raise KeyError(f"unknown rule type: {name}") from exc
+
+
+def list_rules(tag: str | None = None) -> list[RuleDefinition]:
+    definitions = _REGISTRY.values()
+    if tag:
+        tag = tag.lower()
+        definitions = [
+            definition for definition in definitions if tag in definition.tags
+        ]
+    return sorted(definitions, key=lambda definition: definition.name)
+
+
+def _resolve_severity(config: Mapping[str, Any]) -> RuleSeverity:
+    level = config.get("severity")
+    if not level:
+        return RuleSeverity.ERROR
+    try:
+        return RuleSeverity(level.lower())
+    except ValueError as exc:
+        raise ValueError(f"unknown severity '{level}'") from exc
+
+
+def _resolve_description(
+    config: Mapping[str, Any],
+    fallback: str,
+) -> str:
+    return config.get("description") or fallback
+
+
+def _build_not_null(config: Mapping[str, Any]) -> BaseRule:
+    return NotNullRule(
+        column=config["column"],
+        severity=_resolve_severity(config),
+        description=_resolve_description(config, f"NotNull on {config['column']}"),
+    )
+
+
+def _build_unique(config: Mapping[str, Any]) -> BaseRule:
+    return UniqueRule(
+        column=config["column"],
+        severity=_resolve_severity(config),
+        description=_resolve_description(config, f"Unique on {config['column']}"),
+    )
+
+
+def _build_accepted_values(config: Mapping[str, Any]) -> BaseRule:
+    return AcceptedValuesRule(
+        column=config["column"],
+        allowed_values=config["allowed_values"],
+        severity=_resolve_severity(config),
+    )
+
+
+def _build_relationship(config: Mapping[str, Any]) -> BaseRule:
+    reference_cfg = config["reference"]
+    ref_path = Path(reference_cfg["path"])
+    ref_format = reference_cfg.get("format", "parquet")
+    if ref_format == "parquet":
+        reference_df = pl.read_parquet(ref_path)
+    elif ref_format == "csv":
+        reference_df = pl.read_csv(ref_path)
+    else:  # pragma: no cover - validated via config tests
+        raise ValueError(f"unsupported reference format: {ref_format}")
+    return RelationshipRule(
+        column=config["column"],
+        reference_df=reference_df,
+        reference_column=reference_cfg["column"],
+        severity=_resolve_severity(config),
+    )
+
+
+def _build_expression(config: Mapping[str, Any]) -> BaseRule:
+    return ExpressionRule(
+        expression=config["expression"],
+        severity=_resolve_severity(config),
+        description=_resolve_description(
+            config,
+            f"Expression rule {config['expression']}",
+        ),
+    )
+
+
+_register_builtin(
+    name="not_null",
+    builder=_build_not_null,
+    description="Fails when the specified column contains null values.",
+    tags=("nulls", "integrity"),
+)
+_register_builtin(
+    name="unique",
+    builder=_build_unique,
+    description="Fails when duplicate values are detected in the column.",
+    tags=("uniqueness", "integrity"),
+)
+_register_builtin(
+    name="accepted_values",
+    builder=_build_accepted_values,
+    description="Ensures all column values are part of an allowed set.",
+    tags=("reference", "categorical"),
+)
+_register_builtin(
+    name="relationship",
+    builder=_build_relationship,
+    description="Verifies referential integrity with an on-disk reference dataset.",
+    tags=("reference", "integrity"),
+)
+_register_builtin(
+    name="expression",
+    builder=_build_expression,
+    description="Evaluates a boolean Polars expression defined as a string.",
+    tags=("expression", "flexible"),
+)
diff --git a/src/aqualisys/checks/rules.py b/src/aqualisys/checks/rules.py
@@ -128,3 +128,55 @@ def evaluate(self, df: pl.DataFrame) -> RuleResult:
                 "reference_size": len(reference_set),
             },
         )
+
+
+class ExpressionRule(BaseRule):
+    """Evaluates a boolean Polars expression string for every row."""
+
+    def __init__(
+        self,
+        expression: str,
+        *,
+        severity: RuleSeverity = RuleSeverity.ERROR,
+        description: str | None = None,
+    ) -> None:
+        self.expression = expression
+        self.severity = severity
+        self.description = description or f"ExpressionRule on {expression}"
+
+    @property
+    def name(self) -> str:
+        return f"ExpressionRule::{self.expression}"
+
+    def _compile(self) -> pl.Expr:
+        try:
+            compiled = eval(self.expression, {"pl": pl}, {})
+        except Exception as exc:  # pragma: no cover - exercised via tests
+            raise ValueError(f"invalid expression: {self.expression}") from exc
+        if not isinstance(compiled, pl.Expr):
+            raise ValueError(
+                "expression must evaluate to a Polars expression, got "
+                f"{type(compiled)!r}"
+            )
+        return compiled
+
+    def evaluate(self, df: pl.DataFrame) -> RuleResult:
+        expr = self._compile()
+        result_series = df.select(expr.alias("result")).to_series()
+        violations = int((~result_series).sum())
+        status = RuleStatus.PASSED if violations == 0 else RuleStatus.FAILED
+        message = (
+            "expression satisfied for all rows"
+            if status is RuleStatus.PASSED
+            else f"{violations} expression violations detected"
+        )
+        return RuleResult(
+            rule_name=self.name,
+            status=status,
+            message=message,
+            severity=self.severity,
+            metrics={
+                "expression": self.expression,
+                "violation_count": violations,
+            },
+        )
diff --git a/src/aqualisys/config.py b/src/aqualisys/config.py
diff --git a/tests/unit/test_config.py b/tests/unit/test_config.py
diff --git a/tests/unit/test_rules.py b/tests/unit/test_rules.py

Original file line number	Diff line number	Diff line change
`@@ -22,6 +22,7 @@ dev = [`
`22`	`22`	`"mypy>=1.8.0",`
`23`	`23`	`"pytest>=7.4.4",`
`24`	`24`	`"pytest-cov>=4.1.0",`
	`25`	`+ "pre-commit>=3.5.0",`
`25`	`26`	`"ruff>=0.2.1",`
`26`	`27`	`]`
`27`	`28`