VeridisQuo

Where is the truth?

What is Veridis Quo?

A state-of-the-art neural network designed to detect deepfake videos and highlight the altered areas in each frame using explainable AI.

Try it online!

Result

Pipeline

%%{init: {'theme': 'base', 'themeVariables': { 'primaryColor': '#1a1a2e', 'primaryTextColor': '#fff', 'lineColor': '#ffffff', 'background': '#0d1117', 'mainBkg': '#0d1117'}}}%%

flowchart TB
    subgraph Preprocess[" Preprocess "]
        A[MP4 Video] --> B[Frames extraction]
        B --> C[Faces detection]
        C --> D[Faces extraction]
    end

    D --> E
    D --> G
    D --> H

    subgraph Processing[" "]
        direction LR
        subgraph Spatial_Module[" Spatial Module "]
            E[Features ExtractionEfficientNet] -->|"1792, 7, 7"| F((Pooled))
        end

        subgraph Frequency_Module[" Frequency Module "]
            G[DCT Extractor8×8, freq_bands] -->|"512"| I((Concat))
            H[FFT Extractorradial=8, hann] -->|"512"| I
            I -->|"1024"| J[FusionMLP1024→512→1024]
        end
    end

    F -->|"1792"| K
    J -->|"1024"| K

    subgraph Classifier_Module[" Classifier Module "]
        K((Concat)) -->|"2816"| L[MLP]
        L --> M[Frames Aggregation]
        M --> N[Final Score]
    end

    E --> O
    D --> Q

    subgraph Gradcam_Module[" Gradcam Module "]
        O[Gradcam Computation] --> P[Gradcam Visualization]
        P --> Q((Remap))
        Q --> R[Final Manipulated Video]
    end

    %% Styling
    classDef preprocess fill:#1a1a2e,stroke:#f59e0b,color:#f59e0b
    classDef spatial fill:#1a1a2e,stroke:#10b981,color:#10b981
    classDef frequency fill:#1a1a2e,stroke:#3b82f6,color:#3b82f6
    classDef classifier fill:#1a1a2e,stroke:#ec4899,color:#ec4899
    classDef gradcam fill:#1a1a2e,stroke:#a855f7,color:#a855f7
    classDef default fill:#1a1a2e,stroke:#6b7280,color:#fff

    class B,C,D preprocess
    class E,F spatial
    class G,H,I,J frequency
    class K,L,M,N classifier
    class O,P,Q,R gradcam

    style Preprocess fill:#0d1117,stroke:#f59e0b,color:#f59e0b
    style Spatial_Module fill:#0d1117,stroke:#10b981,color:#10b981
    style Frequency_Module fill:#0d1117,stroke:#3b82f6,color:#3b82f6
    style Classifier_Module fill:#0d1117,stroke:#ec4899,color:#ec4899
    style Gradcam_Module fill:#0d1117,stroke:#a855f7,color:#a855f7
    style Processing fill:transparent,stroke:none

Model Architecture

Hybrid Detection System

graph LR
    Input["Input Image<br/>224×224×3"] --> Spatial["<b>Spatial Stream</b><br/>EfficientNet-B4<br/>(ImageNet)"]
    Input --> Frequency["<b>Frequency Stream</b>"]

    Frequency --> FFT["FFT Extractor<br/>8 radial bands<br/>Hann window"]
    Frequency --> DCT["DCT Extractor<br/>8×8 blocks<br/>frequency bands"]

    FFT --> FFT_Out["512-dim"]
    DCT --> DCT_Out["512-dim"]

    FFT_Out --> Fusion["Fusion MLP"]
    DCT_Out --> Fusion

    Spatial --> Spatial_Out["1792-dim"]
    Fusion --> Fusion_Out["1024-dim"]

    Spatial_Out --> Concat["Concatenate<br/>2816-dim"]
    Fusion_Out --> Concat

    Concat --> Classifier["<b>Classifier MLP</b><br/>1024 → 512 → 256"]
    Classifier --> Output["Output<br/>FAKE/REAL<br/>+ confidence"]

    style Input fill:#1e293b,stroke:#3b82f6,stroke-width:2px,color:#fff
    style Spatial fill:#0f172a,stroke:#10b981,stroke-width:2px,color:#10b981
    style Frequency fill:#0f172a,stroke:#3b82f6,stroke-width:2px,color:#3b82f6
    style FFT fill:#0d1117,stroke:#06b6d4,color:#06b6d4
    style DCT fill:#0d1117,stroke:#06b6d4,color:#06b6d4
    style Fusion fill:#0d1117,stroke:#3b82f6,color:#3b82f6
    style Classifier fill:#0f172a,stroke:#ec4899,stroke-width:2px,color:#ec4899
    style Output fill:#1e293b,stroke:#a855f7,stroke-width:2px,color:#fff
    style Concat fill:#0d1117,stroke:#8b5cf6,color:#8b5cf6
    style FFT_Out fill:#0d1117,stroke:#64748b,color:#64748b
    style DCT_Out fill:#0d1117,stroke:#64748b,color:#64748b
    style Spatial_Out fill:#0d1117,stroke:#64748b,color:#64748b
    style Fusion_Out fill:#0d1117,stroke:#64748b,color:#64748b

Model Specifications

Specification	Value
Total Parameters	25.05M params
Input Size	224×224 RGB
Output	Binary (FAKE/REAL) + confidence
Backbone	EfficientNet-B4 (19.34M params)
Frequency Module	2.16M params
Classifier	3.54M params

Training

Infrastructure

We trained the model on an RTX 3090 (with CUDA) for approximately 4 hours. We used the GPU provider vast.ai

The training file is located in the training/trainer.py module

Specs
GPU
Framework
Duration

Dataset

Source

We started from an existing dataset found on Kaggle:
FaceForensics++ Dataset (C23)

Containing 7000 videos with numerous deepfake techniques:

We extracted the frames and faces from these videos to create our dataset: VeridisQuo Preprocessed Dataset

Preprocessing Pipeline

The dataset was built using the following pipeline:

Frame Extraction: 1 FPS from videos (PyAV GPU-accelerated)
Face Detection: YOLOv11n-face-detection (confidence ≥ 0.7)
Face Extraction: 224×224 crops with 20px padding
Dataset Split: Stratified 70/15/15 split
Class Balancing: Oversample minority class

Distribution

Split	Samples	Ratio
Train	499,965	70%
Test	107,620	15%
Eval	108,853	15%

Total: 716,438 images

Configuration & Results

Configuration

Parameter	Value
`batch_size`	64
`learning_rate`	0.0001
`min_learning_rate`	0.000001
`num_epochs`	7
`weight_decay`	0.0001
`optimizer`	AdamW
`scheduler`	Warmup + Cosine Annealing
`warmup_epochs`	2
`use_automixed_precision`	false
`loss_func`	CrossEntropyLoss

Results

Training Accuracy

Training Loss

API Reference

Endpoints

Method	Endpoint	Description
`GET`	`/api/v1/health`	Health check and model status
`POST`	`/api/v1/analyze`	Analyze video for deepfakes
`GET`	`/api/v1/outputs/{filename}`	Download GradCAM visualization
`DELETE`	`/api/v1/outputs/{filename}`	Delete output file

Request Format (POST /api/v1/analyze)

curl -X POST http://localhost:8000/api/v1/analyze \
  -F "file=@video.mp4" \
  -F "fps=1" \
  -F "aggregation_method=majority" \
  -F "generate_gradcam=true"

Parameters:

file: Video file (MP4, AVI, MOV, MKV, WEBM)
fps: Frames per second to extract (default: 1)
aggregation_method: Score aggregation (default: majority)
generate_gradcam: Generate visualization video (default: false)

Response Format

{
  "prediction": "FAKE",
  "confidence": 0.8734,
  "aggregation_method": "majority",
  "total_frames": 120,
  "gradcam_video_path": "/api/v1/outputs/gradcam_video_20250102.mp4"
}

Quick Start

Prerequisites

Python 3.12 or 3.13
uv package manager
Node.js 18+ and npm (optional, for frontend)
CUDA 11.8+ (optional, for GPU acceleration)

Clone project

# Clone repository
git clone https://github.com/VeridisQuo-orga/VeridisQuo.git
cd VeridisQuo

Launch backend

chmod +x ./scripts/launch_api.sh
./scripts/launch_api.sh

server runs on http://localhost:8000 | Docs at /docs

Launch frontend

chmod +x ./scripts/launch_frontend.sh
./scripts/launch_frontend.sh

Development server on http://localhost:3000

Citation

If you use VeridisQuo in your research, please cite:

@software{veridisquo2025,
  title = {VeridisQuo: Hybrid Deepfake Detection with Explainable AI},
  author = {Castillo, Theo and Barriere, Clement},
  year = {2025},
  url = {https://github.com/VeridisQuo-orga/VeridisQuo},
  note = {Model: \url{https://huggingface.co/Gazeux33/VeridisQuo}}
}

Name		Name	Last commit message	Last commit date
Latest commit History 360 Commits
.github/workflows		.github/workflows
assets		assets
data/FaceForensics++_C23_test		data/FaceForensics++_C23_test
examples		examples
frontend		frontend
notebooks		notebooks
scripts		scripts
src		src
tests		tests
.gitattributes		.gitattributes
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
config.json		config.json
inference_config.yml		inference_config.yml
pyproject.toml		pyproject.toml
training_config.yml		training_config.yml
uv.lock		uv.lock

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

VeridisQuo

Where is the truth?

What is Veridis Quo?

Try it online!

Result

Pipeline

Model Architecture

Hybrid Detection System

Model Specifications

Training

Infrastructure

Dataset

Source

Preprocessing Pipeline

Distribution

Configuration & Results

Configuration

Results

API Reference

Endpoints

Request Format (POST /api/v1/analyze)

Response Format

Quick Start

Prerequisites

Clone project

Launch backend

Launch frontend

Citation

About

Uh oh!

Releases 1

Uh oh!

Contributors 2

Uh oh!

Languages

License

VeridisQuo-orga/VeridisQuo

Folders and files

Latest commit

History

Repository files navigation

VeridisQuo

Where is the truth?

What is Veridis Quo?

Try it online!

Result

Pipeline

Model Architecture

Hybrid Detection System

Model Specifications

Training

Infrastructure

Dataset

Source

Preprocessing Pipeline

Distribution

Configuration & Results

Configuration

Results

API Reference

Endpoints

Request Format (POST /api/v1/analyze)

Response Format

Quick Start

Prerequisites

Clone project

Launch backend

Launch frontend

Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases 1

Uh oh!

Contributors 2

Uh oh!

Languages