Introduce Ensemble Methods for Decision-Making

Per README Priority 1.3: Use ensembles for better decisions while optimizing memory.
Steps:

Implement simple ensemble (e.g., voting on multiple models).
Integrate with existing RL algos.

Acceptance Criteria:

Improved reward scores.
Minimal memory increase.

Labels: performance, rl, enhancement
Assignees: [RL dev]
Milestone: MVP 1.0
Estimated Effort: Medium
Dependencies: Issue 9