feat: Add document chunking for large PDFs (300+ pages, 200+ MB)

## Problem

Users need to process large documents (300-500 pages, 200-300 MB) but current OCR services have size limits:
- Mistral OCR: max 50 MB, 1000 pages
- Most vision models struggle with very large documents

## Proposed Solution

Add document chunking/splitting functionality as a pre-processing step:

### Core Features
- [ ] Split large PDFs by page count (configurable, e.g., 100 pages per chunk)
- [ ] Split large PDFs by file size (e.g., max 50 MB per chunk)
- [ ] Async processing of chunks with result aggregation
- [ ] Progress tracking per chunk via WebSocket

### API Design
```typescript
const job = await client.jobs.create({
  file: largePdf,
  type: "parse",
  chunking: {
    enabled: true,
    maxPages: 100,      // or
    maxSizeMb: 50,
  }
});
```

### Implementation Notes
- Use `pdf-lib` or similar for splitting without re-rendering
- Queue each chunk as sub-job
- Aggregate results maintaining page order
- Consider batch processing discount (Mistral: 50% cheaper in batch mode)

## References
- [Mistral Document Chunking Cookbook](https://docs.mistral.ai/cookbooks/mistral-ocr-documentchunking-readme)
- [LlamaIndex Chunking Strategies](https://docs.llamaindex.ai/en/stable/optimizing/basic_strategies/basic_strategies/)

## Use Case
Customer inquiry about processing 300-500 page documents (~200-300 MB)

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

feat: Add document chunking for large PDFs (300+ pages, 200+ MB) #14

Problem

Proposed Solution

Core Features

API Design

Implementation Notes

References

Use Case

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

feat: Add document chunking for large PDFs (300+ pages, 200+ MB) #14

Description

Problem

Proposed Solution

Core Features

API Design

Implementation Notes

References

Use Case

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions