Skip to content

rogerioLopesweb/ScrapingFlow

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

🌀 ScrapingFlow

ScrapingFlow é uma API moderna e leve desenvolvida com FastAPI que permite realizar web scraping estruturado de páginas da web, com foco inicial em notícias de tecnologia. O projeto foi criado com o objetivo de oferecer uma base extensível para extração de dados HTML de forma eficiente, leve e compatível com serviços cloud como Azure App Service (sem necessidade de Docker).


🚀 Funcionalidades

  • 📄 /scrape/page — Extrai o título, todos os parágrafos e links de qualquer página HTML.
  • 📰 /scrape/news — Extrai o título e o corpo da matéria de notícias online.
  • 🔤 Retorno em JSON estruturado e limpo.
  • ⚡ Baseado em requests + BeautifulSoup (sem Selenium).
  • 🌐 Compatível com deploy direto em nuvem (ex: Azure App Service, Heroku).

📦 Tecnologias usadas


⚙️ Como usar

1. Instale as dependências

pip install -r requirements.txt
Ou
pip install fastapi uvicorn requests beautifulsoup4 pydantic

### 2. Inicie o servidor
python -m uvicorn app.main:app --reload
Acesse:
http://localhost:8000/

### 3. Estrutura

ScrapingFlow/
├── app/
│   ├── main.py              # Entrypoint da API
│   ├── scrape_page.py       # Scraper genérico de páginas
│   └── scrape_news.py       # Scraper específico para notícias
├── requirements.txt
├── README.md
└── .gitignore

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages