Tento nástroj je určen pro automatické získávání pracovních nabídek pro Python vývojáře z portálu Jobs.cz. Skript automaticky prochází nabídky práce, extrahuje detailní informace o každé pozici a ukládá je do strukturovaného textového souboru.
- Automatické procházení stránek s nabídkami práce
- Detekce a přeskakování duplicitních nabídek
- Extrakce detailních informací o každé pozici včetně:
- Názvu pozice
- Jména společnosti
- Popisu pozice
- Kontaktních informací
- Telefonního čísla
- Paralelní zpracování pro rychlejší běh
- Ukládání dat do čitelného formátu
- Ošetření chybových stavů a logování
requests
beautifulsoup4
selenium
webdriver-manager
- Naklonujte tento repozitář:
git clone [URL vašeho repozitáře]- Přejděte do adresáře projektu:
cd [název-adresáře]- Nainstalujte potřebné závislosti:
pip install -r requirements.txtSpusťte skript příkazem:
python scraper.pySkript vytvoří soubor jobs.txt v aktuálním adresáři, který bude obsahovat všechny nalezené pracovní nabídky.
Každá pracovní nabídka je v souboru oddělena oddělovačem a obsahuje následující informace:
- Název pozice
- Jméno společnosti
- Lokalitu
- Detailní popis pozice
- Kontaktní osobu
- Telefonní číslo
Skript používá hashování pro detekci duplicitních nabídek a přeskakuje již existující pozice. Toto zajišťuje, že se stejná nabídka práce neuloží vícekrát.
Skript poskytuje detailní logování procesu scrapování, včetně:
- Informací o začátku scrapování každé stránky
- Počtu nalezených pracovních nabídek
- Chybových hlášení
- Statistik o duplicitních nabídkách
- Skript je nastaven na procházení maximálně 10 stránek výsledků
- Je implementováno zpoždění mezi požadavky pro simulaci lidského chování
- V případě nedostupnosti BeautifulSoup parseru se automaticky přepne na Selenium
Pokud chcete přispět k vývoji, postupujte následovně:
- Forkněte repozitář
- Vytvořte novou větev pro vaše změny
- Commitněte vaše změny
- Vytvořte Pull Request
Lucie,Zdeněk,Jirka,Lukas,Petr
- Skript používá headless prohlížeč pro scrapování
- Implementováno ošetření různých formátů stránek s detaily pozic
- Obsahuje mechanismy pro detekci konce výsledků