Небольшой скрипт на Python, который парсит свежие новости с раздела
https://www.moscowtimes.ru/news
и сохраняет их в текстовые файлы, сгруппированные по дате.
- Открывает страницу новостей The Moscow Times
- Извлекает:
- дату публикации
- время
- заголовок
- ссылку на новость
- Группирует новости по дате (в формате
ДД.ММ.ГГГГ) - Сохраняет их в текстовые файлы (
./news/articles-<date>.txt) - Дублирует результат в консоль
- Создаёт директорию
./news, если её нет
Скрипт работает на Playwright, запускает Chromium в headless-режиме.
- Python 3.10+
- Playwright
- Регулярные выражения
- OS / filesystem API
# создать виртуальное окружение (опционально)
uv venv
source .venv/bin/activate# установить Playwright
uv pip install playwright# установить браузеры (Chromium)
playwright install chromiumВажно:
playwright installставит бинарники браузера — это не Python-зависимости, поэтому оно вызывается отдельно.
git clone https://github.com/Fanzholl/Moscow_Times_Parser
cd Moscow_Times_Parser
uv venv
source .venv/bin/activate
uv pip install playwright
playwright install chromiumA small Python script that scrapes fresh news from https://www.moscowtimes.ru/news and saves them into text files grouped by date.
-
Opens the Moscow Times news page
-
Extracts:
- publication date
- time
- title
- link
-
Groups news by date (
DD.MM.YYYY) -
Saves them to text files (
./news/articles-<date>.txt) -
Prints extracted data to console
-
Creates
./newsdirectory if it does not exist
The script uses Playwright and runs Chromium in headless mode.
- Python 3.10+
- Playwright
- Regular expressions
- OS / filesystem API
# create virtual environment (optional)
uv venv
source .venv/bin/activate# install Playwright
uv pip install playwright# install browsers (Chromium)
playwright install chromiumNote:
playwright installdownloads browser binaries — it is not a Python dependency so it must be installed separately.
git clone https://github.com/Fanzholl/Moscow_Times_Parser
cd Moscow_Times_Parser
uv venv
source .venv/bin/activate
uv pip install playwright
playwright install chromium