- Клонируйте репозиторий и перейдите корневую директорию:
git clone https://github.com/Klikovskiy/23met
cd 23met
- Установите зависимости проекта.
pip install -r requirements.txt
- Задайте значение констант API_KEY_CAPTCHA, CAT_NAME, STATIC_URL
- API_KEY_CAPTCHA - это ключ автоматического разгадывания капчи. Можете зарегистрироваться по ЭТОЙ ссылке и получить свой ключ.
- CAT_NAME - Имя категории по умолчанию. Используется при заполнении финального Эксель файла.
- STATIC_URL - Откуда собирать информацию. По умолчанию установлена категория "Металлопрокат"
- Перед запуском, убедитесь, что сайт не блокирует IP с которого будет запускаться парсинг.
- Запустить файл parsing_23met.py
python parsing_23met.py
- Отслеживать прогресс в консоли. По завершению, будет сформирован файл 23met_result.xlsx
Примечания:
- Это простой, однопоточный парсер. Он требует много времени на выполнение, имейте это ввиду.
- Разделы сайта нужно переключать в ручную, после завершения обхода.