Projeto voltado para raspagem de anúncios de bicicletas a venda nas plataformas como OLX, Mercado Livre, entre outros.
- Faça o checkout do projeto:
$ git clone https://github.com/rochacbruno/buscabike-scraper.git
- Crie o ambiente virtual e instale as dependências:
$ cd buscabike-scraper
$ python3 -m venv .venv
$ source .venv/bin/activate
$ pip install -r requirements.txt
- Rode o spider desejado. Nesse exemplo será coletado anúncios na OLX.
$ scrapy crawl olx
Os dados coletados segue a estrutura de exemplo abaixo:
{
"_id": "<id do documento>",
"url": "http://df.olx.com.br/distrito-federal-e-regiao/ciclismo/bicicleta-aro-24-435226286",
"type": "Ciclismo",
"price": " R$ 500,00",
"created_at": "ISODate('2018-01-04T16:56:42.669Z')",
"posted_at": "8 Janeiro às 16:15",
"image": "http://img.olx.com.br/images/35/357804005117894.jpg",
"district": "Santa Maria",
"cep": "72505-222",
"title": "Setor Total Ville",
"description": "Descrição do anúncio",
"owner": "Nome do Dono da bicicleta"
"city": "Brasília",
"phone": "(61) 99999-9999"
}
Veja mais no arquivo CONTRIBUTING.md
, as formas de ajudar com o projeto, e o AUTHORS.md
para saber quem estão a frente e que pode te auxiliar.