Comments (11)
Répondu sur #4. :)
from addok.
FYI, une version expérimentale de l'export en stream json est disponible ici: http://bano.openstreetmap.fr/data/test/full.sjson.gz
from addok.
Encore une petite question, c'est censé prendre combien de temps l'import dans redis ?
Car au début de l'import, ça me prend a peu près 2 secondes par paquet de 10 000, et a partir d'un moment (3 millions ) ça prend jusqu'a 400 secondes :
Done 3270000 4410.2940220832825
Done 3280000 4808.93149638176
Done 3290000 5236.812336921692
Done 3300000 5326.398064374924
Done 3310000 5394.085289716721
Done 3320000 5451.391182422638
Done 3330000 5496.172105550766
Done 3340000 5705.732786178589
Done 3350000 5961.771647930145
Done 3360000 6050.331816196442
Done 3370000 6133.646873950958
Merci bien
from addok.
Sur notre serveur ça prend 20 minutes environ.
Note que Redis a la contrainte de devoir tenir en RAM. Aux dernières nouvelles, la base (pour la France entière) faisait autour de 15 Go.
Donc si tu as des perfs aussi dégradées, il est fort possible que tu aies atteint ton plafond de RAM dispo :/
from addok.
Je pense qu'il doit lui falloir plus que 15 go pour l'import !
J'ai 16go sur le serveur, il n'y a que ça qui tourne, et j'ai toute la ram pleine, +5go de swap utilisé, c'est ça qui doit me plomber les perfs ...
Enfin bref, ya plus qu'a être patient.
Merci en tout cas
from addok.
Ah oui, peut-être que pendant l'import il prend plus, j'ai pas trop regardé. Je jetterai un œil lors du prochain import (ping @cquest vu que c'est lui qui s'en charge en général).
from addok.
Oops:
used_memory_human: 17.21G
Donc on dépasse 16 maintenant :/
from addok.
Ok , bon je verrais bien . Merci
from addok.
Je viens de monter un nouveau serveur avec 26go de ram du coup, mais j'ai un petit soucis d'encoding j'ai l'impression :
(addok2)kevin@XXXX:~/addok$ python run.py import full.sjson
Traceback (most recent call last):
File "run.py", line 24, in <module>
from addok.debug import Cli
File "/home/kevin/addok/addok/debug.py", line 13, in <module>
from .core import (DB, Search, document_key, token_frequency, make_fuzzy,
File "/home/kevin/addok/addok/core.py", line 9, in <module>
from .pipeline import preprocess_query
File "/home/kevin/addok/addok/pipeline.py", line 5, in <module>
PROCESSORS = [import_by_path(path) for path in config.PROCESSORS]
File "/home/kevin/addok/addok/pipeline.py", line 5, in <listcomp>
PROCESSORS = [import_by_path(path) for path in config.PROCESSORS]
File "/home/kevin/addok/addok/utils.py", line 12, in import_by_path
module = import_module(module_path)
File "/home/kevin/.virtualenvs/addok2/lib/python3.4/importlib/__init__.py", line 109, in import_module
return _bootstrap._gcd_import(name[level:], package, level)
File "/home/kevin/addok/addok/textutils/default/__init__.py", line 37, in <module>
load_synonyms()
File "/home/kevin/addok/addok/textutils/default/__init__.py", line 26, in load_synonyms
for line in f:
File "/home/kevin/.virtualenvs/addok2/lib/python3.4/encodings/ascii.py", line 26, in decode
return codecs.ascii_decode(input, self.errors)[0]
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 1: ordinal not in range(128)
Pourtant j'ai exactement le même système que sur le premier serveur, ubuntu 14.04, j'ai tout installé de la même manière.
Vous avez une idée ?
Merci
Edit : comme dis dans mes précédents messages, je ne connais pas grand chose a Python, mais d'après ce que je lis sur stack overflow il faudrait pas un petit .decode('utf-8') quelque part vu que le fichier full.sjson est encodé en utf-8 et que Python l'interprête comme de l'ascii ?
from addok.
que donne la commande suivante?
locale
from addok.
(addok2)kevin@XXXX:~/addok$ locale
locale: Cannot set LC_CTYPE to default locale: No such file or directory
locale: Cannot set LC_ALL to default locale: No such file or directory
LANG=en_US.UTF-8
LANGUAGE=
LC_CTYPE=fr_FR.UTF-8
LC_NUMERIC="en_US.UTF-8"
LC_TIME="en_US.UTF-8"
LC_COLLATE="en_US.UTF-8"
LC_MONETARY="en_US.UTF-8"
LC_MESSAGES="en_US.UTF-8"
LC_PAPER="en_US.UTF-8"
LC_NAME="en_US.UTF-8"
LC_ADDRESS="en_US.UTF-8"
LC_TELEPHONE="en_US.UTF-8"
LC_MEASUREMENT="en_US.UTF-8"
LC_IDENTIFICATION="en_US.UTF-8"
LC_ALL=
C'est bon ça marche, c'était un soucis de locale.
from addok.
Related Issues (20)
- Ajoût d'un healthcheck pour le fonctionnement dans un environnement kubernetes HOT 2
- Create a CI for test automation HOT 4
- addok-france: add "crs" abbreviation for "cours" HOT 6
- distance search configuration
- test_create_edge_ngrams fails on macOS HOT 1
- Re-implement multiprocessing for macOS
- Redis 6.2+ geo indexes
- Problème d'emballement de redis HOT 2
- Installation instruction : use python-venv instead of python-virtualenv
- #553 issue not resolved yet HOT 11
- Add result_type support to csv geocoding HOT 2
- Addok lets you index some data that will cause a Python error during a search... HOT 2
- Uncompatible version of addok-csv 1.1.0 with current addok 1.1.1 and falcon 3.1.1 HOT 2
- cd
- différences de score entre le endpoint /csv et le endpoint search/ HOT 2
- For multiple postcodes, score should not depend of the postcode
- Problematic behavior with street names that start with a number (when this number is also one of its housenumbers) HOT 1
- contos7报错-bash: venv/bin/activate: No such file or directory
- Python 3.12 / editdistance-0.6.2 installation error HOT 2
- BAN CSV geocoding linked to multipart form boundary
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from addok.