Giter Club home page Giter Club logo

bulgarian-wordlists's Introduction

Bulgarian wordlists

Това хранилище съдържа архивирани файлове със думи и имена на български език както и единни граждански номера. Всичката информация в това хранилище е събрана от публични данни, а номерата са генерирани и валидирани използвайки алгоритъм. Използването на предоставената информация е на своя собствена отговорност.

Какво е wordlist?

Това е списък с думи или номера в редактируем текстов файл, обикновено по една на ред. Имат най-различна употреба от системи за валидиране на очаквани входящи данни до речникова атака (dictionary attack) срещу уеб или настолни приложения.

Списъци с думи

Списъците съдържат думи на кирилица с малки букви (lowercase) подредени азбучно в текстови файлове с UTF-8 енкодинг. Налични са в три формата - кирилица, транслителирани, шльокавица.

  • Български първи имена - Списък с имена на български език, включително старобългарски имена. Източници: [1] [2] [3] [4]
  • Български фамилни имена - Списък с фамилни имена на български език, включително старобългарски имена.
  • Населени места - Списък с имената на населените места в България. Източници: [1]
  • Некатегоризирани думи - Други думи на български език без определена категория за момента. Източници: [1] [2]
  • Жаргонни думи - Списък с популярните жаргонни изрази в България. Източници: [1]
  • Неологизми - Списък с новите български думи. Източници: [1]
  • Фразеологизми - Списък с устойчиви изрази (фрази или идиоми), обикновено с преносно значение, употребявани като готова единица в речта. Източник: [1]
  • Неприлични думи - Списък с неприлични (мръсни/нецензурирани) думи на български език. Източници: [1] [2]
  • Абривиатури - Списък с абривиатури и съкращения. Източници: [1]

Единен граждански номер (ЕГН)

Списък с единни граждански номера на български граждани. Списъка е подреден в отделни файлове по години, както и файл със всички възможни валидни номера. Източници: Генерирани номера от 1800г. до 2100г. и валидирани спрямо алгоритъма на ГРАО - ЕСРАГОН използвайки python модула за egn.

Изтегляне: Всички в един файл - egn.zip или Файлове по години - egn.zip (109 млрд. записа)

Изтегляне

Тип Кирилица Транслителирани Шльокавица Записи
Български първи имена bg-names-cyrillic.txt bg-names-latin.txt bg-names-6lyokavica.txt 31666
Български фамилни имена bg-familynames-cyrillic.txt N/A N/A 55265
Населени места bg-geo-cyrillic.txt bg-geo-latin.txt bg-geo-6lyokavica.txt 4657
Жаргонни думи bg-jargon-cyrillic.txt N/A N/A 15264
Неологизми bg-neologisms-cyrillic.txt N/A N/A 2381
Фразеологизми bg-idioms-cyrillic.txt N/A N/A 6924
Неприлични думи bg-obscene-cyrillic.txt N/A N/A 469
Абривиатури bg-abbreviations-cyrillic.txt N/A N/A 13767
Некатегоризирани думи bg-words-cyrillic.txt bg-words-latin.txt bg-words-6lyokavica.txt 752537
Всички думи all-cyrillic.txt all-latin.txt all-6lyokavica.txt 755130

Принос и разработка

За да добавите нови думи или файлове използвайте функционалноста на github. Добавяйте записи само във файловете с кирилица, останалото се генерира след като използвате скриптовете.

Логиката на генериране на записите е следната:

  1. Записи на Кирилица > Транслитерация > Сортирание и премахване на повтаряеми записи > Транслирани записи
  2. Записи на Кирилица > Шльокавица > Сортирание и премахване на повтаряеми записи > Записи на Шльокавица
  3. Шльокавица + Транслирани записи > Сортирание и премахване на повтаряеми записи > Записи на латиница
  4. Латиница + Кирилица > Всички записи
  5. Генериране на rainbow таблици

bulgarian-wordlists's People

Contributors

miglen avatar ogrebgr avatar spytheman avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

bulgarian-wordlists's Issues

Създаване на builder

Добавяне на промени само във файловете на кирилица.

Логика:

  1. кирилица
    1.1 транслитерация > сортиране(уникални(транслителирани))
    1.2 > шльокавициране > сортиране(уникални(шльокавица))
  2. транслитерирани + шльокавица = сортиране(уникални(латиница))
  3. латиница + кирилица = сортиране(уникални(всички))
  4. сумиране(сортиране(уникални(кирилица))) = кирилица (всички)
  5. преброяване и обновяване на readme.md
  6. генериране на rainbow таблици

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.