brown-uk / dict_uk Goto Github PK
View Code? Open in Web Editor NEWProject to generate POS tag dictionary for Ukrainian language
License: GNU General Public License v3.0
Project to generate POS tag dictionary for Ukrainian language
License: GNU General Public License v3.0
Зацініть різницю: там тобі не знати ніко́го / там тобі не знати ні́кого (всі відомі).
Це ті, що в MTE emphatic. Цінна інфа, а не просто формальність для звідності в MTE. Можна не вносити окрему категорію (бо всі emphatic є negative), а лиш додати позначку, але тут треба подумати: вони зовсім різні, у них зовсім різний синтаксис: емфатичне включає в себе й присудок, тобто ні́ким це скорочення до немає ким. Їх всього два: нікого і нічого з відмінками.
:lnamed
кожний adj:m:v_naz:&pron:def кожного adj:m:v_rod:&pron:def … кожен adj:m:v_naz:short кожен adj:m:v_zna:short
Є прибитий adj
і прибитий adjp
, але тільки драний adjp
. Несумісність гірша за неповність трактування.
Неузгоджені складені займенники, ще наприклад сякий-такого
тощо.
виповза́ти/ви́повзати
орел (птах)/орел (бік монети)
...
Для прикметників, дієприкметників, числівників, займенників.
Яку позначку завести?
We should inject vocabulary into modern operation systems like
Also we need to take care about aspell, ispell libraries and basic libs like timezone (change kiev to kyiv) and others
хіба не :gen
?
ULIF каже стафілокок — це істота (відмінюється, як тварина)
ГС дає парадигму, що не є ані істотою, ані неістотою (власне як вони й кажуть): там подвійний знахідний множини (як у тварин: =р.в. і =н.в.) і подвійний знахідний однини (=р.в. і =н.в.).
Мені здається, що мати одну лему з такою парадигмою краще, ніж вводити омонімію двох лем anim/inanim. От лише не знаю чи тоді треба для бактерій вводити третю форму «істотності» (bacanim? :))
у згенерованому словнику:
вуса noun:inanim:p:v_naz:ns вуса noun:inanim:p:v_naz <———— вусів noun:inanim:p:v_rod:ns вусам noun:inanim:p:v_dav:ns вуса noun:inanim:p:v_zna:ns вуса noun:inanim:p:v_zna <———— вусами noun:inanim:p:v_oru:ns вусах noun:inanim:p:v_mis:ns
(може трапляється ще десь)
Наприклад, є лише відшліфуйте verb:perf:impr:p:2
, і лише подзвеніть verb:perf:impr:s:2
.
немає виду, як і в запрохавши advp:xp1
, запрохати verb:inf:xp2
Зараз один numr:m:v_naz
, але декілька numr:p:v_naz:&pron:ind
помилка? мав би бути :int
?
@Olvija
Від усіх імен (тег fname), крім незмінюваних (типу Джекі), слід утворити й ввести в словник присвійні форми.
Пам’ятаєте це з пошти? Ці два займенники є одночасно двох типів. Чи можна додати цю інфу? може через амперсанд. @Olvija
Переробити TODO у markdown. А краще завести для цього окремий issue і відмічати пункти по ходу виконання…
присвійні прикметники від імен прапорцем
розвести омоніми/омографи тощо
додати решту населених пунктів України
переглянути групування прапорців дієслів
наблизити теги словника правил LT до тегів словника корпусу
додати скрипт сортування входових файлів словника (після ручного редагування)
наразі деяки (коротші) дублети не мають всіх форм, якщо вони перетинаються з формами довшої леми
(стягти - стягнути, відвологти - відвологнути, сп'ястися - зіпнутися…)
кличний відмінок для займенників та решти іменників
Доле noun:inanim:f:v_kly моя, ти де?
помилка?
Андрій сказав, що про це щось було в Синявського, але я швидко не знайшов.
Проте є в СУМі: “…8. із знах. (у давній формі, яка збігається з сучасним називним множини)” (http://sum.in.ua/s/v)
Нехай знахідний у давній формі, але солдати в словнику зараз або солдати noun:anim:p:v_naz
або солдати noun:anim:p:v_kly
, тож зробити щось треба: або додати давній знахідний, або додати :rv_naz
, або? Що скажете?
пасти verb:imperf:inf пади verb:imperf:impr:s:2 паси verb:imperf:impr:s:2 падім verb:imperf:impr:p:1 пасім verb:imperf:impr:p:1 падімо verb:imperf:impr:p:1 пасімо verb:imperf:impr:p:1 падіть verb:imperf:impr:p:2 пасіть verb:imperf:impr:p:2 ⋮
Глюк чи ще руки не дійшли до розрізнення за наголосом? Ця штука шкодитиме.
відпасти
припасти
підпасти
зади́ха́тися
коли́са́тися
заколи́са́тися
пле́ска́тися
розпле́ска́тися
струменітися ? — там лексема на 51 форму, не можу зрозуміти
о́бі́д
https://uk.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%83%D0%BA%D1%80%D0%B0%D1%97%D0%BD%D1%81%D1%8C%D0%BA%D0%B8%D1%85_%D0%B6%D1%96%D0%BD%D0%BE%D1%87%D0%B8%D1%85_%D1%96%D0%BC%D0%B5%D0%BD
https://uk.wikipedia.org/wiki/%D0%A1%D0%BF%D0%B8%D1%81%D0%BE%D0%BA_%D1%83%D0%BA%D1%80%D0%B0%D1%97%D0%BD%D1%81%D1%8C%D0%BA%D0%B8%D1%85_%D1%87%D0%BE%D0%BB%D0%BE%D0%B2%D1%96%D1%87%D0%B8%D1%85_%D1%96%D0%BC%D0%B5%D0%BD
До +m:
штунда noun:anim:f:v_naz штунди noun:anim:f:v_rod штунді noun:anim:f:v_dav …
Після +m:
штунда noun:anim:m:v_naz штунди noun:anim:m:v_rod штунді noun:anim:m:v_dav … штунда noun:anim:f:v_naz штунди noun:anim:f:v_rod …
Таким чином втрачається інфа про те, що штундин рідний рід — жіночий.
Очікується:
штунда noun:anim:f:v_naz штунда noun:anim:m:v_naz штунди noun:anim:m:v_rod … штунди noun:anim:f:v_rod штунді noun:anim:f:v_dav …
а також
verb:imperf:futr:s:3: мне verb:imperf:futr:p:1: мнем, мнемо verb:imperf:futr:p:2: мнете
Йдеться не про заміну леми, а про додавання тегу.
Потрібна для MTE, але і просто корисна інфа. Буде треба для pymorphy.
Вигенерувані файли заважають при розробці. Не знаю чи їх по одному в ігнор додати, чи патерном, чи в одну папку всіх направити і її ігнорити…
Він спеціально не займенник? В чому логіка?
скрипт convert_from_sell_uk.sh повинен називатись convert_from_spell_uk.sh
, наскільки я зрощумів
Для котрих є, в дужках наводжу тип з уліфа. Чи правильний не знаю.
будь-котрий (indefinite)
будлі-який
казна-який (indefinite)
будлі-котрий
жодний (negative)
подеякий
такісінький (demonstrative)
‘краще’ ж взагалі немає як прислівника. Усистемнімо?
додати їм :&numr в base.lst?
… один numr:m:v_zna одного numr:m:v_zna …
… цей adj:m:v_zna:&pron:dem цього adj:m:v_zna:&pron:dem …
… жваві adj:compb:p:v_zna жвавих adj:compb:p:v_zna …
їстоньки predic
, а питоньки verb:imperf:inf:dimin
та інші суперечності. За яким принципом слово є предиком?
В словаре использованы два вида кавычек: парные и непарные. Оправдано ли?
їхать, сміяться…
Немає позначки множини (чи двоїни) для два і подібних (типу бо є рід). І такі слова можуть додаватися ще, без позначки числа ніяк.
adv:&pron:emph
є лемою для adv:&pron:neg
, наприклад
нізвідки adv:&pron:emph нізвідки adv:&pron:neg
Іменникові emph
йдуть окремою лемою:
нічим noun:inanim:v_oru:&pron:emphале якщо є два омоніми, то один стає лемою для іншого:
нічого noun:inanim:v_rod:&pron:emph нічого noun:inanim:v_zna:&pron:emph
Є
мало adv:compb менш adv:compr менше adv:compr найменш adv:super найменше adv:super щонайменш adv:super якнайменш adv:super щонайменше adv:super
А є щонайменше adv:super
окремою лемою. Те ж з іншими.
вуса noun:inanim:p:v_naz вуса noun:inanim:p:v_naz:ns вусів noun:inanim:p:v_rod:ns вусам noun:inanim:p:v_dav:ns вуса noun:inanim:p:v_zna вуса noun:inanim:p:v_zna:ns вусами noun:inanim:p:v_oru:ns вусах noun:inanim:p:v_mis:ns
(дивись #8)
жокею :v_mis
, в’їзду :v_mis
Так правильно чи глюк?
Подібно до :ranim, корисна інфа яку легко додати, щось типу :rprep
. Здається, знадобиться в LT.
Зараз жодного розрізнення:
їх noun:p:v_rod:&pron:pers:3 них noun:p:v_rod:&pron:pers:3
себе noun:m:v_rod:&pron:refl собі noun:m:v_dav:&pron:refl себе noun:m:v_zna:&pron:refl собою noun:m:v_oru:&pron:refl собі noun:m:v_mis:&pron:refl себе noun:n:v_rod:&pron:refl собі noun:n:v_dav:&pron:refl себе noun:n:v_zna:&pron:refl собою noun:n:v_oru:&pron:refl собі noun:n:v_mis:&pron:refl
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.