Giter Club home page Giter Club logo

eticaai / linguistic-datasets-portuguese Goto Github PK

View Code? Open in Web Editor NEW
60.0 7.0 2.0 45 KB

Linguistic Datasets for Portuguese: Lista de conjuntos de dados linguísticos para língua portuguesa com licença flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento

Home Page: https://linguistic-datasets-pt.etica.ai

License: The Unlicense

work-in-progress linguistic-dataset thesaurus dictionary portuguese portugues awesome-list natural-language natural-language-processing nlp

linguistic-datasets-portuguese's Introduction

Linguistic Datasets for Portuguese: conjuntos de dados linguísticos para português (pt-AO, pt-BR pt-MZ e pt-PT)

Lista de conjuntos de dados linguísticos para português com licenças flexíveis: banco de dados, lista de palavras, sinônimos, antônimos, dicionário temático, tesauro, linked data, semântica, ontologia e representação de conhecimento.

(English description) List of linguistic datasets for Portuguese with flexible licenses: database, wordlist, synonyms, antonyms, thematic dictionaries, thesaurus, linked data, semantic, ontology and knowledge representation.

O objetivo desse projeto, inspirado pelo espírito de FOSS, é listar fontes de representações de conhecimento que, ao depender da língua e das culturas locais, não podem ser importadas. Requerem atenção especial, de caráter multidisciplinar, e que idealmente já deveria estar prontas e aceitavelmente validadas: quando não existem, na melhor das hipóteses, podem forçar serem feitas por não especialista e prejudicar qualidade, e na pior, até impedir a produção de tecnologias inovadoras.


Lista

Conjuntos de dados linguísticos requerem muito mais atenção e trabalho humano especializado do que tradicionalmente se vê em dados abertos. Pense em megabytes, não gigabytes. Boa parte dos conjuntos de dados listados são praticamente engenharia reversa da representação de conhecimento e que, mesmo sem usar licença específica mais para datasets (PDDL, CDLA, ODC, ...) tem uma licença em que você pode usar.

Conjunto de dados Data Licença Etiquetas Descrição
languagetool-org: regras PT ativo LGPLv2.1 (muitas-tags), pt-AO, pt-BR pt-MZ e pt-PT languagetool-org é verificador de estilo e gramática para mais de 25 idiomas
languagetool-org: falsos cognatos ativo LGPLv2.1 falsos-cognatos, traducao Falsos cognatos (Inglês: false friends) são termos que parecem uma coisa, mas na verdade, são outra. Muito pertinente na tradução de textos
openWordnet-PT ativo CC-BY-4.0 wordnet, owl, rdf, sparql, pt-BR OpenWordnet-PT: an open Brazilian Wordnet
Stopwords Portuguese (PT) 2016-10-10 Várias stopwords, palavras-vazias Lista de listas de palavras-vazias com 560 termos únicos
VERO-pt-BR 2013-12-17 LGPLv3, MPL verificacao-ortografica, verificacao-gramatical, hifenizacao, libreoffice, openoffice, pt-BR Espelho não-oficial da base de dados do VERO (VERificador Ortografico do LibreOffice)
DicSin pt-BR 2010-05-28 GPLv2? dicionario, sinonimo, antonimo, pt-BR DicSin: Dicionário de sinônimos e antônimos no idioma português brasileiro
br.ispell 2003-03-25 GPLv2 dicionario, verificacao-ortografica, ispell, aspell, myspell, pt-BR Espelho não-oficial dos dados de br.ispell

Pergunta em aberto: sabendo que conjunto de dados linguísticos são úteis para todos (principalmente o próprio governo e pequenas e médias empresas e organizações) o que pode ser feito com os que nem existem ou os que o uso mais comum implica em pirataria?

Lista de desejos

Aviso: a lista a seguir não foi revisada quanto a utilidade e viabilidade.

Etiquetas Inspirações Descrição
afinn-111, analise-de-sentimento AFINN-111, EN Uma lista de palavras etiquetada com uma valência positiva ou negativa adaptada a um ou mais dialetos da língua portuguesa, que use como inspiração (não necessariamente uma tradução) do artigo A new ANEW: Evaluation of a word list for sentiment analysis in microblogs
analise-de-sentimento, sarcasmo MIT, emojis, bullying Considerar a possibilidade de estimular análise de sentimento (ou padrões para identificar sarcasmo) considerando emojis e outros estilos de escrita muito específicos. Potencialmente útil em pesquisas futuras para reduzir falsos positivos de linguagem ofensiva ou discurso de ódio. Um projeto internacional é deepmoji.mit.edu / GitHub do DeepMoji
termos-ofensivos, palavrao Wikipedia, HateBase PT Palavrões, Palavra de baixo calão, termos ofensivos:
  • Preferencialmente com classificações adicionais (por região, tipo de palavrão, intensidade)
  • Permitir exportação para lista de palavras simples (útil em filtros de spam)
  • Pode exibir uma abordagem colaborativa, atualizável por usuários finais
  • Muito útil para gerar outros conjuntos de dados
termos-ofensivos, discurso-de-odio Wikipedia, HateBase PT Conjunto de dados que ajudem a identificar especificamente discurso de ódio possui interesse especial dentro de termos ofensivos
weasel-word languagetool weasel words Lista de palavras com termos evasivos. Pode ser interessante interessante até para análise de discursos políticos. Veja: Finding Hedges by Chasing Weasels: Hedge Detection Using Wikipedia Tags and Shallow Linguistic Features

Justificativa

Uma forma de classificar conjunto de dados que se provam úteis separar em duas categorias:

  1. Validados o suficiente para uso como ferramenta em pesquisa acadêmica nível internacional
  2. Os aceitáveis para uso no dia a dia pela indústria

A coexistência de ambos é boa para sociedade. Como podemos estimular mais ainda? Um problema a nível internacional é que há baixa interação, mesmo dentro de universidades, das áreas de computação com as de estudo da língua, psicologia, sociologia e afins. Será que podemos estimular uma abordagem diferente em nossos países?

TODO: adicionar mais informação da justificativa (fititnt, 2018-05-21 03:08 BRT)

Contato

Licença

Public Domain

Na medida do possível sob a lei, Emerson Rocha renunciou todos os direitos autorais e direitos conexos ou vizinhos a este trabalho para o domínio público.

linguistic-datasets-portuguese's People

Contributors

fititnt avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar

Forkers

openturing pxzin

linguistic-datasets-portuguese's Issues

Palavra vazia (Stop Words) & github.com/stopwords-iso/stopwords-pt

Na computação, uma palavra vazia (ou stop word, em inglês) é uma palavra que é removida antes ou após o processamento de um texto em linguagem natural.[1] Não existe uma lista universal de palavras vazias usadas por todas as ferramentas de processamento de linguagem natural e nem todas ferramentas fazem uso de uma lista dessas palavras. Algumas ferramentas, inclusive, evitam remover as chamadas "palavras vazias" para dar suporte à busca de sentenças.

Qualquer grupo de palavras pode ser escolhido como grupo de "palavras vazias" de acordo com o objetivo do processamento. Para alguns motores de busca, são selecionadas como palavras vazias as palavras mais comuns da língua e palavras funcionais, como o, a, em e no. Embora a utilização de palavras vazias possa simplificar a análise do texto, o uso delas pode causar problemas por impedir a distinção de nomes que fazem uso delas para formar alguma entidade representativa do discurso, como em 'O Teatro Mágico', 'A Bela e a Fera' e 'Firefox OS'. Outros motores de busca removem as palavras mais comuns da busca com o intuito de melhorar o desempenho das buscas.[2]

Via https://pt.wikipedia.org/wiki/Palavra_vazia


Um local que tem stopwords em português é https://github.com/stopwords-iso/stopwords-pt. Essa lista parece ser um compilado de outras 10 listas em https://github.com/stopwords-iso/stopwords-pt/tree/master/raw

Uma busca por "stop words portugues" retorna por exemplo esse outro gist que parece não ter atualização faz 5 anos https://gist.github.com/alopes/5358189 antes da fonte anterior.

Stopwords são muito importantes para facilitar processamento de linguagem natural, e vale a pena ter revisão ou cuidado de mais gente da comunidade para revisar as listas

Considerar futuramente listar até mesmo ports dos datasets listados para linguagens de programação

Eu estou mais ocupado obtendo e listando os próprios datasets, porém qualquer pessoa que futuramente estiver lendo esse issue aqui, considere antes de fazer um port de um desses datasets para ser usado pela sua linguagem de programação favorita:

  1. Ver se alguém já não fez.
  2. E se não foi feito, considere que a forma como os bancos de dados estão nativamente encodados já existe alguma biblioteca que acesse o formato sem precisar converter para outro (a exemplo, o VERO-pt-BR usa hunspell, que possui biblioteca para algumas linguagens)

Por exemplo, o conjunto de dados VERO-pt-BR está disponível como dicionário instalável como pacote npm no mínimo nesse repositório aqui https://github.com/wooorm/dictionaries/tree/master/dictionaries/pt-BR feito por pessoa de fora do Brasil.

Novo domínio sob a organização EticaAI

O site antes de #7 era servido pela URL https://fititnt.github.io/linguistic-datasets-portuguese. Como é comum, na organização @EticaAI tipicamente usamos um subdomínio de etica.ai.

Uma limitação que temos é que o plano gratuito da Cloudflare apenas oferece auto SSL até um nível de subdomínio, vide https://support.cloudflare.com/hc/en-us/articles/204151138. Ou seja, opções como sub-subdominio.subdominio.etica.ai não funcionam sem pagar*, e isso seria perfeito no caso de organizar por subgrupos.

Os possíveis nomes para os subdomínio que imagino agora seriam:

  • linguistic-datasets-portuguese.etica.ai
  • linguistic-datasets-pt.etica.ai
  • (alguma variação considerando a tradução seria algo como "conjuntos de dados linguísticos para português")

Nesse momento, vou definir como linguistic-datasets-pt.etica.ai, porém até eu mesmo estaria aberto a opções. A justificativa de usar 'linguistic-datasets-pt' em vez de 'linguistic-datasets-portuguese' é por ser mais curto e porque em outros casos para contornar a limitação dos subsubdominios com auto-SSL gratuitas via cloudflare a opção tendia a ser trocar "(termo).pt.etica.ai" por "(termo)-pt.etica.ai"

*: (ou sem garantir que o provedor final possa oferecer auto-SSL, que no caso do github não é trivial)

Mac-Morpho (corpus of Brazilian Portuguese texts annotated with part-of-speech tags)

Mac-Morpho is a corpus of Brazilian Portuguese texts annotated with part-of-speech tags. Its first version was released in 2003 [1], and since then, two revisions have been made in order to improve the quality of the resource [2, 3].

The corpus is available for download split into train, development and test sections. These are 76%, 4% and 20% of the corpus total, respectively (the reason for the unusual numbers is that the corpus was first split into 80%/20% train/test, and then 5% of the train section was set aside for development). This split was used in [3], and new POS tagging research with Mac-Morpho is encouraged to follow it in order to make consistent comparisons possible.

  • Download Mac-Morpho
  • Download annotation manual (in Portuguese)
    NOTE: the manual was written for its original annotation, i.e., before the changes in the tagset were
    introduced. Therefore, it does not reflect the current state of the corpus.

Disclaimer: Mac-Morpho versions 1, 2 and 3 are licensed under a Creative Commons Attribution 4.0 International License. This means you can distribute, remix, tweak, and build upon Mac-Morpho versions, even commercially, as long as you give us the credit for the original creation. Mac-Morpho License.

Portuguese Treebank / Projecto Floresta Sintá(c)tica


Chamamos de "Floresta Sintáctica" um conjunto de frases (corpus) analisadas (morfo)sintaticamente. Como, além da indicação das funções sintácticas, a análise também explicita hierarquicamente informação relativa à estrutura de constituintes, dizemos que uma frase sintaticamente analisada se parece com uma árvore, donde um conjunto de árvores constitui uma floresta sintáctica (em inglês, treebank).

O projecto Floresta Sintá(c)tica é uma colaboração entre a Linguateca e o projecto VISL. Contém textos em português (do Brasil e de Portugal) anotados (analisados) automaticamente pelo analisador sintáctico PALAVRAS (Bick 2000) e revistos por linguistas.

Atualmente, a Floresta Sintá(c)tica tem quatro partes, que diferem quanto ao gênero textual, quanto ao modo (escrito vs falado) e quanto ao grau de revisão linguística: o Bosque, totalmente revisto por linguistas; a Selva, parcialmente revista, a Floresta Virgem e a Amazônia, não revistos. Junto, todo esse material soma cerca de 261 mil frases (6,7 milhões de palavras) sintaticamente analisadas (mais...)

Toda a Floresta Sintá(c)tica está publicamente disponível, sendo possível levantá-la na íntegra, em diferentes formatos, ou interrogá-la por meio de várias interfaces de busca, nomeadamente o Milhafre, o Águia e o CorpusEye (mais...).

Uma floresta sintáctica serve para o treino e avaliação de analisadores morfossintácticos, para estudos baseados em corpos e para investigação da língua, não apenas da sintaxe, mas também de aspectos semânticos e discursivos. Pode, ainda, ser um auxiliar no ensino (mais...)

Subjacente a uma floresta sintáctica há sempre um modelo de gramática, com suas regras e categorias. Na Floresta Sintá(c)tica, procuramos minimizar o impacto de um modelo (mais...)

Veja aqui perguntas já respondidas sobre o projecto, como citar a Floresta Sintá(c)tica, (mais...)

Conheça a equipe da Floresta.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.