Giter Club home page Giter Club logo

eda-representatividade's Introduction

Análise Exploratória de Dados

Compartilho um exercício de EDA onde avaliei a representação das comunidades feminina, negra e LGBT no banco de dados do Kaggle contedo 1450 heróis e heroínas. O conjunto dos dados está disponível no endereço: https://www.kaggle.com/datasets/jonathanbesomi/superheroes-nlp-dataset

As bibliotecas usadas para a análise foram: math, pandas, numpy, spacy, nltk e matplotlib.

Observamos a questão da representatividade com foco em gênero, cor de pele e sexualidade, para cada um dos três aspectos foram utilizadas abordagens diferentes de análise.

Cor de Pele

Quanto à cor de pele, percebi que é o dado mais defasado do banco de dados, sendo essa informação ausente na descrição de 1277 heróis (o segundo dado mais faltoso tem pouco mais da metade de desinformações: 662), lembrando que o total são 1450 heróis.

Também percebi que existem, no nosso banco de dados, mais heróis de pele azul (23), vermelha (15), verde (30) e branca (30) do que heróis de pele preta (13). O que considero ser um retrato da subrrepresentação da população negra nas mídias convencionais.

A partir dos dados dos scores, elaborei um gráfico comparativo entre scores médios de heróis de pele preta e heróis de pele branca. Me chamou a atenção o fato de que em média os heróis negros são mais fortes porém menos inteligentes do que os heróis brancos, acredito que tal dado corrobora com o estereótipo do negro como ser animalesco e bruto. As médias foram calculadas usando a biblioteca Numpy e os gráficos elaborado com a biblioteca Matplotlib. Score_skin_color

Gênero

Quanto ao gênero, também existe uma subrrepresentação feminina com apenas 335 heroínas no total de 1450.

Além disso os scores médios são bem discrepantes, como podemos ver no gráfico a seguir: Score_gender

Também elaborei um gráfico para visualizar a evolução histórica da participação feminina no conjunto de heróis e notei que a partir de 1970 começam a surgir mais novas heroínas: Women_appearance

Os dados do surgimento de novas heroínas ao longo do tempo foi captado através da busca por numerais maiores que 1900 e menores que 2022 presentes na coluna "first_appearance" do banco de dados. Tal busca se deu através da biblioteca Spacy. Entre as 335 heroínas, 88 tinham o ano da primeira aparição.

Sexualidade

Para analisar a sexualidade dos heróis e heroínas, procurei por algumas palavras-chave nas histórias pessoais dos heróis, encontrando menções às palavras "gay" e "lesbian", a partir das menções e de seus respectivos contextos, encontrei 2 heróis gays: Captain Stingaree e The Ray (CW) e duas heroínas lésbicas: Batwoman V e Silk Spectre. A busca textual foi realizada inicialmente usando o método .apply do Pandas com as palavras-chave: lesbian, gay, bissexual, transexual, LGBT, homossexual, queer. Foram encontradas apenas menções aos termos lesbian e gay.

Usando o sent_tokenize da biblioteca NLTK de Programação de Lingaugem Natural, encontrei os contextos onde apareceram os termos citados e imprimi um arquivo de texto com tais sentenças, para analisá-las e entender como era feita a referência.

Com os devidos contextos pude ver que a menção à palavra 'lesbian' na história de Morph não se trata do herói, mas de Sunfire. O mesmo caso acontece na história de Two-Face onde a menção à palavra 'lesbian' se refere à outra personagem. Mas Batwoman V e Silk Spectre são de fato lésbicas, como fica evidente, respectivamente, nos trechos: "When the relationship was discovered, however, Kate chose to come out as a lesbian"; "she was expelled from the group simply because she was a lesbian".

Da mesma forma conferimos a informação da sexualidade dos heróis cuja história contém a palavra 'gay'. Captain Stingaree e The Ray (CW) são de fato gays como fica claro nos trechos presentes em suas histórias: "Captain Stingaree was later revealed to be gay, and in a relationship with The Cavalier."; e "Ray decided to come out as gay to his parents before departing to Earth-X to face Overgirl.". Por outro lado, a história de Silk Spectre contém a palvra gay mas em referência a outro personagem. A menção à palavra 'gay' na história de Kick-Ass é para contar quando o herói se passou por gay para se aproximar da garota que era interessado

Apenas 4 heróis LGBT num banco de 1450 confirma que há uma subrrepresentação da comunidade no campo das mídias de heróis.

eda-representatividade's People

Contributors

maltagabriel avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.