Giter Club home page Giter Club logo

anti-ai-fakenews-pt's Introduction

Anti-AI: Fake News - Português

Discussões coordenadas pelo Etica.AI sobre problemas e possíveis estratégias de soluções para redução de divulgação de desinformação. Acesse o fórum em https://github.com/EticaAI/anti-ai-fakenews-pt/issues.

Definição de Notícia Falsa / Fake News

Notícias falsas são um tipo de imprensa marrom que consiste na distribuição deliberada de desinformação ou boatos via jornal impresso, televisão, rádio, ou ainda online, como nas mídias sociais. As notícias falsas são escritas e publicadas com a intenção de enganar, a fim de obter ganhos financeiros ou políticos, muitas vezes com manchetes sensacionalistas, exageradas ou evidentemente falsas para chamar a atenção.[1][2] O conteúdo intencionalmente enganoso e falso é diferente da sátira ou paródia. Estas notícias, muitas vezes, empregam manchetes atraentes ou inteiramente fabricadas para aumentar o número de leitores, compartilhamento e taxas de clique na Internet.[1] Neste último caso, é semelhante as manchetes "clickbait", e se baseia em receitas de publicidade geradas a partir desta atividade, independentemente da veracidade das histórias publicadas.[1] As notícias falsas também prejudicam a cobertura profissional da imprensa e torna mais difícil para os jornalistas cobrir notícias significativas.

anti-ai-fakenews-pt's People

Contributors

fititnt avatar

Watchers

 avatar  avatar

anti-ai-fakenews-pt's Issues

"Robôs, Redes sociais e Política no Brasil", FGV DAPP - Agosto 2017

Link do PDF: http://dapp.fgv.br/wp-content/uploads/2017/08/Robos-redes-sociais-politica-fgv-dapp.pdf


Robôs, redes sociais e política no Brasil [recurso eletrônico]: estudo sobre interferências ilegítimas no debate público na web, riscos à democracia e processo eleitoral de 2018 / Coordenação Marco Aurélio Ruediger. – Rio de Janeiro : FGV, DAPP, 2017.

Dados eletrônicos
Inclui bibliografia.
ISBN: 978-85-68823-41-5

  1. Políticas públicas. 2. Eleições. 3. Redes sociais on-line. 4. Boatos (Opinião pública). 5.
    Internet. 6. Robôs. 7. Computação humana. I. Ruediger, Marco Aurélio, 1959- . II. Fundação
    Getulio Vargas. Diretoria de Análise de Políticas Públicas.

20989172_1600827379968737_7676030349964721375_o

Sobre o "Anti-AI: Fake News - Português"

Recomendado: leia antes sobre Fake News (wikipedia, inglês) e Notícia Falsa (wikipedia, português).

Fakenews é uma forma de ruído que prejudica estratégias cooperativas, isto é: matematicamente falando (ou especificamente falando por teoria dos jogos), mesmo que os envolvidos em uma disputa acreditem ser válido fazer o que for necessário para ganhar isso prejudica todo sistema pois induz desconfiança generalizada ao ponto de qualquer um poder ganhar a longo prazo, mesmo jogador que seja completamente aleatório.

Veja o jogo A Evolução da Confiança para entender o risco geral disso.

Visão inicial

Um objetivo inicial desse repositório, que pode ser entregável com alguma garantia, é reunir informações técnicas a respeito (tanto de software, como das peculiaridades de notícias falsas em português). É mais provável que os issues do GitHub do anti-ai-fakenews-pt sejam usados como uma espécie de fórum.

Tipo de assunto ideal aqui:

  1. Foco em estratégias usadas em fakenews ou de combate a fakenews; isto não deve ser focado em pessoas, partidos, entidades (discuta ideias, não pessoas)
  2. O tema, por envolver "Anti-AI" implica em poder demorar anos, pois aqui trata-se de estimular estratégias para problemas que ainda não são publicamente conhecidos, mas irão ser no futuro com evolução de inteligência artificial. (Assuma que esse repositório pode ficar 6~12 meses sem atualização, e está ok)
  3. Artigos acadêmicos ou de empresas públicas ou privadas sobre pesquisas relacionadas são bem vindos
  4. Notícias, nacionais ou internacionais, pertinentes sobre o combate a fake news são bem vindas.
  5. Indicação de tecnologias usadas contra fakenews, em qualquer estágio de desenvolvimento (desde idealização hipotética, até software pronto livre e disponível)
  6. Indicação de tecnologias usadas para gerar fakenews, em qualquer estágio de desenvolvimento (porém use o bom senso, lembre-se que aqui é lugar aberto)

Estudo de caso: "More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked"

O texto abaixo é uma tradução automática de máquina do original em More than a Million Pro-Repeal Net Neutrality Comments were Likely Faked , que recomendo para quem sabe inglês ou quer ver os links originais (ou futuras atualizações)


Mais de um milhão de comentários pró-revogação Net Neutralityeram provávelmente ​​falsos

De: Jeff Kao (Data Scientist, Software Engineer, Language Nerd, Biglaw Refugee. jeffykao.com | Estudante @ Metis SF)

Utilizei técnicas de processamento de linguagem natural para analisar comentários de neutralidade da rede submetidos à FCC de abril a outubro de 2017, e os resultados foram perturbadores.

1_shwyie0km5ryxpebfgpttg

[Atualização em 11-29-2017: publiquei vários conjuntos de dados e meu código contendo o suficiente para você reproduzir a análise. Por favor, compartilhe com o resto de nós o que mais você encontra - * recebe no soapbox * - uma internet gratuita sempre será preenchida com narrativas concorrentes, mas análises de dados bem pesquisadas e reprodutíveis podem estabelecer uma verdade no solo e ajudar a cortar tudo isso. Olhe ansioso para ver suas análises e haverá mais dados por vir!]

O procurador-geral da Holanda, Schneiderman, estimou que centenas de milhares de identidades dos americanos foram roubadas e usadas em campanhas de spam que apoiam a revogação da neutralidade da rede. Minha pesquisa encontrou pelo menos 1,3 milhão de falsos comentários pró-revogação, com suspeitas sobre muitos mais. Na verdade, a soma de falsos comentários pró-revogação no processo pode ser em milhões. Nesta publicação, vou apontar uma apresentação particularmente espelotípica do spambot, fazer com que existam muitos outros spambots pro-revogatórios ainda por confirmar e estimar a posição pública sobre a neutralidade da rede nas inscrições públicas "orgânicas" .¹

Principais achados: ²

  1. Uma campanha de spam pro-revogação usou a junção de correio para disfarçar 1,3 milhões de comentários como envios únicos de base.
  2. Havia provavelmente várias outras campanhas destinadas a injetar o que pode totalizar vários milhões de comentários pró-revogação no sistema.
  3. É altamente provável que mais de 99% dos comentários verdadeiramente únicos 3 tenham sido favoráveis ​​à manutenção da neutralidade da rede.

Rompendo as Submissões

Dadas as irregularidades bem documentadas ao longo do processo de submissão de comentários, ficou claro desde o início que os dados seriam duplicativos e bagunçados. Se eu quisesse fazer a análise sem ter que configurar as ferramentas e a infra-estrutura tipicamente usadas para "dados grandes", eu precisava quebrar os comentários 22M + e 60GB + de dados de texto e metadados em partes menores.

Assim, contei muitos comentários duplicados 5 e cheguei a 2.955.182 comentários únicos e suas respectivas contagens duplicadas. Em seguida, mapeei cada comentário em vetores espaciais semânticos e executei alguns algoritmos de agrupamento sobre o significado dos comentários. Esse método identificou quase 150 clusters de textos de submissão de comentários de vários tamanhos.

Depois de agrupar categorias de comentários e remover duplicatas, descobri que menos de 800.000 dos comentários de 22M + enviados à FCC (3-4%) poderiam ser considerados verdadeiramente únicos.
Aqui estão os 20 melhores "campanhas" de comentários, representando um enorme 17M + dos submissões de 22M +:

1_8xmftjhqmrlrb9fjbfas8w

A grande maioria dos comentários da FCC foram enviados como duplicatas exatas ou como parte de campanhas de carta-escrita / spam.
Então, como podemos saber de quais são campanhas publicitárias publicas legítimas, e quais desses foram bots?

Identificando 1,3 milhão de comentários de Spam com fusos de correio

O primeiro e maior cluster de documentos pró-revogação foi especialmente notável. Ao contrário dos outros clusters que eu encontrei (que continha muita linguagem repetitiva), cada um dos comentários aqui era exclusivo; no entanto, o tom, a linguagem e o significado em cada comentário foram em grande parte uniformes. O idioma também foi um pouco excitado. Curioso para cavar mais fundo, usei expressões regulares para combinar as palavras nos comentários agrupados:

1_shwyie0km5ryxpebfgpttg 1

Eu achei o termo "Pessoas como eu" particularmente irônico.

Acontece que existem 1,3 milhões destes. Cada frase nos comentários falsificados parece que foi gerada por um programa de computador. Uma mala direta trocou em um sinônimo para cada termo para gerar comentários únicos .¹⁰ Era como louco-libs, exceto para astroturf .

Ao colocar apenas cinco desses lado a lado com o destaque, como acima, está claro que há algo de pesado acontecendo. Mas quando os comentários estão espalhados entre os 22 + milhões, muitas vezes com palavras muito diferentes entre pares de comentários, posso ver como é difícil de pegar. As técnicas de agrupamento semântico, e não as técnicas típicas de correspondência de cordas, fizeram um ótimo trabalho para fazer isso.

Finalmente, foi particularmente divertido ver esses comentários de spam em um só lugar, pois são exatamente o tipo de argumentos de política e o idioma que você espera ver nos comentários da indústria sobre a revogação proposta¹¹, ou, atualmente, nas próprias declarações do Comissário da FCC louvando a revogação .¹²

Os comentários Pro-Revogação foram mais Duplicativos e em blocos muito maiores

Mas apenas porque o maior bloco de submissões pró-revogação revelou-se uma campanha de spam pré-mediada e orquestrada¹³, não é necessariamente que existam muitos mais spambots pro-revogáveis ​​a serem verificados, certo?

Como resultado, os dois maiores comentários seguintes na lista ("Em 2015, o presidente Tom Wheeler ..." e "O poder regulatório sem precedentes que a Administração de Obama impôs ...") já foram retirados dos relatórios anteriores como possíveis astroturf também.

Saindo a lista, cada cluster / duplicado de comentários precisaria de sua própria investigação, que está além do escopo desta postagem. Podemos, no entanto, ainda obter uma compreensão da distribuição de comentários, tendo uma visão mais ampla. Repetindo o gráfico de barras acima, quebrando os principais comentários da FCC, vejamos as 300 principais campanhas de comentários que compõem um surpreendente 21M + dos submissões de 22M +¹⁴:

1_sc4-r2waerrgnnl90do3ja

A partir deste gráfico, podemos ver que os comentários pró-revogação (há aproximadamente 8,6 milhões deles) são muito mais prováveis ​​de serem duplicatas exatas (barras vermelhas escuras) e são submetidos em blocos muito maiores. Se até 25% desses comentários pró-revogação tiverem sido spam, isso ainda resultaria em mais de 2 milhões de falsos comentários pró-revogação, cada um com um endereço de e-mail anexado. Mais uma verificação deve ser feita nos endereços de e-mail usados ​​para enviar esses prováveis ​​comentários de spam.

Por outro lado, os comentários em favor da neutralidade da rede eram mais propensos a desviar-se de uma carta de formulário (verde claro, em oposição às barras verdes escuras) e eram muito mais numerosas na cauda longa. Se o tipo, o meio de submissão e os comentários dos comentários de ambos os lados fossem iguais, esperamos uma distribuição grosseira de luz e escuro, vermelho e verde, em todas as barras. Provavelmente não é esse o caso aqui.

Comentários públicos orgânicos: 99% + Suporte, mantendo a Neutralidade da Rede

E quanto aos menos de 800,000 comentários enviados que não eram duplicados ou agrupados como parte de uma categoria de comentários? Será que a tendência dos comentários em favor da neutralidade da rede continua na longa cauda?

Acontece que as estatísticas da velha escola nos permitem tomar uma amostra representativa e obter uma boa aproximação da proporção da população e um intervalo de confiança. Depois de tirar uma amostra aleatória de 1000 comentários dos 800 mil comentários orgânicos e digitalizá-los, eu só consegui encontrar três comentários que eram claramente pró-revogação. ¹⁶ Isso resulta em uma estimativa da proporção da população em 99,7%. Na verdade, estamos tão perto da neutralidade da rede 100% que o intervalo de confiança vai para fora de 100% .¹⁷ No mínimo, podemos concluir que a vasta preponderância de indivíduos apaixonados pelo assunto para escrever seu próprio comentário são para mantendo a neutralidade da rede.

Ah, e por favor demore um minuto para verificar as amostras que forneci. Esses são os comentários de pessoas reais afetadas por essa decisão, que falam mais pessoalmente e devastadoramente sobre seus impactos:

Tenho 82 anos, deficientes e domiciliários, mas não solitários, porque tenho internet gratuita. Posso percorrer o mundo. use o Facebook para visitar amigos familiares. Posso vender o meu trabalho no Etsy, sem medo de que a Amazon obtenha preferência se a lei de 2015 for revogada. Se você (a FCC) já não teve supervisão, meu ISP poderia aumentar seus preços para que eu não pudesse ter acesso à Internet! Estou confiando na FCC para me proteger e outros como eu .¹⁸


Conclusão

A participação pública e o envolvimento cívico são fundamentais para uma democracia em funcionamento. É assustador pensar que as vozes orgânicas e autênticas no debate público - mais de 99% dos quais são favoráveis ​​à manutenção da neutralidade da rede - estão sendo prejudicadas por um coro de spambots. ¹⁹ Já vivemos em um momento de baixa fé nas instituições públicas e, devido a essas descobertas, receio que o processo federal de comentários públicos regulatórios possa ser mais um fórum público perdido por spam e desinformação.

Com o esmagador apoio público real para manter a neutralidade da rede, é irresponsável que a maioria da FCC simplesmente agite sua mão e desconsidere a opinião pública no último projeto de ordem , apenas por causa de irregularidades no registro público ou porque os comentários públicos não foram escritos em legalese .

O escritório do presidente da FCC, Ajit Pai, não só precisa fornecer as evidências solicitadas pela AG Schneiderman, eles precisam responder aos pedidos da FOIA sobre os comentários públicos da neutralidade da rede com franqueza e transparência, para restaurar a confiança pública no processo de regulamentação da FCC.

Notas Adicionais:

  • Houve algumas ótimas análises focadas nos elementos não-textuais das submissões, por exemplo, seu tempo, os endereços de e-mail usados ​​e outros metadados. Grite para o trabalho de Jeffrey Fossett, que fez uma análise de primeira passagem dos comentários parcialmente submetidos em maio que inspiraram esta publicação e alguns dos métodos usados ​​na análise, para Chris Sinchok , GravWell e muitos outros posts que estudei na preparação essa análise.
  • Deixe-me saber aqui se você tiver dúvidas ou gostaria de acessar o conjunto de dados que tirei do sistema de submissão ECFS da FCC - se o suficiente solicitarem, posso hospedar o conjunto de dados no Google BigQuery para que você possa executar consultas SQL no ~ 64 GB conjunto de dados por conta própria.

Notas de rodapé:

¹ Ou seja, não de um spambot ou parte de uma campanha identificada.

² Divulgação total: eu era um funcionário do direito do verão para a Comissária Clyburn em 2010, e embora eu admire muito seu recente trabalho defendendo a neutralidade da rede , as opiniões e POV nesta postagem são minhas.

³ Não agrupado como parte de uma campanha de envio de comentários, nem um comentário duplicado.

⁴ Dados coletados desde o início das inscrições (abril de 2017) até 27 de outubro de 2017. O script de rascunho de comentários de longa duração sofria de algumas desconexões e eu estimado que eu perdi ~ 50,000 comentários por causa disso. Mesmo que o Período de Comentário Público de Neutralidade Líquido terminou em 30 de agosto de 2017, o sistema FCF ECFS continuou a fazer comentários depois, que foram incluídos na análise.

⁵ Eu usei uma função hash md5, que teve uma taxa de colisão suficientemente baixa e me permitiu (relativamente) encontrar rapidamente e contar duplicatas. Eu lancei envios sem texto de comentário expresso, mas de outra forma não fiz qualquer outro texto de pré-processamento no texto antes de codificação e agrupamento, a fim de preservar os artefatos no texto que possam fornecer pistas sobre o método de submissão.

⁶ A large proportion of these ~3 million “unique” comments were essentially duplicates — only differing by a few characters or words or having a different signature. In order to conclusively and exhaustively categorize these comments, I chose to group comments by meaning. Comments were turned into document vectors comprised of the average of all word vectors in the comment. The word vectors were obtained from spaCy, which uses the word vectors from the paper by Levy and Goldberg (2014). [Correction from Matthew Honnibal: spaCy now uses the GloVe vectors by Pennington et al.]

⁷ Eu fiz duas passagens ao agrupar os vetores do documento. Primeiro com o DBSCAN com uma métrica de distância euclidiana em um epsilon muito baixo para identificar clusters óbvios [ Atualização em 11-25-2017: depois de revisar o código antigo e dar um pouco mais de detalhes, usei HAC para escolher os clusters mad-lib ] e Tire-os manualmente usando uma assinatura de string. Isso deixou ~ 2 milhões de comentários únicos. A partir desses 2 milhões, usei HDBSCAN em uma amostra de 100 000 comentários com distância coseno para identificar clusters "mais soltos" e, em seguida, costumava approximate_predict()classificar os comentários remanescentes dentro dos clusters identificados ou como outliers. Removendo duplicatas, isso resultou em menos de 800,000 comentários exclusivos "orgânicos". [Correção: como o autor HDBSCAN, Leland McInnes, observa abaixo, as distâncias de coseno ainda não funcionam bem com o HDBSCAN - para ser exato, usei a métrica de distância euclidiana entre os vetores de doc normalizados, que normalmente funcionam bem como um substituto. ]

⁸ Dimensionado das dezenas para milhões.

⁹ Expressão regular neste pastebin .

¹⁰ Isso ocorre porque as combinações de configurações de comentários crescem exponencialmente com cada conjunto de sinônimos introduzidos. Além disso, para ser preciso, houve alguns comentários loucos que foram duplicados uma vez, mas não mais do que isso.

¹¹ Página 3 dos Comentários da Verizon (enviado em 30 de agosto de 2017)

¹² Declaração do Presidente da FCC Pai no Projeto de Ordem (publicado em 21 de novembro de 2017)

³³ Embora existam outras explicações possíveis para este conjunto de resultados, acho que a Navalha da Occam deve se inscrever. Mais investigação sobre o tempo e os e-mails usados ​​para esta campanha em particular forneceria evidências mais corroborantes.

¹⁴ Plotado em uma escala de log para que você ainda consiga ver a cor das barras menores.

¹⁵ Como o autor do estudo Gravwell afirma: "[A evidência] nos obriga a concluir que o próprio ato de ir ao site de comentários da FCC e fornecer um comentário é atraente para aqueles de uma certa inclinação política, ou que o volume a informação da submissão está cheia de mentiras ".

¹⁶ Os comentários pro-revogação estão nas linhas 176, 228, 930 no pastebin . Também pareciam ter três defensores da neutralidade da rede que pareciam confusos sobre a terminologia (linhas 332, 366, 901) e um script kiddie (linha 261). É possível que eu tenha perdido uma ou duas, e estou feliz em corrigir quaisquer erros neste conjunto de comentários se você os encontrar.

¹⁷ Meu colega mais estatisticamente inclinado me informa que o teorema do limite central se divide nos limites extremos (onde a proporção da população é próxima de 0% ou 100% de uma população), que eu tomei sua palavra / especialização para, por enquanto, e aprenderá mais tarde. [ Editar: Eu encontrei uma boa adição a isso em um comentário reddit . O intervalo é de 99,12% a 99,90%, 19 vezes em 20 ].

¹⁸ Linha 102 no Pastebin .

¹⁹ [Uma última adição tardia: para que eu não dê intencionalmente a impressão errada às pessoas que não acompanharam o debate da neutralidade da rede, eu quero ficar claro que houve campanhas suspeitas de todos os lados do debate do texto - apenas análise; no entanto, nenhum deles foi tão numeroso e tão intencionalmente disfarçado como os comentários "únicos" de 1.3M identificados na postagem.]

Hipótese: sinalizar notícia como possível "fake news" poderia potencialmente ajudar a espalhar por grupos se dizerem perseguidos?

Existe uma hipotese de que, ao marcar uma notícia como possivelmente não verificável (isto é, não baseada em fatos) a situação poderia ser usada para agravar a divulgação dela, como se com uma "marcação de honra", que significa que grupos da grande mídia querem que produtores de conteúdo independente sejam penalizados.

Notícia: "Facebook mina seu próprio esforço para lutar contra falsas notícias"

Original: Facebook undermines its own effort to fight fake news, politico.com, tradução automática de máquina.

** Um plano já divulgado para verificar as histórias é prejudicado pela recusa da empresa em compartilhar informações**

Por JASON SCHWARTZ 09/07/2017 05:11 AM EDT

Os verificadores de fato alistados pelo Facebook para ajudar a limpar o site de "notícias falsas" dizem que a recusa do gigante das redes sociais em compartilhar informações está prejudicando seus esforços.

Em dezembro, o Facebook prometeu abordar a disseminação de informações erradas em sua plataforma, em parte trabalhando com grupos de verificação de fato externos. Mas porque a empresa recusou compartilhar dados internos do projeto, os verificadores dizem que não têm como determinar se as tags "disputadas" estão a apostar em artigos de "notícias falsas" - ou talvez até acelerem - o propagação das histórias. Eles também dizem que eles estão faltando informações que lhes permitam priorizar as histórias mais importantes das centenas possíveis para verificar-se em qualquer momento.

Alguns verificadores estão cada vez mais frustrados, dizendo que a falta de informação está prejudicando os esforços do Facebook para combater falsos relatórios de notícias.

"Eu diria que a falta geral de informação - não só dados - dada pelo Facebook é uma preocupação para a maioria dos editores", Adrien Sénécat, jornalista do Le Monde, uma das organizações de notícias que tem parceria com o Facebook para fazer- verificar histórias, disse em uma resposta enviada por e-mail.

Representantes do Facebook dizem que as preocupações de privacidade impedem que eles compartilhem dados em bruto com pessoas de fora.

Na sequência da eleição de novembro, o CEO do Facebook, Mark Zuckerberg, minimizou a quantidade de notícias falsas em sua plataforma e chamou de "uma idéia muito louca" de que poderia ter influenciado as eleições. Mas um mês depois, sob pressão, a empresa anunciou uma série de esforços projetados para combater o problema, incluindo o arranjo com verificadores de factos. "Estamos empenhados em fazer a nossa parte", escreveu o vice-presidente do Facebook, News Feed, Adam Mosseri. "Nós acreditamos em dar uma voz às pessoas e não podemos nos tornar árbitros da verdade, então estamos nos aproximando desse problema com cuidado".

A Mosseri caracterizou publicamente esses esforços tão eficazes. Em abril, ele disse em um endereço: "Nós já vimos no geral que a notícia falsa diminuiu no Facebook", mas a empresa não forneceu prova da reivindicação. "É difícil para nós medir", acrescentou Mosseri, "porque não podemos ler tudo o que é publicado".

Sara Su, gerente de produto da equipe do News Feed do Facebook, disse à POLITICO que ela acredita que o programa de verificação de fato está funcionando: "Nós vimos dados que, quando uma história é marcada por um verificador de fato de terceiros, reduz a probabilidade de Alguém vai compartilhar essa história. "Ela declinou, porém, fornecer qualquer número específico.

Facebook planeja finalmente, compartilhando mais informações com os grupos de verificação de fato com os quais funciona, de acordo com Su, embora exatamente quanto e quando é indeterminado. "Eu gostaria de poder dar datas, mas estamos empenhados em trabalhar com nossos parceiros de verificação de fato para continuar a aprimorar as ferramentas para serem mais eficientes", disse ela.

Por enquanto, muitos verificadores estão levando as reivindicações de sucesso do Facebook com o proverbial grão de sal.

"Isso vai parecer super corajoso, mas os verificadores de factos realmente não tomam nada no valor nominal", disse Alexios Mantzarlis, diretor da Rede Internacional de Verificação de Fatos da Poynter. "Você precisa apoiar com provas".

Nos Estados Unidos, o Facebook se inscreveu PolitiFact, FactCheck.org, Snopes.com, o AP e ABC News para patrulhar notícias na plataforma. Desde março, os usuários conseguiram relatar histórias que parecem falsas e enviá-las para uma fila para os damas. Os algoritmos do Facebook também procuram histórias que parecem falsas, adicionando-as à fila. Se dois dos grupos de verificação de fato rotular uma história falsa, o Facebook bate uma marca "disputada" nela.

O problema, disse Mantzarlis, é que os verificadores de fato não sabem como as histórias são afetadas por serem sinalizadas - se as reações a elas mudam, se o compartilhamento subir ou descer ou, mais amplamente, se as verificações de fato forem capazes de mudar a mente de alguém inclinado a acreditar em uma história falsa, em primeiro lugar. Há também a questão de saber se uma marca em disputa dos grupos de verificação de fato - todos os principais meios de comunicação - poderia ser um "emblema de honra" para uma certa tensão de história.

Embora ocupe um papel central no discurso público, como empresa privada, o Facebook não tem obrigação de divulgar dados internos. Su disse que fazer isso poderia chegar muito perto de revelar informações sobre usuários. "Eu acho que é difícil encontrar o saldo. Todos nós temos o mesmo objetivo, para impedir que notícias falsas atinjam pessoas em nossa plataforma ", disse Su. "Queremos ser tão transparentes quanto possível, respeitando a privacidade das pessoas em nossa plataforma".

Na quarta-feira, surgiram notícias que o Facebook reconheceu aos investigadores do Congresso que vendeu anúncios durante a campanha de 2016 para uma empresa russa tentando influenciar os eleitores. O reconhecimento veio como parte da pesquisa para os esforços russos para influenciar as eleições e ressaltou o papel do Facebook como uma ferramenta de mensagens políticas.

Eugene Kiely, o diretor de factcheck.org, e Aaron Sharockman, diretor executivo da PolitiFact (que é de propriedade da Poynter), ambos relatam relações de trabalho bastante positivas com o Facebook. Ambos dizem, porém, que ter mais acesso aos dados seria útil.

Alguma inquietação parece ter entrado no relacionamento maior entre o Facebook e a comunidade de verificação de factos. Sharockman descreveu o clima como "tenso" em julho, quando representantes do Facebook e do Google se dirigiram a uma multidão de cerca de 150 na quarta conferência Global Facts em Madri.

A multidão não era hostil, disse Sharockman, mas surgiu um tema nas perguntas do público e Mantzarlis, que organizou a conferência e hospedou o painel: Facebook e Google concordariam em compartilhar dados com eles?

Mantzarlis perguntou a Áine Kerr, gerente de parcerias de jornalismo do Facebook: "Quando o Facebook compartilhará o que acontece com o alcance e engajamento de histórias que foram marcadas por verificadores de factos?" Ele perguntou ao Philippe Colombet, um dos principais funcionários de parceria da empresa: "Quando o Google compartilhará dados sobre como os usuários reagem a encontrar cheques de fato em sua busca?"

Durante a multidão Q & A, outros, incluindo Sénécat, jornalista do Le Monde, seguiram perguntas semelhantes. Em ambos os casos, Kerr e Colombet reconheceram as preocupações dos verificadores e disseram que os retransmitiriam para suas empresas, mas que não estavam em posição de fazer mudanças.

Sénécat não acredita que o encontro em Madrid tenha sido tenso, per se, mas disse em um email que "com certeza era meio frustrante" porque as autoridades do Facebook e do Google estavam "evitando questões difíceis".

"Eu acho mais do que" tensão ", houve algum tipo de decepção", disse ele.

Mantzarlis descreveu a discussão como "franca".

Uma maneira importante como os dados do Facebook podem ajudar sua equipe, disse Sharockman, é priorizar quais histórias para verificar. Atualmente, o Facebook conta os grupos de verificação de fato, cujas histórias em sua fila são mais populares na plataforma, mas não fornece nenhuma informação além de uma classificação.

"Há 1.200, 1.500 histórias que podemos ver hoje, e vamos ver duas", disse Sharockman. "Nosso processo é bastante intensivo em tempo". Um único exame de dados pode demorar cinco horas para ser concluído, disse ele. Isso significa que escolher as histórias certas para examinar é crucial.

Mantzarlis disse que gostaria de ver dados sobre como o tempo necessário para marcar uma história falsa afeta sua propagação. Não é difícil imaginar outras questões: certos tipos de histórias exigem atenção mais imediata do que outras? Existem outros tipos que podem não ser virais ainda, mas os dados mostraram que provavelmente será em breve? Quando um artigo é sinalizado, com que frequência as versões do copycat com manchetes alteradas são exibidas para substituí-lo? Mesmo sabendo quais tipos de manchetes funcionam melhor para as postagens de verificação de fato, seria valioso, disse Mantzarlis.

Sénécat acrescentou que seria útil ter acesso a uma lista de postagens que foram revisadas por outros verificadores de fato de terceiros - algo que ele disse que atualmente não está disponível.

Su observou que o Facebook recentemente começou a listar verificações de fato na pilha de "artigos relacionados" ao lado de histórias sobre assuntos semelhantes que podem ser falsas. Ela acrescentou que os verificadores de fato são apenas uma das muitas maneiras que o Facebook está tentando conter notícias falsas. Por exemplo, todos os cheques de fato concluídos, disse ela, são inseridos no modelo de aprendizado de máquinas do Facebook para ajudar seu software a identificar histórias similares no futuro.

O Facebook disse que também tentou reduzir os incentivos financeiros para os produtores de notícias falsas.

Brendan Nyhan, professor de ciência política do Dartmouth College, que estudou amplamente a verificação de fato, disse que entende o desejo das empresas privadas de manter os dados brutos em casa, mas que gostaria de ver mais "resultados das experiências que presumivelmente feito a avaliação da eficácia de diferentes abordagens para combater a desinformação ".

"Esta é uma questão importante", disse Nyhan. "O Facebook foi um vetor-chave de desinformação durante a campanha de 2016, de modo que a eficácia de sua resposta é de grande preocupação pública".

Sharockman e Kiely reconhecem que são relativamente cedo em seu programa com o Facebook. E Mantzarlis está otimista de que, eventualmente, a empresa se abrirá.

"Espero que possamos chegar lá antes do final do ano", disse Mantzarlis. "Eu acho que isso é importante para as pessoas dentro do Facebook, então acho que vão compartilhar informações".


All rights of use for the respective author at politico.com. If you wish to remove the text, you can contact me by email emerson at alligo.com

[AI Anti-AI] Uso de inteligência artificial contra I.A. / automações de fake news com desenvolvimento de IAs fracas de suporte a humanos ou IAs autônomas

Tem-se os seguintes problemas com Fake News (assumindo como base ano de 2017) que são explorados por pessoas mal intencionadas:

  1. É difícil descoberta automatizada sem deixar em lista negra um fornecedor de conteúdo inteiro (o que sobrecarga suporte humano e/ou gera falsos positivos)
  2. Quando uma notícia ou principalmente um fornecedor inteiro sofre punição tende a haver comoção social ou política, independente da notícia ser realmente falsa ou não
  3. Criadores de notícia bem intencionados, porém não especializados, podem criar novas notícias baseadas em fontes não confiáveis por erro humano
  4. Tecnologia atual depende quase que exclusivamente de denúncia de usuários (que podem errar, ou podem ser um ataque coordenado) e, além de aprendizagem de máquina (que também pode levar a erros)
  5. Um humano que fizer críticas a uma notícia falsa polêmica tenderá a ser perseguido; nível simples é atacado como "você está falando disso porque é apoiador do lado oposto!" e nível mais avançado "ok, você está certo, mas o outro lado também faz isso!"

Proposta: estimular desenvolvimento de IAs fracas / automações / ferramentas multi-propósito que poderiam ser reusadas neste projeto

Um objetivo de longo prazo, que seria uma grande evolução nos 5 problemas listados anteriormente, é ou listar ferramentas já existentes ou estimular criação de novas que possam ser usadas nos anos seguintes por humanos ou mesmo por automações completamente autônomas, de modo que o custo de reduzir ruído (veja #1) seja muito barato ao ponto de tornar inviável a criação de fake news.

O objetivo aqui é desempregar quem se alimenta da industria de desinformação. E se possível até mesmo aceitar ajuda de opositores de um grupo que alimentariam algorítimos que serão usados mais tarde contra o seu próprio grupo.

Exemplos de IAs fracas com propósito muito especifico

Para tornar isso factível, é possível quebrar o problema grande em vários menores, aqui "inteligências artificiais fracas" focadas em tarefas muito simples. Tais IAs podem ser consumidas por humanos ou por outras IAs mais fortes e retornar se a informação tende a ser fake news.

Exemplos

  1. Robô informa se o link fornecido é de uma data muito antiga
  2. Robô que retorna se determinada frase é escrita de forma exagerada e/ou, se essa frase exagerada está contida em outro texto fornecido (útil para quem afirma algo em uma rede social, mas o link fornecido não tem referência a essa afirmação)
  3. Robô que retorna se um texto tem elementos clássicos de hoax (farsas virais que pedem para serem compartilhadas) e dá uma nota de confiabilidade
  4. Robô que extrai texto de imagem (isso é útil como intermediária de outros robôs; há caso de mensagens que usam imagem para evitar serem pegas por filtros)

Artigo "Contributions to the Study of Fake News in Portuguese: New Corpus and Automatic Detection Results"

Abstract. Fake news are a problem of our time. They may influence a large number of people on a wide range of subjects, from politics to health. Although they have always existed, the volume of fake news has recently increased due to the soaring number of users of social networks and instant messengers. These news may cause direct losses to people and corporations, as fake news may include defamation of people, products and companies. Moreover, the scarcity of labeled datasets, mainly in Portuguese, prevents training classifiers to automatically filter such documents. In this paper, we investigate the issue for the Portuguese language. Inspired by previous initiatives for other languages, we introduce the first reference corpus in this area for Portuguese, composed of aligned true and fake news, which we analyze to uncover some of their linguistic characteristics. Then, using machine learning techniques, we run some automatic detection methods in this corpus, showing that good results may be achieved.


Link: http://conteudo.icmc.usp.br/pessoas/taspardo/PROPOR2018-MonteiroEtAl.pdf
Mirror: PROPOR2018-MonteiroEtAl.pdf

Notícia: Facebook é acusado de falta de transparência ao reduzir alcance de páginas de 'má qualidade'

Deixando notícia aqui como referência. Pelo que da para perceber, o Facebook está dando soft ban em páginas de baixíssima qualidade ao ponto de cair em filtros que nem mesmo envolvem um humano verificar se é referente a notícia verdadeira ou falsa

  • Título com padrões chamativos
  • Página de destino com muita propaganda
  • Página de destino com pouco conteúdo
  • ...

Notícia completa: http://www.bbc.com/portuguese/brasil-41971998

Partes do texto:

As ações não endereçam especificamente "fake news" (notícias falsas), mas sim todas as páginas do Facebook com "conteúdos de má qualidade", segundo Gurfinkel. "Priorizamos conteúdo de boa qualidade dentro da plataforma. Queremos que a comunidade seja uma comunidade bem informada."

(...)

O Facebook elenca no texto dois exemplos do que considera manchetes que seriam "caça-cliques": "Quando ela olhou debaixo de seu sofá e viu ISSO…" e "UAU! O chá de gengibre é o segredo da juventude eterna. Você TEM que ver isso!".

Esses títulos, segundo a empresa, deveriam ter seu alcance reduzido porque retêm ou exageram informação.

(...)

A página Folha Política, que tem 1,7 milhões de seguidores no Facebook, teve uma queda vertiginosa nos compartilhamentos de suas postagens na plataforma. Em maio, os itens da página tiveram 3,3 milhões de compartilhamentos. Em outubro, esse número caiu para 37 mil. O número de publicações diminuiu de 808 a 477.

A página, de direita, publica links para sites como "Política na Rede", que não explicita seu dono nem quem são os autores dos textos curtos, publicados sem fontes jornalísticas. A BBC Brasil procurou o administrador da página na tarde desta segunda, sem sucesso.

Para Ortellado, a redução de alcance promovida pelo Facebook é tanta "que equivale a censura". "A gente pode concordar ou não que não era um site bom. Mas será que a gente quer que uma empresa defina o que deve chegar até nós?", questiona. "Uma empresa privada está decidindo o que a gente lê e o que a gente não lê."

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.