Carlos Marciano
Doutorando pelo PPGJOR e pesquisador do objETHOS

Utilizar dados no jornalismo é uma forma de dar credibilidade ao conteúdo abordado. Com o avanço da pandemia do coronavírus, lidar com números tem sido uma constante na rotina jornalística.

No entanto, muito se tem falado sobre a disparidade existente entre os dados publicados oficialmente pelos órgãos do governo e a realidade de algumas cidades, com hospitais lotados e corpos entulhados nos corredores, de modo que jornalistas precisam ampliar as fontes para divulgarem informação mais precisas e coerentes.

A técnica do data scraping, popularmente conhecida como raspagem de dados, é um método que pode contribuir nesse cenário, permitindo que o repórter não fique refém apenas dos boletins governamentais. O desafio profissional, porém, é grande, mas não inatingível.

Enquanto os dados oficiais chegam mastigados para integrarem as matérias, quando se utiliza o scraping é necessário mais expertise do jornalista que precisará de ferramentas ou habilidades de programação para extrair os dados dos sites e repositórios, interpretar os números, moldá-los em uma linguagem simples que permita o cruzamento das informações para então serem utilizados nas reportagens. Embora relativamente complexo, o processo normalmente resulta em matérias e infográficos mais robustos, com referências e contrapontos que ampliarão o debate retratado.

“Onde a tragédia pode ser ainda maior” é um trabalho que aborda justamente como o scraping foi utilizado para gerar conteúdo sobre o crescimento do número de casos do coronavírus desde o primeiro registro.

O material foi produzido por Márcio Carneiro dos Santos, doutor pelo programa de Tecnologias da Inteligência e Design Digital – TIDD da PUC-SP –, coordenador do LABCOM – Laboratório de Convergência de Mídias – e criador das ferramentas LNEWS e LTWEET para extração de dados na web por pesquisadores da comunicação.

Professor do Departamento de Comunicação na área de Jornalismo em Redes Digitais, professor permanente do Programa de Pós-Graduação em Comunicação da Universidade Federal do Maranhão (UFMA), onde responde pela disciplina de Jornalismo Guiado por Dados, e do programa de Pós-Graduação em Design, ministrando a disciplina de Design de Sistemas Imersivos, Márcio Carneiro é uma das referências atuais quando se fala em pesquisas com jornalismo de dados. Ao objETHOS, ele explica as particularidades do scraping e os cuidados éticos que se deve tomar ao utilizar o método.

Dentro dos procedimentos de apuração jornalística, como podemos caracterizar o scraping? Qual o diferencial dessa técnica em relação aos métodos tradicionais já utilizados no jornalismo?

Em termos gerais, a abordagem que propomos resume-se às seguintes etapas: 

Etapa 1 – Identificar a estrutura que contém os dados que precisamos. Algumas possibilidades apresentam-se com mais frequência:

a) Bases de Dados que permitem consultas amigáveis via preenchimento de formulários ou procedimentos simples. Exemplo: portais de transparência governamentais onde é possível requisitar dados sobre determinado tema e período.

b) APIs[1] que exigem requisições estruturadas no formato que estabelecem, ou seja, respeitando sua sintaxe própria. Exemplo: APIs do Twitter e do Facebook que precisam ou de uma aplicação específica para solicitar conteúdo, como os aplicativos que as acessam em nossos celulares, ou de um código customizado que consiga estabelecer tal diálogo e coletar as informações que a API entrega a partir de cada tipo de requisição.

c) Conteúdo disponível em páginas de internet que podem ser extraídos diretamente via técnicas de scraping (raspagem de dados). Como textos de matérias em portais jornalísticos ou tabelas e informações gerais publicadas, tais como previsão do tempo, cotação do dólar e resultados de competições esportivas.

d) Informações protegidas em ambientes fechados, acessadas apenas por usuários cadastrados e que contam com mecanismos de proteção como encriptação de dados e outros. Tais ambientes eventualmente podem ser acessados por técnicas de hacking.

Etapa 2 – Formatar a consulta ou requisição de dados alinhada ao tipo de repositório onde eles se encontram de acordo com as opções acima.

Etapa 3 – Analisar os dados coletados a partir do processamento possível partindo do que foi efetivamente conseguido. 

Como o scraping pode contribuir na cobertura da pandemia do coronavírus?

O scraping pode ser útil em qualquer site da internet que contenha, por exemplo, dados públicos sobre a estrutura de saúde ou dados específicos sobre o coronavírus em determinado lugar, mas que não estejam em um formato tipo portal de transparência, ou seja, que foi criado para prover dados de forma direta. O scraping é usado quando os dados estão no site, mas não há um caminho direto para fazer um download, por exemplo.

Quais os cuidados éticos que devem ser considerados ao trabalharmos com o scraping

Em sites públicos, em tese, as informações são públicas e podem ser acessadas. Em outros sites, é bom consultar para ver se há alguma página do tipo http://www.google.com/robots.txt . O robots.txt é uma espécie de declaração colocada pelo administrador da página explicitando o que não é permitido acessar (Disallow:/). O robots.txt, se existir, deve ser respeitado para que o acesso não seja considerado desrespeitoso, invasivo ou até ilegal.

Digamos que um profissional ficou sabendo agora sobre o scraping e deseja então utilizá-la nas próximas apurações. Quais são suas dicas para ele começar? Onde ele pode conseguir mais informações para aprimorar a técnica? 

A internet está cheia de ferramentas e técnicas de scraping. Você pode começar com as extensões que podem ser instaladas no próprio Chrome, depois ir para outras mais complexas ou, se souber programar, criar suas próprias ferramentas em casos de necessidades específicas para coletar muitos dados de forma automatizada. Eu, por exemplo, uso Python. Mas muita coisa você resolve de forma bem mais simples.  

[1] Uma API – Application Programming Interface (Interface de Programação de Aplicações) é o conjunto de rotinas, padrões e instruções de programação que permite que os desenvolvedores criem aplicações que possam acessar e interagir com determinado serviço na internet, inclusive extraindo dados dele.