Mercado fechado
  • BOVESPA

    107.557,67
    +698,80 (+0,65%)
     
  • MERVAL

    38.390,84
    +233,89 (+0,61%)
     
  • MXX

    50.918,28
    +312,72 (+0,62%)
     
  • PETROLEO CRU

    71,98
    -0,07 (-0,10%)
     
  • OURO

    1.786,00
    +1,30 (+0,07%)
     
  • BTC-USD

    50.835,32
    +80,88 (+0,16%)
     
  • CMC Crypto 200

    1.313,61
    -7,67 (-0,58%)
     
  • S&P500

    4.686,75
    +95,08 (+2,07%)
     
  • DOW JONES

    35.719,43
    +492,40 (+1,40%)
     
  • FTSE

    7.339,90
    +107,62 (+1,49%)
     
  • HANG SENG

    23.983,66
    +634,28 (+2,72%)
     
  • NIKKEI

    28.777,01
    +321,41 (+1,13%)
     
  • NASDAQ

    16.382,00
    +64,00 (+0,39%)
     
  • BATS 1000 Index

    0,0000
    0,0000 (0,00%)
     
  • EURO/R$

    6,3432
    +0,0035 (+0,06%)
     

O que é web scraping e como ocorre?

·4 min de leitura

Usando a internet e as redes sociais em nosso cotidiano, deixamos muitas informações nossas disponíveis publicamente na rede, sem perceber. É fácil esquecer que, no começo dos anos 2000, parecia um ato insano usar seu nome real em um fórum, enquanto em 2021 a situação mais comum é encontrar o nome completo e a cidade onde um usuário mora a partir da bio do Instagram.

Ao passo que essa normalização do compartilhamento de dados mudou completamente a sociedade, transformando a internet em algo útil e efetivo, ela também aumentou a exposição das pessoas. E muitos criminosos se aproveitam disso para realizar golpes, usando um método chamado web scraping.

O web scraping (raspagem de rede, em tradução livre), também conhecido como extração de dados da web, é o nome dado ao processo de coleta de dados estruturados da web de maneira automatizada. Em geral, esse método é usado por pessoas, empresas e, preocupantemente, criminosos, que desejam usar a vasta quantidade de dados da web disponíveis publicamente para tomar decisões mais inteligentes ou cometer crimes.

Como é realizada a raspagem de dados

<em>(Imagem: Reprodução/Apify)</em>
(Imagem: Reprodução/Apify)

O processo básico de raspagem, na verdade, é realizado diariamente por boa parte da população mundial, no ato de copiar e colar informações de um site para outro meio, a diferença é que a raspagem de rede faz isso em uma escala microscópica e com automação inteligente, para extrair milhões de dados de páginas da internet.

A raspagem de rede é executada a partir do uso de duas ferramentas, o web crawler (rastreador de rede, em tradução livre) e o web scraper (raspador de rede, também em tradução livre).

O rastreador, popularmente chamado de "aranha", é uma inteligência artificial que navega na internet procurando e indexando conteúdos. Depois disso, o raspador, que é uma ferramenta especializada, checa os conteúdos indexados pela "aranha", extraindo dados com rapidez e precisão que estejam de acordo com os localizadores nas linguagens que eles foram implementados na página web, como CSS, regex, entre outros.

Os perigos da raspagem de dados

Para empresas, a raspagem de dados serve como uma ferramenta para, por exemplo, melhor direcionamento de campanhas publicitárias. A partir de informações de sites da internet ou de respostas de enquetes digitais, é possível descobrir interesses ou o trabalho de muitas pessoas, abrindo a porta para marketing mais efetivos. Porém, para os criminosos, essas mesmas informações podem ser usadas de forma nociva, ou mesmo só para lucrar.

Mas a facilidade de realização da raspagem de dados é preocupante, conforme explicou Cecilia Pastorino, pesquisadora da ESET América Latina:

"Raspagem de dados é uma técnica para extrair informações de sites em massa e por meio de scripts automatizados. Essa técnica é utilizada para indexação de sites ou análise de dados de diferentes páginas e se tornou muito popular em algumas ações de marketing digital, como melhorar o posicionamento na web ou obter métricas. Isso torna muitas das ferramentas de raspagem disponíveis na Internet e muito fáceis de usar."

<em>Postagem no fórum de cibercriminosos anunciando os dados. (Imagem: Reprodução/Privacy Affairs)</em>
Postagem no fórum de cibercriminosos anunciando os dados. (Imagem: Reprodução/Privacy Affairs)

Um exemplo recente foi noticiado em 4 de outubro, dia em que os serviços do Facebook sofreram um "apagão" e ficaram indisponíveis por mais de 6 horas. No dia, foi encontrado em um conhecido fórum de comercialização de dados virtuais roubados uma postagem que dizia ter posse de informações como nome, e-mail, localização, gênero e número de telefone de mais de 1,5 bilhão de usuários da rede social criada por Mark Zuckerberg. Até hoje não existe confirmação se este vazamento foi real, já que em 6 de outubro o tópico de vendas foi apagado do fórum em questão.

Mas, caso for real, a disponibilidade de informações como número de telefone e localização já compromete a segurança geral dos usuários afetados, e dados como o nome e o e-mail podem ser usados para direcionar golpes de sequestro virtual (ransomware), phishing, pharming e golpes de engenharia social com mais facilidade.

A melhor forma de evitar que dados pessoais sejam raspado, além de não os disponibilizar na internet, é que a população em geral não deixem seus perfis em redes sociais, seja Facebook, Instagram ou Twitter, totalmente públicos. Além disso, é sugerido que enquetes oferecidas por empresas ou desenvolvedoras desconhecidas sejam evitadas, já que existem grandes chances delas serem parte de esquemas criminosos.

Fonte: Canaltech

Trending no Canaltech:

Nosso objetivo é criar um lugar seguro e atraente onde usuários possam se conectar uns com os outros baseados em interesses e paixões. Para melhorar a experiência de participantes da comunidade, estamos suspendendo temporariamente os comentários de artigos