Qué es el Web Scraping o Screen Scraping y por qué nos debe importar?

Data Scraping

Definición de Web Scraping o Screen Scraping

Screen Scraping
Scraping – «Raspar» en inglés

Scraping, en sí, viene del verbo que en inglés significa «raspar» – como cuando estás raspando pintura de la pared. En informática el término se usa para cuando examinas algo de manera minuciosa buscando desprender una información específica a partir de grandes cantidades de información que están en algún modo visibles para un usuario.
Screen Scraping o Web Scraping es el proceso por medio del cual un usuario o un competidor hace una copia de información contenida en tu sitio web haciéndose pasar por un usuario ordinario. Por dar un ejemplo, si tienes un sitio web que se dedica a brindar recetas de cocina, alguien podría copiar todas y cada una de las recetas de manera automática y poner un sitio que compita con el tuyo.

Se copian archivos de las empresas por medio de Web Scraping?

No se copian los archivos de otras empresas en sí. Se captan de la misma manera que lo haría cualquier ser humano, por medio del internet – solo que se utilizan herramientas de automatización que se encargan de hacerlo mucho más rápida y eficientemente que copiar y pegar a mano.

Web Scraping - Screen Scraping
Web Scraping vía Software

El objetivo de los scrapers es simplemente conseguir el contenido que a otros les costó trabajo compilar de una manera fácil y gratuita. Un ejemplo de esto sucede cuando una persona o compañía inescrupulosa se une a un gremio empresarial por un mes solo para tener acceso al portal de contacto de los miembros. Utilizando herramientas de scraping recoge toda la información del directorio – que incluye números de teléfono y correos electrónicos – y luego vende esta información a terceros. Todos hemos recibido e-mails ofreciendo «bases de datos de e-mails segmentados con miles de correos electrónicos de alto poder adquisitivo». Cierto es que en algunos casos hay cientos de correos reales de empresas que tienen años de estar establecidas en nuestro país, pero en la mayoría de los casos esos «centenares de miles de contactos verificados» son falsos, obsoletos o sacados mediante «scraping» de otros sitios y otros países solo para «rellenar» el archivo y poderlo ofrecer a un precio más alto.Lo triste del asunto es que en la mayoría de los casos empresas que cierran o que cambian de nombre donan sus direcciones de correo a sistemas de recolección de correo basura que a su vez alimentan a los filtros que usan grandes del Internet como Google, Yahoo, Microsoft, Symantec, McAfee, Trend Micro y Barracuda Networks, por lo que quienes compran y utilizan estas direcciones «recogidas por medio de scraping» acaban perdiendo su acceso a internet, el hospedaje de sus sitios web, sus cuentas de redes sociales y, al final, su reputación, dado el repudio general contra estas prácticas abusivas.

Web Scraping SEO tactics
Web Scraping se utiliza también en algunas tácticas no bien vistas en SEO

Quiénes son susceptibles de ser víctima de Web Scraping?

Cualquier sitio web que contenga grandes cantidades de información organizada es blanco posible de los scrapers que quisieran contar con esa información, ya que la legislación existente de propiedad intelectual sobre la recolección de datos no es completamente conocida, interpretada, implementada o aplicada. Un ejemplo es la automatización que tienen algunos sitios web donde se pueden ver los números de diferentes loterías alrededor del mundo de forma instantánea y automática. En esos casos no hay una persona que está todo el día anotando números; hay un programa que visita cada uno de los sitios web de dichas loterías haciéndose pasar por un usuario común y corriente y recopilando esta información.Una excusa que usan muchos para justificar esta acción es que «es información disponible al público, por ende puedo usarla como quiera». Lo cierto es que hay un adagio en mercadeo que dice «si el producto o servicio es gratis, el producto eres tú». Cada vez que un usuario visita algún sitio web con información, es porque es cliente o se entera de información que le hace interactuar económicamente con el dueño del sitio, ya sea viendo publicidad o haciendo compras. Si el usuario deja de necesitar visitarlo porque ya consiguió lo que quería, deja de apoyar económicamente al sitio que originó el valor de la información y el modelo deja de ser sostenible y colapsa.

Data Scraping
Se puede distribuir el trabajo de Scraping entre múltiples equipos para eludir detección

Qué otros perjuicios trae el Screen Scraping?

Cuando un sitio web que genera información diferente momento a momento es recopilado forzosa y repetidamente por un atacante, la cantidad de información que debe moverse a través del Internet supera lo planeado bajo circunstancias normales – lo que trae lentitud en el sitio o, en el peor de los casos, el cierre del sitio por exceder su cuota de datos o el cobro de ancho de banda adicional.

En otras ocasiones un sitio web legítimo puede ser recopilado para buscar patrones de palabras, enlaces y otras características para que un competidor pueda emularlas, quizás buscando mayor relevancia en los buscadores. Esto no solo es mal visto – ya que puede considerarse plagio – sino inefectivo, ya que los buscadores ya no caen en esta trampa.

Hay algún buen uso de Web Scraping?

Un ejemplo de «scraping» beneficial es Google Noticias. Este servicio busca las noticias en diferentes sitios (incluyendo el nuestro) y muestra breves resúmenes de las notas publicadas en diferentes servicios informativos. Quien tenga interés en la noticia buscará hacer click en ella e ir al sitio que la originó, brindando incluso la oportunidad tanto al usuario de acceder a medios informativos nuevos o de otra geografía – y al sitio web de recibir usuarios de otras latitudes.

Tutorial de Web Scraping en Español usando PHP

Cómo se pueden proteger las empresas?

Para protegerse, las empresas deben en primera instancia estar conscientes del valor de su información, y de que debe protegerse. Estas son algunas de las herramientas que dificultan (no imposibilitan) el scraping, y que hacen que un «scraper» casual intente con otro sitio. El «scraper» determinado a sacar información de su sitio siempre hará un mayor esfuerzo.

Algunas técnicas de protección incluyen:

  • Limitación de Acceso: Un usuario normal no querrá leer cientos de páginas simultáneamente. Un website correctamente protegido limitará estas acciones abusivas entregando su contenido de manera cada vez más lenta a medida que el «scraper» acelere sus operaciones, «frenando» esta actividad.
  • Limitación geográfica: En muchos casos los sitios web tienen una región a la que atienden. Al detectar múltiples accesos desde fuera de dicha región, el sitio web puede redirigir las peticiones a un servidor en la región designada para esos usuarios.
  • Limitación por CAPTCHA: Las siglas CAPTCHA no son muy conocidas por su nombre, pero sí por su efecto: Cuando un sitio web quiere estar seguro de que un usuario es un ser humano le hacen alguna pregunta como «cuánto es dos más dos» o lo ponen a leer un texto torcido. Como estos métodos ya han sido superados por los «programas robot» que se usan para el «scraping», los últimos CAPTCHA son más sutiles y hacen preguntas como «Cuántos gatos blancos hay en la foto», cosa que es un poco más difícil para una computadora – por ahora.
  • Limitación por dispositivo – Identificando cuáles son los posibles dispositivos que se utilizarán para acceder al sitio, impedir o dificultar el acceso a aquellos que no son, por ejemplo, computadoras o dispositivos móviles.
  • Cambio de estilo aleatorio en páginas web: Las páginas pueden «verse igual» pero «explicarse distinto»; con que se altere el orden de ciertos parámetros o estilos en la página web los programas captadores de información pueden
  • El uso de tecnología Cloud con la suficiente elasticidad como para aguantar períodos (estilo Black Friday en algunas tiendas online) donde la demanda es mayor y donde el proveedor de servicios monitoree cualquier acceso fuera de lo común dificulta un ataque masivo.
  • Uso de Content Delivery Networks o Redes de Entrega de Contenido que distribuyan la información en diferentes áreas geográficas, para que un solo atacante no pueda fácilmente hacernos daño.
  • Revisión de Bitácoras: Los e-mails falsos que circulan haciéndose pasar por instituciones financieras, también conocidos como intentos de phishing, son precedidos generalmente por un ataque donde los falsificadores hacen un scraping del sitio para copiarlo. El estar anuente de esto puede prevenir los ataques más básicos permitiendo alertar a los usuarios de que hay un ataque inminente.

Conclusiones

El Web Scraping definitivamente es algo con lo que tenemos que vivir – pero debemos hacer lo posible por investigar las alternativas que tenemos a la hora de proteger nuestro contenido, y asesorarnos adecuadamente sobre las diferentes técnicas y motivos para que un competidor o un saboteador ejecute este tipo de acciones contra nuestros sitios web.