Al que desconozca este nuevo concepto de conseguir información en internet, puede que le parezca, en un principio, una modalidad de robo de datos. Pero el uso de este tipo de herramienta, cuya función es rastrear Internet para localizar información útil para una empresa determinada, copiarla y trasvasarla a su propia base de datos, es completamente legal.
Sin embargo, no deja de presentar cierta polémica, puesto que según el objetivo y la forma en que se realiza el web scraping, sí puede verse comprometida la seguridad de nuestros datos y, por lo tanto, nuestra privacidad en internet.
El web scraping es una técnica para extraer información en forma de datos de las páginas webs y de forma completamente automatizada. Un sistema basado en la indexación de contenidos, es decir, en la transformación de una cierta cantidad de información, duplicándola de forma inteligible y exportándola a otros documentos de otros sitios online.
Los que realizan este trabajo (scrapeo) no son personas, son bots o crawlers, robots que navegan de forma automática por páginas webs extrayendo información, concreta y específica, útil para aquel que ha diseñado el robot.
La protección de nuestros datos o cómo afecta a nuestra privacidad el web scraping
Aunque el web scraping es una técnica utilizada por la mayoría de las empresas, el data scraping levanta dudas éticas sobre su uso, y es que crear duplicaciones de datos podría dar lugar a la copia de información privada.
Por otro lado, esta extracción automatizada puede dar problemas a las páginas que visitan y analizan, sobre todo si se realiza de forma recurrente, puesto que se podría ver afectada y perjudicada por una saturación de visitas, que además se consideran de baja calidad, pudiendo perder posicionamiento e incluso quedar temporalmente desactivadas, con la repercusión negativa que tendría esta situación, perdiendo tiempo de visitas y posibles ventas.
La ley
En relación a la legalidad, la normativa que se establece por la ley de protección de datos y prevención de delitos en internet señala que porque una web sea pública, indexable y accesible, no significa que se puedan extraer sus datos, que para acceder a esta información se ha de cumplir con los siguientes requisitos.
Deben ser fuentes de acceso público, los datos se recogen para un fin de interés público general y prevalece el interés del responsable del tratamiento sobre el derecho a la protección de datos y la persona o entidad que va a ser rastreada da su consentimiento.
Por tanto, en caso de que se lleve a cabo una denuncia por mal tratamiento de los datos, se debe demostrar que la información sustraída es de interés público general, según marca el artículo 45 del RGPD, o contemplar el derecho que tiene el responsable del tratamiento a recabar los datos necesarios.
Por otro lado, en ningún caso se podrá utilizar el web scraping para infringir la normativa sobre propiedad intelectual o el derecho a la intimidad de las personas, como pudieran ser las prácticas de suplantación de identidad.
No existe una manera eficiente para protegerse por completo de la extracción de datos de una web, algo fácil de entender, ya que estos bots utilizan las mismas vías que los visitantes habituales de una web para extraer datos.
Uno de los métodos más eficaces para proteger de manera global los datos accesibles de una web es con la protección que ofrece un copyright. Con este sello, se categorizan los datos como parte de la propiedad intelectual.
Otro método es el uso de una contraseña, de este modo, los datos solo estarán disponibles para aquellos que puedan autentificarse con un usuario y una contraseña correcta.