Robótica Divulgativa: Reddit demanda a Perplexity por robo de datos: así es la batalla

sábado, 25 de octubre de 2025

Reddit demanda a Perplexity por robo de datos: así es la batalla

Demanda por datos entre plataformas y empresa de IA

La pugna por los datos entra en una fase más seria: Reddit ha presentado una demanda contra Perplexity por presunta extracción no autorizada de contenido generado por sus comunidades. La denuncia se dirige también contra tres compañías que, según la plataforma, proporcionaron la infraestructura para capturar información a gran escala.

El litigio, radicado en un tribunal federal de Nueva York, acusa a las empresas de participar en una “economía de raspado a escala industrial” destinada a abastecer sistemas de inteligencia artificial. En juego no solo están los intereses comerciales de las partes, sino el modo en que se accederá y licenciará el material público en la era de la IA.

Qué sostiene la demanda de Reddit

Reddit señala a Perplexity (San Francisco) y a los proveedores Oxylabs UAB (Lituania), SerpApi (Texas) y AWMProxy como participantes en un esquema que burlaba sus defensas para extraer publicaciones y comentarios de millones de usuarios con fines comerciales. La compañía equipara esa conducta con “aspirar” el contenido sin permiso, comparándolo con atacar el camión blindado al no poder abrir la bóveda.

La querella solicita daños y perjuicios e interdicción para detener la supuesta recolección y explotación del material, invocando, entre otras, normas de propiedad intelectual. Tras conocerse la acción, los títulos de Reddit llegaron a retroceder más de un 4% en el parqué neoyorquino, reflejando el ruido que genera el caso en el mercado.

Este movimiento legal llega poco después de otra causa presentada por Reddit contra Anthropic, y se suma a su estrategia de conceder licencias de datos a tecnológicas como Google y OpenAI. Para la red social, la diferencia entre pagar por acceso y raspar sin autorización es la línea roja del negocio de la conversación online.

Cómo se habrían obtenido los datos, según la denuncia

El escrito acusa a los demandados de sortear dos capas de control: primero, los mecanismos anti-scraping de Reddit y después los filtros de Google y rastreadores de terceros, para consumir contenido de Reddit directamente desde los resultados del buscador. La demanda habla de acceso automatizado, sin autorización y a enorme escala.

En concreto, la plataforma afirma que los proveedores actuaban como “servicios de extracción”, enmascarando identidades y ubicaciones para camuflar el tráfico de sus raspadores. La cifra que pone sobre la mesa es llamativa: casi tres mil millones de páginas de resultados habrían sido consultadas de forma mecanizada para nutrir a clientes de IA.

Reddit asegura además que ejecutó una prueba deliberada, una especie de trampa conocida como mountweazel: publicó contenido accesible únicamente para el rastreador de Google y, al poco tiempo, vio ese material aparecer citado por el motor de respuestas de Perplexity. Para la compañía, fue la confirmación de que se estaba acudiendo a los SERP para ingerir su contenido.

La cronología incluye una carta de cese y desistimiento enviada a Perplexity en mayo de 2024. Pese a ello, Reddit afirma que las referencias a su contenido se multiplicaron después, lo que achaca a la compra de datos a terceros. AWMProxy, uno de los señalados, es descrito como un “antiguo botnet ruso”, con menciones a vínculos con Glupteba en informes citados en la demanda.

La respuesta de Perplexity y de los proveedores

Perplexity sostiene que, cuando trascendió la noticia, todavía no había recibido la notificación formal de la demanda, aunque difundió un posicionamiento público en el que promete defender el acceso libre y justo al conocimiento disponible y rechaza “amenazas” contra la apertura de internet. La empresa califica las pretensiones de Reddit de incompatibles con una web abierta y llegó a tildarlas de “extorsión” en mensajes divulgados en foros públicos.

La startup defiende que su servicio resume y referencia contenido público y no “entrena con aportaciones específicas”, por lo que un acuerdo de licencia general “no tendría encaje”. SerpApi, por su parte, niega las acusaciones y anticipa una defensa vigorosa; Oxylabs se declara “sorprendida y decepcionada”, añade que Reddit no intentó dialogar previamente y sostiene que ninguna empresa puede apropiarse de datos públicos que no le pertenecen. AWMProxy no ha ofrecido comentarios a la prensa especializada en el momento de redactar estas líneas.

Datos con sello y datos sin dueño: el negocio en disputa

Más allá del pleito, se libra una carrera por contenido humano de calidad para mejorar respuestas de la IA. Ahí, Reddit ocupa un lugar privilegiado: aloja una de las colecciones más grandes de debate moderado y de nicho en internet, con una comunidad activa que supera los 100 millones de usuarios diarios, según cifras difundidas por la propia plataforma.

Ese activo ha motivado que Reddit firme acuerdos de licencia con compañías que pagan por usar sus datos en entrenamiento de modelos. Tales pactos ayudaron a engrosar la caja de la empresa antes de su salto a Bolsa y sostienen su argumento: acceso sí, pero con permiso y precio. La demanda sugiere que, en paralelo, ha florecido un mercado gris de “blanqueo de datos” que intenta soslayar esa vía formal.

Claves legales en EE. UU. y en Europa

En Estados Unidos, los tribunales deberán estudiar si los términos de servicio de la plataforma limitan el scraping y el uso comercial del contenido, y si las herramientas de terceros eludieron medidas técnicas de protección. También se valorará la diferencia entre derechos sobre la expresión (el texto) y prácticas de minería de datos para extraer patrones y hechos que dan forma a los modelos de lenguaje.

En la UE, el marco es distinto: la Directiva de derechos de autor (DSM) contempla excepciones de text and data mining para investigación y, con límites, para usos comerciales siempre que el titular no haya optado por excluirlo de forma expresa. A ello se suman el Reglamento de Servicios Digitales (DSA), el de Mercados Digitales (DMA) y el futuro Reglamento de IA, que establecen obligaciones de transparencia, seguridad y gobernanza de datos. En España, estas reglas aplican de lleno y las webs pueden ejercer un opt-out de TDM y reforzar sus políticas de rastreo mediante robots.txt y otras señales técnicas.

Impacto potencial en España y la UE

Si prosperan las tesis de Reddit, las tecnológicas que usan contenido público para IA podrían enfrentarse a más costes de licencia y controles de acceso, algo que afectaría a startups europeas y a proveedores de scraping con base en el continente. Para medios, foros y agregadores, el caso reabre el debate sobre cómo monetizar aportaciones de comunidades en un entorno donde los chatbots reducen el tráfico de retorno.

Para los usuarios, no se esperan cambios inmediatos en la experiencia de Reddit en España, pero sí más visibilidad de políticas de datos y de exclusión de rastreadores. En paralelo, los reguladores europeos observarán con lupa este pulso: la tensión entre “datos públicos” y “datos licenciados” define dónde se traza la frontera entre innovación y apropiación indebida.

El procedimiento judicial enfrentará dos visiones del ecosistema digital: la de quienes apuestan por licenciar y controlar el acceso a grandes corpus de conversación y la de quienes defienden que el contenido disponible públicamente puede analizarse y resumirse sin trabas. Lo que decida la Justicia marcará la ruta de la IA generativa en los próximos años, también en el mercado europeo.

via Actualidad Gadget https://ift.tt/2QcX30h

Robótica Divulgativa