Les robots, visiteurs invisibles des sites d’éditeurs


Les robots, visiteurs invisibles des sites d’éditeurs

La journée d’un éditeur numérique, particulièrement dans le secteur des médias, commence souvent par un même rituel : consulter les statistiques d’audience. Combien de visiteurs ont fréquenté le site ? Combien de pages vues ? Quels articles ont suscité le plus de lectures ? Combien de nouveaux abonnés à l’infolettre ou aux contenus payants ?

Ces chiffres, fournis par des outils comme Google Analytics, dessinent les contours du modèle économique des éditeurs sur Internet : l’audience pour la publicité et les abonnements pour les contenus réservés. Mais ces données ne mesurent qu’une partie de la réalité — celle des internautes « humains ».

Depuis l’irruption de l’intelligence artificielle générative (IAG), il y a un peu plus de deux ans, un autre type de trafic suscite désormais l’attention : celui des robots commerciaux, appelés aussi crawlers ou bots. Chaque jour, ces robots explorent massivement les sites pour en extraire textes, photos, illustrations, vidéos ou balados.

Que font-ils des contenus ?

Ces contenus, littéralement aspirés, sont ensuite indexés, agrégés et analysés afin d’alimenter les gigantesques bases de données — les datasets — utilisées pour l’intelligence artificielle générative, la veille médiatique, la publicité ciblée et bien d’autres usages. Le tout sans autorisation, ni rémunération des éditeurs et des auteurs.

Sans complexe, la majorité de ces robots ignorent le protocole robots.txt, une norme du web censée définir ce qu’ils peuvent ou non explorer. Autrement dit, ils franchissent délibérément les limites fixées par les éditeurs.

La part de ce trafic automatisé ne cesse de croître. Et les robots d’IAG, capables de résumer ou de reformuler les articles des éditeurs, affaiblissent directement leur audience humaine, pilier de leur modèle économique. Wikipédia a d’ailleurs récemment révélé les difficultés rencontrées face à la montée en puissance des outils comme ChatGPT, Perplexity et autres.

Quelles solutions pour l’avenir ?

Sommes-nous condamnés à regarder, impuissants, le pillage de nos créations, fruits du talent, de la créativité et de l’intelligence humaine ?

Heureusement, des solutions technologiques émergent pour redonner aux éditeurs le contrôle de leurs contenus.

Copibec a choisi de s’associer à l’une des plus pertinentes d’entre elles : Botscorner. Conçue par Yan Gilbert, ancien directeur de la diffusion numérique du magazine Le Nouvel Observateur à Paris, cette solution est née de son intérêt précoce pour la traçabilité et la régulation des robots commerciaux.

Botscorner permet à Copibec d’accompagner les éditeurs dans l’identification des entreprises qui explorent leurs sites ou leurs bases de données. L’outil offre un suivi précis de la fréquence et du volume de crawl, il catégorise chaque robot en fonction de son activité et apporte ainsi une vision claire du trafic non humain.

C’est un moyen concret de reprendre la main sur les contenus des ayants droit : en bloquant les robots indésirables ou en établissant des ententes avec ceux qui souhaitent — ou doivent — se conformer aux règles.

Trop souvent visiteurs invisibles, ces robots devront désormais montrer patte blanche pour accéder aux sites… et payer leur entrée. Une manière de rétablir un équilibre économique qu’ils ont largement contribué à déstabiliser.


Vous aimeriez en savoir plus ? Contactez-moi.

Pascal Laroche
Responsable du développement des affaires
p.laroche@copibec.ca