ChatGPT avait une astuce pour contourner certains paywalls
OpenAI a dû désactiver une option de ChatGPT avec Bing parce qu’elle servait à contourner les paywalls.
ChatGPT, outil redoutable pour contourner les « paywalls » de la presse sur Internet ? C’est ce que des internautes ont pu constater en utilisant de manière originale le chatbot d’OpenAI. Une astuce bien commode pour enjamber ces « murs virtuels », mais à laquelle le laboratoire américain a mis fin, d’après le message qu’il a laissé le 4 juillet 2023 sur Twitter.
« Nous avons appris que la version bêta de la ‘navigation’ de ChatGPT peut afficher occasionnellement du contenu d’une manière que nous ne souhaitons pas, par exemple si un utilisateur demande spécifiquement le texte intégral d’une URL, [le chatbot] peut répondre à cette demande par inadvertance », écrit OpenAI, qui a momentanément coupé la fonctionnalité.
Une astuce anti-paywall imparfaite
Ce comportement a été noté par Arvind Narayanan, professeur d’informatique à l’université de Princeton, dans un fil de discussion le 26 juin. On pouvait esquiver certains paywalls avec ChatGPT, en lui demandant de sortir une version imprimable du texte. En l’espèce, la démonstration était faite sur une publication anglophone de The Atlantic. L’agent conversationnel s’était exécuté.
Les paywalls peuvent être considérés comme des péages virtuels. Ils sont mis en place par les éditeurs de presse pour inciter les internautes à acheter l’article ou à un prendre un abonnement, en masquant tout ou partie du contenu de l’article. Les politiques des éditeurs concernant ces murs de paiement varient. Certains offrent quelques articles avant de verrouiller, d’autres non.
L’universitaire remarquait que le texte reproduit par ChatGPT était exact au mot près, hormis une ou deux phrases manquantes et quelques fautes de frappe. « Il n’a rien inventé », a-t-il souligné — une précision importante, le chatbot étant connu pour sa propension à mentir dans certaines situations. L’intéressé a fait toutefois remarquer que cette faculté n’était pas disponible dans la version de base de ChatGPT (avec GPT-3.5), mais dans la version avancée (avec GPT-4).
ChatGPT réécrivait les articles sans se poser de question // Source : Claire Braikeh pour Numerama
La version avancée de ChatGPT est payante, à 20 dollars par mois. Avec elle, on a accès au modèle de langage GPT le plus avancé d’OpenAI, l’accès aux plug-ins (en bêta) et à la navigation en ligne (en bêta également). Ces fonctionnalités spéciales avaient été annoncées plus tôt cette année — en février pour la navigation, avec un déploiement à partir de mai.
Le fait que ChatGPT puisse contourner certains paywalls et pas d’autres vient de la manière dont ces murs virtuels sont conçus. Certains éditeurs de presse optent pour des paramétrages souples, aisément contournables — par exemple en désactivant le langage JavaScript sur le navigateur de l’internaute. D’autres médias suivent par contre des réglages beaucoup plus sévères.
Dans le cas de The Atlantic, il apparaît que le paywall fonctionne ainsi : l’article est d’abord transmis intégralement, puis le paywall est appliqué côté client. De fait, il est possible d’empêcher son exécution en bloquant les scripts avec son navigateur. D’autres médias, comme le Wall Street Journal, incluent le paywall directement dans l’article qui est envoyé à l’internaute.
Dès lors, il n’était pas difficile pour ChatGPT de lire l’article via Bing, si besoin en passant par le cache de la page web stocké par le moteur de recherche de Microsoft. C’est ce comportement auquel met fin OpenAI. « Nous désactivons Browse pendant que nous corrigeons ce problème – nous voulons faire ce qu’il faut pour les propriétaires de contenu », a indiqué le laboratoire.
Abonnez-vous à Numerama sur Google News pour ne manquer aucune info !
Source: Numerama