Un moteur de recherche pour les journalistes ?

Un moteur de recherche pour les journalistes ?

Si vous deviez réunir un groupe de journalistes pour discuter de ce qui fait une bonne qualité dans leur domaine, ils se disputeraient pendant des heures. Oui, ils seraient d’accord sur les éléments: des rapports originaux et sur le terrain, des enquêtes basées sur des documents plutôt que des sources anonymes et une analyse intelligente basée sur des faits plutôt que sur des opinions. Mais ils ne sont pas d’accord sur l’importance d’une bonne rédaction, des attributions nécessaires et d’innombrables autres nuances. En tant que journaliste travaillant partout dans le monde avec tout le monde, de Reuters au New Yorker en passant par le Daily Mail et Vice, j’ai vu de vastes lacunes dans la façon dont les rédacteurs en chef et les journalistes voyaient la qualité. Mes propres opinions à ce sujet ont été façonnées par une formation non journalistique en mathématiques, en physique et en programmation.
Les discussions sans fin sur la baisse des revenus de l’industrie des médias ne parviennent souvent pas à résoudre le fait qu’une grande partie de l’industrie, en partie seulement en raison de la baisse des revenus, produit des déchets: des articles superficiels et bâclés conçus pour n’être rien de plus qu’un vecteur de revenus publicitaires. Les lecteurs se retrouvent souvent avec opinion non sollicitée, «banalyse» plutôt qu’analyse et certainement pas les premières ébauches de l’histoire. Mais ce n’est pas mal du tout. Les grands et petits organes de presse produisent un excellent travail malgré les problèmes profonds de l’industrie. Le problème est de savoir comment le trouver – et encourager les gens à le faire – à grande échelle.
Chez Deepnews, nous construisons un algorithme pour différencier le journalisme de haute et de basse qualité basé sur rien d’autre que le texte d’un article. Cela signifie que non seulement les mesures de ce qui fait que le journalisme de qualité doit être convenu, mais elles doivent également être mises dans le langage précis du code. C’est une tâche difficile et notre modèle ne sera jamais à l’épreuve des balles – comment un algorithme pourrait-il dire si un journaliste a fait une citation, par exemple – mais ce qui m’a étonné ces derniers mois, c’est que cela fonctionne du tout.
L’informatique est sans aucun doute capable de prouesses incroyables, même en ce qui concerne la complexité du langage humain. GPT-3, un générateur de langage d’apprentissage automatique, a récemment pu écrire un Guardian article d’opinion. La pièce a nécessité un travail manuel, selon les éditeurs de Guardian, et le produit final utilisait un langage agréable mais, en fin de compte, n’avait aucun sens – précisément le type de journalisme que Deepnews souhaite éliminer. L’écriture est l’une des facettes de la capacité du machine learning. Un autre est de prédire ce que veulent les utilisateurs; il est déjà utilisé pour personnaliser vos résultats de recherche Google, vos choix vidéo YouTube et Netflix et, bien sûr, vos flux Facebook et Twitter. Cela fonctionne remarquablement bien mais, bien entendu, la qualité n’est pas l’objectif premier de ces entreprises.
Actuellement, le produit principal de Deepnews est un ensemble de newsletters semi-automatisées sur divers sujets, choisis par l’algorithme, puis par un éditeur humain qui est l’équivalent de l’éditeur Guardian découpant la sortie de GPT-3 pour publier un article d’opinion quelque peu passable. Mais, en fin de compte, cela ne met pas en évidence le bon travail de notre algorithme. Il est masqué par un processus éditorial et ressemble donc à n’importe quel autre bulletin d’information qui rassemble des articles en ligne. Pour cette raison, nous développons actuellement une interface à travers laquelle les utilisateurs peuvent voir les résultats de dizaines de milliers d’articles notés chaque jour en temps réel, sans intervention éditoriale.
Mais le frontend est le plus facile. Qu’en est-il de l’algorithme qui choisit les histoires que les utilisateurs voient? Comment, exactement, fonctionnerait cet algorithme de notation des actualités? Quels paramètres y entreraient? Comment entraîneriez-vous l’algorithme?
Il existe essentiellement deux façons d’obtenir un ordinateur pour marquer quelque chose comme un article de presse. Nous pourrions le programmer pour rechercher dans les articles des expressions telles que «selon des documents» ou «selon des sources anonymes» et augmenter ou diminuer un score arbitraire en conséquence. Nous pourrions également augmenter ce score en fonction du décompte des adjectifs, des citations, des personnages, des entreprises ou des pays mentionnés. Nous pourrions compter le nombre d ‘«experts» cités et même rechercher par programme leur expertise et, encore une fois, pousser légèrement le score. Ce serait une forme d’examen déterministe et ingénue – mais pourrait donnent des résultats de premier ordre quelque peu utiles.
Mais notre tâche, compte tenu de la complexité du langage, du reportage et, bien sûr, des nombreux types de journalisme, est vraiment adaptée à l’apprentissage automatique. L’apprentissage automatique examine le problème dans l’autre sens. Si les scores sont alimentés pour un ensemble d’articles, un algorithme d’apprentissage automatique fonctionne à rebours pour déterminer les paramètres qui ont conduit à ces scores – puis peut noter de nouveaux articles en utilisant ce qu’il a appris. Un algorithme apprendrait précisément ce qui faisait un journalisme de bonne qualité compte tenu, bien sûr, des opinions de ceux qui étiquetaient les articles originaux.
Dans un monde idéal, nous lirions, analyserions et noterions des dizaines de milliers d’articles de presse et les intégrerions au modèle. Mais cela prendrait de nombreuses années. À l’autre bout de l’échelle, nous pourrions simplement qualifier tous les articles lauréats du prix Pulitzer de bons et tous les articles Breitbart de mauvais – mais cela fausserait fortement notre algorithme le long de dimensions politiques et autres, tout en perpétuant l’existant, idées imparfaites sur ce qu’est un bon journalisme. (Ceux au sein de l’industrie savent bien que les Pulitzers sont souvent plus une question de politique que de prouesse.) Nous voulons que les lecteurs trouvent du bon travail par des organes de presse et des journalistes qui ne se concentrent pas sur le marketing: agences de presse mondiales, petits médias locaux ou un professeur obscur qui écrit un article de blog.
Au départ, Deepnews a opté pour un terrain d’entente. Les articles ont été largement regroupés par éditeur (ce qui va à l’encontre des arguments idéalistes ci-dessus), puis les étudiants en journalisme ont été formés à analyser les articles en utilisant des paramètres sur lesquels l’équipe était largement d’accord. On leur a demandé de donner la priorité aux articles originaux, approfondis et bien rapportés. Cela s’est avéré être un bon début et, à la fin, nous avons produit un ensemble de formation de dizaines de milliers d’articles.
Une fois que nous avons eu quelques données d’entraînement initial, nous les avons introduites dans une abstraction mathématique / programmatique connue sous le nom de réseau de neurones, conçue pour émuler le cerveau humain en passant des données à travers des millions de neurones, chaque réglage eux-mêmes à un élément du texte et déterminer sa pertinence par rapport à la note finale. Notre modèle initial a donné des résultats assez solides, bons sur certains genres et mauvais sur d’autres, référencement google mais certainement meilleurs que le hasard.
Le réglage fin des données d’entraînement et de l’architecture du réseau neuronal est l’endroit où la magie opère. Nous devons encore élaborer un meilleur ensemble de formation et ensuite, une fois que nous avons cela, penser au type de réseau – simple, convolutif, récurrent ou une combinaison de ces méthodes et d’autres? C’est ce avec quoi nous jouons au fur et à mesure que nous faisons évoluer le modèle, et ce que j’écrirai dans les prochains articles.
En fin de compte, toutes les nouvelles que vous lisez sont choisies par un algorithme, qu’il s’agisse d’une information floue dans le cerveau d’un éditeur si vous prenez un certain journal, ou d’un journal plus mathématique dont les objectifs peuvent ou non correspondre aux vôtres. L’utilisation de notre nouvelle interface bêta pour comparer notre sortie brute et non éditée à celle des médias sociaux et même des agrégateurs de nouvelles montre un étonnant différence: le journalisme présenté par Deepnews est du journalisme que je veux vraiment lire!

Sauver le journalisme avant que le coronavirus ne le détruise

Il ne semble pas qu’il y a longtemps que les fonds de secours d’urgence aient été utilisés pour aider les personnes écrasées par des catastrophes naturelles; maintenant, le plus grand moteur de recherche du monde en a lancé un pour sauver le journalisme.

Google et le soutien de la presse

L’impact de Covid-19 sur l’industrie de l’information a été si terrible que Google a annoncé son intention de verser jusqu’à «des dizaines de milliers de dollars» aux salles de rédaction du Royaume-Uni. Compte tenu de l’ampleur de la crise, qui survient après des années où Google lui-même a été la cause de tant de perturbations, cela revient à jeter quelques planches de bois à ceux qui sont au milieu d’un tsunami.

Rien que la semaine dernière, des journaux nationaux, dont le Telegraph, le Financial Times et le Guardian, ont mis leur personnel en congé et annoncé de nouvelles réductions de coûts après avoir annoncé une forte baisse des revenus. L’analyse Enders, qui prévoit une baisse de 50% des revenus publicitaires cette année, estime le coût potentiel total pour l’industrie à environ 650 millions de livres sterling une fois les baisses de diffusion incluses. Ceci malgré des niveaux de trafic et d’engagement record lecteurs en ligne. Les revenus numériques du Guardian dépassent également ceux de l’imprimé. Imaginez l’impact sur les petits journaux privés d’investissement ou de compréhension des propriétaires.

Les craintes concernant l’avenir de l’actualité dans un écosystème numérique, dans lequel le faux et le clickbait prospèrent, n’ont rien de nouveau; mais cette crise a mis les choses en relief. Un virus pourrait porter le coup final à certaines parties d’une industrie aux prises avec un marché défaillant.

Le virus va tuer la presse

À moins que l’action ne soit rapide, le paysage médiatique post-Covid sera un endroit sombre dans lequel un journalisme précieux se perd dans un tourbillon de désinformation. Celui où une «infodémie» de quoi que ce soit va en ligne devient la norme éventuelle.

Un gouvernement conservateur qui a déjà nationalisé les chemins de fer et déclaré que les journalistes sont des travailleurs clés pendant cette crise semble prêt à intervenir. Jeudi dernier, le ministre des médias, John Whittingdale, a rencontré des personnalités du secteur pour discuter de la voie à suivre.

Si le journalisme doit être sauvegardé en tant que bien public essentiel, il reste encore beaucoup à faire – non seulement par le gouvernement avec des fonds publics, mais aussi par les entreprises technologiques qui ont bénéficié d’un marché dysfonctionnel et par l’industrie des journaux elle-même.

Pour commencer, l’industrie de l’information doit prouver pourquoi un héritage dans la presse écrite justifie tout type de traitement spécial: elle peut le faire en fournissant le type de nouvelles et d’informations qu’une démocratie mérite et exige. Nous pouvons tous ne pas aimer les différents journaux, voire les chroniqueurs, mais le journalisme qui fait une réelle différence – du scandale de Windrush au meurtre de Stephen Lawrence aux dépenses des députés – coûte de l’argent, mais dans le système actuel dominé par les géants mondiaux de la technologie, le le marché ne le soutient pas.

La presse et l’internet

Il y aura un débat long et sans doute amer sur ce qui constitue un bon journalisme. L’industrie a un code de conduite, mais depuis trop longtemps, il n’a pas été correctement respecté. Dans le monde post-Covid, lorsque le monde de l’information doit prouver ses pouvoirs, cela ne devrait plus être le cas.

Google, Facebook, Apple et Twitter partagent une grande part de responsabilité dans le gâchis dans lequel nous nous trouvons – leurs dirigeants ont passé des années à rejeter le journalisme d’actualité comme le télécopieur de cette époque, tout en empochant d’importantes sommes d’argent du contenu qu’il fournit. Les initiatives de la salle de rédaction numérique et la recherche payante ne font rien d’autre que mettre un brillant brillant sur ce fait.

Vendredi, le NUJ a lancé son propre plan de relance des nouvelles qui proposait une taxe exceptionnelle de 6% sur les entreprises numériques. C’est une bonne idée, mais en tant que ponctuelle, il n’est pas clair comment cela pourrait fonctionner à long terme. Facebook et Google ont au moins pris des mesures ces dernières semaines pour soutenir les journaux en cette période de crise, contrairement à Apple. Ce dernier continue de réduire de 30% tous les nouveaux abonnements aux nouvelles numériques via ses applications iOS – il en va de même pour tous les paiements uniques. Apple pourrait au moins suspendre ces paiements pour le moment.

L’idée même de l’intervention de l’État – évoquée pour la dernière fois Février 2019 par la Cairncross Review dans les journaux – est susceptible de provoquer l’indignation à la fois de ceux de l’industrie qui y voient une attaque contre le quatrième domaine et de ceux qui ne croient pas que le journalisme mérite un financement public.

Ni les principaux groupes de journaux ni le gouvernement n’ont soutenu les appels lancés dans la revue de Cairncross pour un institut public d’information. J’ai parlé à Frances Cairncross, qui a dirigé le rapport, pour parler de la crise actuelle. «Les pressions sont si imminentes et si puissantes qu’il y a un danger que beaucoup de bonnes choses qui, autrement, auraient survécu, soient détruites», dit-elle.

Il y a des choses immédiates qui pourraient être faites et qui gagneront probablement le soutien à la fois d’une industrie opposée à toute intervention de l’État – et d’une Thatcherite comme Whittingdale. Pour commencer, le gouvernement pourrait utiliser l’argent public pour payer la publicité locale, non seulement pour ses propres messages, mais pour soutenir les industries locales actuellement fermées par le verrouillage. Le Danemark, comme de nombreux pays nordiques, a une histoire du soutien de l’État au journalisme remplaçant plus ou moins la publicité dans les journaux par des fonds publics cette année. Prolonger les allégements fiscaux à la TVA annoncés dans le budget et permettre aux journaux de demander des allégements tarifaires aux entreprises, même s’ils doivent continuer à fonctionner, sont d’autres mesures possibles.

Ce sont de petites bières par rapport au type de financement public recommandé par Cairncross et soutenu par le NUJ. Il est certainement temps d’envisager au moins un soutien à plus long terme.

Les grandes questions sont de savoir d’où vient cet argent et quel type de journalisme il soutiendra. Utiliser l’argent public pour soutenir le journalisme qui a longtemps été diminué par les propriétaires avides sera aussi mauvais que de permettre aux plateformes en ligne de déchirer le pacte de base de l’actualité.

Le modèle actionnarial de propriété des informations a échoué bien avant que les plates-formes numériques innovantes ne montrent ses inefficacités. Les groupes de journaux locaux, tels que Johnson Press et d’autres, les agences de presse d’actifs ne peuvent plus atteindre 30% de marges bénéficiaires qui sont alors dépensé en dividendes et en suites exécutives plutôt qu’en salles de rédaction. Le NUJ demande que l’argent public soit retenu des entreprises qui l’utilisent pour licencier des personnes, réduire les salaires ou bloquer la reconnaissance syndicale tout en distribuant de gros bonus – cela semble tout à fait raisonnable.

Une taxe numérique pour soutenir la presse

La taxe exceptionnelle du NUJ sur les groupes numériques est également une bonne idée, mais sera-t-elle durable? Il serait certainement préférable de réorganiser en permanence la manière dont le contenu est payé en ligne via des accords de licence.

Face aux demandes historiques sur les deniers publics, il sera vrai que le gouvernement actuel se tournera vers la BBC pour l’aider. Ce serait une erreur et pourrait s’avérer impopulaire. Ayant retardé les paiements des plus de 75 ans et intensifié son offre de service public avec éducation et plus pendant la pandémie, la BBC fait face à un avenir à court d’argent. Ce serait une parodie s’il était maintenant obligé d’aider encore plus les informations locales, ayant déjà fait grimper le coût de 150 millions de livres sterling pour le Local Democracy Reporting Service.

Le monde post-Covid est susceptible de voir moins d’argent pour tout le monde, bien sûr, à l’exception de Jeff Bezos et Mark Zuckerberg. Nous devrons tous déterminer ce qui doit être soutenu avec des ressources limitées. Même discuter du soutien de l’État au journalisme montre à quel point le secteur de l’information a chuté. Mais si nous acceptons que le journalisme est vital pour la société et que le modèle économique actuel ne fonctionne pas, alors quelque chose doit être fait, non seulement par le gouvernement mais par nous tous.