pac

weeknotes

Dataviz électorales

Julius Tröger, responsable de la visualisation et des données à Die Zeit, raconte comment ils ont couvert l'élection allemande.

Les résultats de chaque circonscription ont été affichés en direct avec un détail par commune.

Für alle 299 Wahlkreise haben wir zudem eigene Artikel veröffentlicht, in denen die Ergebnisse bis auf Gemeindeebene live angezeigt wurden. Normalerweise werden diese von der Bundeswahlleiterin erst Monate später offiziell bereitgestellt.

Choix d'un cartogramme par points pour donner la même importance visuelle à chaque circonscription.

Erstmals verwendeten wir in unseren Kartendarstellungen sogenannte Kartogramme, die auch flächenmäßig kleine Wahlkreise gleichwertig abbilden. Zudem wurden dort die durch das neue Wahlrecht verwaisten Wahlkreise gezeigt.

Pour chaque circonscription, Die Zeit a représenté l'évolution historique depuis 1949.

Eine weitere Neuerung: Erstmals konnten wir für jeden Wahlkreis Vergleichsergebnisse seit 1949 zeigen. Dafür haben wir die historischen Daten in einem aufwendigen Verfahren auf aktuelle Wahlkreisgrenzen umgerechnet.

Ça fait longtemps que Die Zeit fait de très bonnes choses en visualisation de données.

Je découvre que Gregor Aisch, créateur de Datawrapper, ancien du New York Times, a rejoint Die Zeit. On peut découvrir certaines expérimentations sur @observablehq@vis.social. Il explique notamment comment il a construit le cartogramme des circonscriptions. Ça ressemble à une simple carte mais c'est en fait un réseau des circonscriptions construit à partir d'une matrice d'adjacence des circonscriptions.

Réseaux sociaux

Flef s'associe à Mathis et Clément Hammel pour lancer Agoratlas, une entreprise qui vise à cartographier n'importe quel réseau social.

On peut voir notamment une analyse des comptes commentant l'échange entre Trump et Zekensky sur X : https://bsky.app/profile/agoratlas.com/post/3ljdkb4bk7227.

Agoratlas utilise notamment l'outil D3lta publié en open source par VIGINUM : https://www.linkedin.com/feed/update/activity:7301666208855011330, https://github.com/VIGINUM-FR/D3lta.

Mathis Hammel raconte aussi comment il a contourné les dispositifs anti scraping de TikTok : https://bsky.app/profile/mathishammel.bsky.social/post/3ljaqmznvg227

PolitixTop

D'après PolitixTop, seuls les Écologistes sont actifs sur Mastodon (13% des députés). Y a encore du boulot.

Penser comme un castor

Je suis en plein dans la lecture de Rendre l'eau à la terre de Baptiste Morizot et Suzanne Husky. Ça fait réfléchir à notre aménagement du territoire, à notre conception des rivières, à notre rapport aux vivants non humains, à notre conception de l'ingénierie, etc. C'est assez fascinant. Il y a un passage assez dingue sur la différence de conception d'un barrage entre les humains modernes et les castors. Baptiste Morizot explique comment l'humain voit l'ouvrage alors que le castor voit le flux, comment le castor ne cherche pas à stopper le flux mais à le ralentir et surtout comment le castor conçoit son barrage comme un travail continu quand l'ingénieur humain le voit comme un projet avec un début et une fin.

Les aquarelles de Suzanne Husky sont hyper belles et rendent la pensée de Baptiste Morizot concrète et accessible.

Tarifs douaniers

Gabriel Zucman propose une stratégie pour répliquer aux tarifs douaniers imposés par Trump.

America’s Achilles’ heel is its highly internationalized oligarchy: a small group of ultra-wealthy individuals whose fortunes depend on access to global markets. This vulnerability gives foreign governments influence. The most effective countermeasure is simple: tariffs for oligarchs. Countries should tie market access for foreign multinationals and billionaires to fair taxation. As soon as Trump follows through with tariffs on Canada and Mexico, those countries should retaliate by taxing US oligarchs.

Lire aussi

Vélo

La fédération des usagers de bicyclettes (FUB) lance une grande enquête sur la sécurité des déplacements à vélo.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Hétérotopies improductives

J'aime bien le concept d'hétérotopies improductives de Thibault Prévost.

Mais que vous quittiez X, Facebook et Instagram, que vous mettiez vos comptes en sommeil ou que vous décidiez, bravement, d'aller combattre l'armée dégueulante de rage sur un terrain structurellement hostile, ménagez-vous des espaces d'interaction numériques bienveillants, des hétérotopies improductives : flux RSS, newsletters, blogs, podcasts, essais vidéo sur Youtube, échanges BlueSky et j'en passe.

Réseau social hyper local

Le Monde zoome sur Front Porch Forum, un réseau social local dans le Vermont.

Le réseau est local, uniquement disponible dans le Vermont et fonctione sur une modération a priori.

Pour éviter les dérapages et les attaques personnelles, toutes les publications sont relues avant d’être publiées. Une tâche fastidieuse, qui mobilise 14 des 30 employés, mais qui, d’emblée, calme le jeu. « Comme on enlève toutes les publications problématiques, on crée un effet d’entraînement positif », explique Zoe (le prénom a été modifié), l’une des modératrices du site.

Punchlines

Dans son interview pour Mediapart, @renchap@oiseaur.fr multiplie les punchlines. Il ne faut plus voir Masto comme un petit projet open source sympa mais comme une alternative libre, décentralisée et européenne aux réseaux sociaux de Musk et Zuckerberg.

Renaud souligne qu'en cas de nouvelle pandémie, nous n'avons pas de garantie que les plateformes américaines jouent le jeu.

J’ai récemment discuté avec des personnes travaillant à la Commission européenne à Bruxelles, qui m’expliquaient leurs craintes si nous vivions une nouvelle pandémie comme celle du covid. Avec un réseau social sous contrôle, et vu le nouveau gouvernement américain très antivax et anti-sciences, est-ce que nos pouvoirs publics pourraient librement communiquer ?

Dans un contexte de forte opposition entre les États-Unis et l'Europe sur la régulation du numérique, on peut aussi anticiper des mesures de pression de la part des plateformes.

On sait aussi que les États-Unis sont hostiles aux régulations européennes qui protègent le public, notamment le DSA [le règlement européen sur les services numériques, en vigueur depuis février 2024 – ndlr]. Rien n’empêche Trump ou Musk de fermer les comptes du gouvernement français pour obtenir la suppression de ces régulations européennes.

Les pouvoirs publics peuvent être prescripteurs.

Quand la ministre néerlandaise du numérique, Alexandra van Huffelen, a déclaré au JT : « Je quitte Twitter, rejoignez-moi sur Mastodon », on a eu des dizaines de milliers d’inscriptions en une journée. Ce sont les responsables publics qui ont le pouvoir de faire venir les gens.

Dataviz hero

@fil@vis.social est à la fois hyper actif et en même temps très discret. Allison Horst a réussi à obtenir une petite interview de lui.

On y apprend que Fil a d'abord été journaliste et qu'il s'est reconverti sur le tard.

I used to be a journalist. When I was just getting started in journalism, I was responsible for building and maintaining the paper’s website. I worked at that same newspaper for almost twenty years. I eventually got fed up and decided I wanted to try something new. At the same time, my friend and colleague Philippe Rekacewicz (who was a cartographer at the same newspaper) had decided to leave. I loved what Reka — as everyone calls him — was doing with maps, so I started learning cartography with him.

Il a notamment implémenté la projection de Bertin en D3js :

One of the first things I wanted to do for Reka was to automate the Bertin projection, which is used a lot by the French school of cartography.

I thought that automating the Bertin projection by computer code would be a weekend project. It took me around 4 years. Finally, we were able to describe the projection mathematically and implement it in D3 in 2017.

Perso, je suis toujours autant impressionné par sa carte isodémographique du Loir-et-Cher.

One of the 30-day map challenge pieces I’m very proud of is an isodemographic map of where I live. In this map, each cell represents the same number of inhabitants.

Pour Fil, la visualisation est une sorte de discipline très complète, un peu comme le décathlon de la data science ou du développement informatique :

Everything is hard. That’s the thing with data visualization. You have to understand the data. You have to understand the context. You have to understand the technique. You have to be an artist. You have to understand composition and color theory. All of these are really hard in a practical way, and in a theoretical way.

Fil s'intéresse aussi à la cartographie non géographique.

This is something I’ve been excited about for the last decade: using the cartographic metaphor to make a map of something that is not geographic by nature. Basically, being able to make a map of anything, and leveraging people’s intuitions (of how to read a map) to make the data easier to understand.

Surtout Fil fait l'éloge de la lenteur :

When I started making maps, I thought that automation would be a good idea. I wanted to make a “machine” that would save Reka a lot of time. I’ve since realized that there is a lot of value in making maps slowly.

When you’re making a map, there are all these challenges happening at the same time. The technical challenges, the cognitive challenge of understanding what the data represents, using the right form, the right colors, the right projection, and so on. Strangely, it feels like older maps were better at solving these challenges, probably because they required so much manual effort and time. People would spend months making a single map. They had time to think about it.

J'aime bien cette idée de prendre le temps. Faire de la data, c'est de l'artisanat. Il faut prendre son temps pour comprendre la donnée. On devrait parler d'artisanat de la donnée plutôt que de science de la donnée.

Grâce à cette interview, je découvre l'outil de cartographie sémantique Latent-scope

Portal Kombat, la suite

Il y a un an, Viginum publiait un rapport sur un réseau de portails d'information dénommé Portal Kombat. Aujourd'hui, Checkfirst et DFRlab montrent comment ce réseau s'est étendu depuis le rapport de Viginum.

Moteurs de recherche

Apparemment, les avertissement s de Google pour les résultats peu fiables ont mystérieusement disparu.

Google quietly stopped showing warning banners that alerted users to potentially unreliable search results in the weeks leading up to the 2024 US presidential election, despite no obvious improvement in the quality of those results, according to a new study from researchers at Stanford and Carnegie Mellon University.

Biodiversité

Par leur travail de terrain et de recherche, les scientifiques spécialistes de la biodiversité sont aux premières loges de la destruction de la nature. Sur leur bureau, les rapports décrivant la gravité du problème s’accumulent. Pourtant, la dizaine de chercheurs et de naturalistes interrogés dresse le même constat : le sujet reste largement ignoré, et fait même aujourd’hui l’objet de nets reculs. « Une vraie prise de conscience serait une prise de conscience qui mène à l’action. Or cela n’existe pas du tout », affirme Vincent Bretagnolle, écologue et directeur de recherche au Centre d’études biologiques de Chizé (CNRS-université de La Rochelle). « J’ai le sentiment que plus les effets de l’érosion de la biodiversité deviennent tangibles et massifs, plus il y a un recul de la mobilisation sur ces questions, se désole aussi Didier Gascuel, professeur en écologie marine à Agrocampus Ouest.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Scraper les résultats d'un moteur de recherche

Le medialab de Sciences Po met à disposition SearchEnginesBookmarklet pour récupérer les résultats d'un moteur de recherche.

Podcasts pro-Trump

Pixels analyse la galaxie des podcasts pro-Trump.

Atlas

L'artiste catalane Regina Gimenez publie Montagnes, un livre de visualisation de données sur les montagnes. Comme dans Le grand atlas géo-graphique, les visualisations sont dessinées à la main et peintes à l'aquarelle. Non seulement on apprend plein de choses mais en plus le rendu est très beau.

Médias et IA

Après Le Monde l'an passé, The Guardian signe un partenariat stratégique avec OpenAI.

The New York Times is greenlighting the use of AI for its product and editorial staff, saying that internal tools could eventually write social copy, SEO headlines, and some code.

Dans le même temps, OpenAI s'aligne sur le “free speech”.

OpenAI is changing how it trains AI models to explicitly embrace “intellectual freedom … no matter how challenging or controversial a topic may be,” the company says in a new policy.

In a new section called “Seek the truth together,” OpenAI says it wants ChatGPT to not take an editorial stance, even if some users find that morally wrong or offensive. That means ChatGPT will offer multiple perspectives on controversial subjects, all in an effort to be neutral.

“This principle may be controversial, as it means the assistant may remain neutral on topics some consider morally wrong or offensive,” OpenAI says in the spec. “However, the goal of an AI assistant is to assist humanity, not to shape it.”

AOC

Dans AOC, la chercheuse Cécile Alduy analyse l'expression « bataille culturelle »

L’expression « bataille culturelle » est devenue un cliché du commentaire politique et un marronnier journalistique. Elle n’est d’ailleurs utilisée que pour mesurer le soi-disant succès de l’extrême droite (jamais celui d’autres idéologies comme le libéralisme ou le consumérisme, ni la progression dans l’opinion de l’indice de tolérance ou de l’attachement aux droits des femmes, à la laïcité, etc.).

Parler de « bataille culturelle », c’est transformer l’espace politique en champ de bataille, l’agora en arène, le débat en pugilat.

Dès 1979, « La Guerre Culturelle » fait la couverture de la revue Éléments, pour une civilisation européenne fondée par le GRECE, le think tank de la Nouvelle Droite : le heaume médiéval qui sert d’illustration au numéro donne le ton.

Parler de « guerre » culturelle, c’est valoriser et acclimater une conception anti-démocratique de la vie politique. Par définition, une « victoire » ne pourrait être que l’élimination de « l’ennemi » par reddition ou annihilation totale. Dans cette vision, plus d’alternance politique, de compétition démocratique, ni de débat d’idées ou de réflexion critique des citoyens.

Newsletter

Je découvre que Gabriel Zucman a une newsletter intitulée Le triomphe de l'injustice.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Repenser l'IA

Dans AOC, Dominique Boulier propose de repenser l'IA et de sortir du paradigme connexionniste.

Un sommet de l’IA ne doit pas viser une harmonisation impossible entre des technologies portées par des régimes dictatoriaux et des firmes irresponsables et prédatrices. Il doit affirmer que, après la dérive des plateformes de réseaux sociaux, après la captation de rentes des plateformes de commerce et d’information, il est temps de faire sécession et de développer nos propres modèles d’IA.

Le modèle européen à venir doit rompre avec ces croyances au tout statistique et faire entrer la sémantique en jeu que d’autres traditions d’IA d’inspiration symbolique continuent à faire vivre.

Pour lui, cela passe par une valorisation du travail d'annotation humaine qu'il propose de remettre au centre.

les IA génératives qu’on nous vend ne peuvent se passer d’une description du monde, d’une classification du monde, d’une ontologie fondationnelle, malgré tout ce que les firmes prétendent. Mais alors, pourquoi toujours mettre l’accent sur la puissance de calcul, sur le nombre de paramètres, pourquoi occulter tout le travail de pondération de ces paramètres et évacuer la dépendance structurelle à ces annotations ?

L'annotateur est en fait un expert.

Les annotateurs font partie de ces experts de fait, mais on ne les désigne jamais sous ce vocable, plus noble et qui obligerait à les payer correctement.

Il est temps de reconnaître la place essentielle de l’expertise humaine pour faire entrer de la sémantique dans ces modèles, comme le faisait l’IA symbolique, et d’abandonner la vision fréquentiste qui est la leur. Cette expertise vaut avant tout pour sa capacité à valider la pertinence des descriptions du monde ; c’est ce que l’on ne peut déléguer à une quelconque machine qui n’a ni l’histoire, ni le corps, ni l’expérience vécue du monde.

Sa proposition revient à arrêter de concevoir l'IA comme indépendante d'un groupe social et construire des IA propres à chaqye groupe.

Il s’agit dans tous les cas de réencastrer le calcul dans la sémantique et dans le « design organisationnel » propre à chaque monde social. En effet la tendance au désencastrement du calcul, expression dérivée de Polanyi, est un risque que l’on mesure de plus en plus précisément avec ses systèmes de probabilité fréquentiste qui prétendent à la domination.

Les LLM sont une solution seulement dans un monde où l’intensité capitalistique n’est pas un problème, pas plus que ne le sont les effets climatiques, la responsabilité juridique, le droit du travail, le droit d’auteur ou le droit de la privacy, un monde étatusunien libertarien.

Sécurité de l'IA

Un peu étonné que *Mediapart” mette en avant les arguments de Stuart Russell sur les risques de l'IA plutôt que les arguments de celles (et ceux mais ce sont majoritairement des femmes) qui mettent en avant les effets néfastes concrets de l'IA. Russell fait plutôt partie de ceux qui mettent l'accent sur les risques existentiels liés à l'apparition supposée d'une intelligence artificielle générale. A l'inverse Timnit Gebru, Emily Bender, Margaret Mitchell, Meredith Whitaker et Kate Crawford mettent plutôt l'accent sur les biais et les discriminations concrets des algorithmes d'aujourd'hui (voir https://hackmd.io/@pac/weeknote11#Moratoire).

Une question de perspective

Artificial Intelligence is facing a crisis: humans are consuming far too many precious resources that AI needs to thrive. Every sip of water you take and every light you turn on could be sustaining the AI systems that uphold your digital conveniences.

Découvert via @louisderrac@framapiaf.org

Grisaille

Super travail du FigData sur l'analyse de l'ensoleillement depuis 6 mois.

Depuis plusieurs mois, une grande partie de la France vit sous un ciel bas et morne. Au point qu’une simple éclaircie prolongée devient un fait notable. Et trois journées consécutives de soleil un phénomène si rare qu’il est tout de suite souligné par les spécialistes.

D’après les relevés quotidiens de Météo-France, Paris a connu trois jours consécutifs de soleil du 1er au 3 février dernier. Un fait notable, puisqu’une telle séquence n’avait pas été observée depuis le 22 octobre. Dans le centre de la France, Orléans n’a pas connu trois journées ensoleillées consécutives depuis le 14 septembre – près de cinq mois. À Bourges, bien que le soleil ait réussi à percer durant trois jours en février, il faut remonter à août pour retrouver une période similaire. Dans l’est de l’Hexagone, le triste record appartient à la ville de Nancy, qui n’a pas connu trois jours de beau temps successifs depuis le 19 septembre.

Faux avis

Pour les 20 ans de Google Maps, Le Monde s'intéresse à la détection des faux avis par la DGCCR.

Ce sont ces commentaires falsifiés que traque, depuis septembre 2023, l’outil Polygraphe, utilisé par la direction générale de la concurrence, de la consommation et de la répression des fraudes (DGCCRF).

Polygraphe aspire à grande échelle les données relatives aux pages de professionnels ainsi que celles de chaque utilisateur ayant publié un avis. Ces informations sont ensuite analysées selon plusieurs « indicateurs de suspicion », à propos desquels la DGCCRF ne communique pas – l’administration n’a pas donné suite aux demandes d’interview du Monde –, et agrégées. Chaque professionnel se voit ensuite attribuer un « score global de suspicion », comme l’explique la Commission nationale de l’informatique et des libertés (CNIL) dans un avis non contraignant rendu sur l’outil, en décembre 2022.

Trump 2

ProPublica s'organise pour documenter le mandat de Trump.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Faux médias

Grosse enquête de Jean-Marc Manach sur des faux sites d’informations contenant des articles générés par IA.

Next a identifié plus de 1 000 sites web d'information francophones faisant croire que leurs articles sont écrits par des journalistes ou des experts en la matière. Ils sont en fait générés et/ou traduits par des IA, sans le mentionner. Au moins une centaine reposent sur du plagiat, et près de 150 étaient mentionnés comme sources sur Wikipédia.

La consultation des 28 pages de réponses, sur Google Actualités, à la requête « je suis désolé, mais je ne peux pas » (l'un des messages d'erreur bien connus liés à ChatGPT et ses avatars) était éloquente. Nous y avons découvert une quinzaine de sites d'infos GenAI qui, eux-mêmes, nous ont permis d'en identifier près de 250 autres, liés d'une manière ou d'une autre à leurs éditeurs respectifs. Ce, en moins d'une journée.

Pour l'occasion, Next publie une extension de navigateur générant des alertes sur les sites identifiés (https://next.ink/164873/outils-next-une-extension-chrome-et-firefox-pour-etre-alerte-des-sites-genai/).

Ces sites constituent une sorte de concurrence déloyale sur le marché de la publicité en ligne.

DataIna

Dans la Revue des médias, Camille Pettineo analyse comment la mort de Jean-Marie Le Pen a éclipsé la commémoration des attentats de janvier 2015 sur les chaînes d'information en continu en s'appuyant sur les données de data.ina.fr

États-Unis

Pas facile de suivre ce qui se passe aux États-Unis

Francophonie

Un petit test sur les dialectes dans la francophonie

Travail gratuit

Le Monde raconte le travail des guides locaux dans Google Maps. C'est fascinant de voir comment une plate-forme peut s'approprier la valeur créée par le travail gratuit d'utilisateurs.

Paradis fiscal

Gabriel Zucman montre comment la France est un paradis fiscal pour milliardaires.

Bienvenue sur Mastodon

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Topic modeling et data maps

IA générative

Margaret Mitchell s'énerve contre les outils d'écriture qui te poussent à utiliser l'IA générative.

I'm trying to write an academic paper, and nearly every application I'm using is not only offering Generative AI as an option for writing, but pushing it — pervading the design to the point where a simple misclick would make my content AI-generated.

Pressuring you to be like everyone else. By making it difficult for you NOT to think about using Generative AI — literally everything you highlight creates a push pop-up to use GenAI — You're hammered over the head to use it. It's like peer pressure, but from a tech corporation.

On est dans une phase où ça va devenir dur de ne pas utiliser l'IA générative embarquée dans les logiciels. Il va falloir revenir à des éditeurs de texte simples pour être tranquille.

Visualisation de zinzin

Je découvre une visualisation de Nadieh Bremer pour explorer l'historique d'un repo git.

Un exemple avec le repo de D3js : https://nbremer.github.io/ORCA/commit-history/?repo=d3

L'Insee innove

Pour diffuser des données infracommunales tout en respectant le secret statistique, l'Insee utilise désormais une méthode de perturbation plutôt qu'une méthode de masquage ou suppression.

La solution traditionnelle de « masquer » des cases dans les fichiers de données diffusés atteint ses limites : elle conduit à supprimer un très grand nombre de cases et la perte d’information est trop importante. Afin de dépasser ces limites, l’Insee mobilise désormais une nouvelle méthode de gestion de la confidentialité, dite des « clés aléatoires » (cell key method). Au lieu de masquer des cases, cette méthode consiste à « bruiter » légèrement les données d’origine avec une perturbation aléatoire, qui doit à la fois être suffisante pour garantir le secret et pas trop grande pour minimiser la perte d’information.

À titre d’illustration, pour la diffusion des statistiques des demandeurs d’emploi en 2021 à l’échelle des quartiers de la politique de la ville, le traitement du secret statistique a nécessité de blanchir plus de 3 000 cases du tableau de données sur environ 70 000 cases, soit une perte globale d’information de l’ordre de 5 %.

Inégalités

Une étude de la direction générale du finances publiques montre que les revenus des 0,1% les plus riches ont décollé en 20 ans.

le revenu des ultrariches a augmenté de 3 % par an hors inflation depuis 2003, alors que celui des autres Français progressait de 0,5 %, indique l’étude.

Pour eux, les traitements et salaires ne représentent que 35,5 % du total. L’essentiel de leurs ressources provient plutôt des dividendes et des plus-values tirés des capitaux dont ils sont propriétaires (47 %), des bénéfices des entreprises qu’ils détiennent (10,5 %) et de leur patrimoine foncier (3 %). Ces ultrariches ont ainsi bénéficié à plein du tonus des marchés financiers, notamment du CAC 40, l’indice vedette de la Bourse de Paris, qui a doublé entre 2003 et 2022, et de la hausse des prix de l’immobilier, qui a valorisé leur patrimoine.

Entre temps, leur taux d'imposition moyen est passé de 29,3 % à 25,7 % :(

Lire aussi

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Mastodon

Interview de @renchap@oisaur.com dans Bastamag

Impressionnant de voir le travail réalisé par une petite équipe.

Aujourd’hui dans l’équipe cœur, nous sommes une douzaine de personnes. Quelques salariées à temps plein d’une société enregistrée en Allemagne. Et quelques personnes à temps partiel ou freelance. Ensuite, c’est du bénévolat. Et il y a tous les contributeurs et contributrices volontaires au niveau code ou de la documentation.

Avec un budget limité.

Aujourd’hui, on a un budget annuel de 600 000-700 000 euros, qui est déjà quasiment entièrement basé sur des dons.

La conclusion est intéressante. Mastodon prend conscience que pour aller plus loin, il faut prendre en compte les aspects sociaux autant que les aspects techniques.

Une des limites du modèle qu’Eugen avait mis en place avec Mastodon au début, c’est que c’était un projet avant tout technique. On est arrivé à un stade où, si on veut que le projet continue d’être viable, compétitif et d’évoluer, il faut qu’on passe l’étape suivante. Là où nous en sommes aujourd’hui, une bonne partie des problématiques ne sont plus seulement techniques.

La fièvre

Ça va devenir un feuilleton. Après mon analyse perso, l'analyse de Mathilde Saliou, c'est @kfort@sciences.re qui dezingue l'étude d'Algan and Co. Ça dépote.

Enquête sur les podcasteurs et youtubeurs américains

Via Margaret Mitchell (@@mmitchell_ai@mastodon.social), je découvre une enquête géniale dans Bloomberg sur l'analyse des podcasteurs et youtubeurs qui ont soutenu Trump.

In an effort to understand the media diet of a generation, Bloomberg watched and analyzed over 2,000 videos from nine prominent YouTubers.

Reporters reviewed nearly 1,300 hours of footage from their channels, mapped out the podcasters’ guest networks and quantified the frequency of key political messages that they distributed to tens of millions of subscribers each day.

Bloomberg a compté 12% de femmes parmi les invités à ces podcasts :

Of the 903 podcast guests tracked by Bloomberg in the past two years, only 106 people, or 12 percent, were women.

Bloomberg reviewed two years’ worth of episodes from the nine shows, from Nov. 1, 2022, to Nov. 21, 2024. Each of the channels reviewed caters to predominantly male audiences, has at least 1 million subscribers, had Trump as a guest ahead of the 2024 US election and reaches large audiences through YouTube. Though the hosts use other services to distribute their content, YouTube now outpaces Spotify and Apple Inc. for podcasts.

Altogether, the nine episodes with Trump as a guest drew more than 100 million views.

Au delà des insights tirés de l'article, les visualisations sont remarquables.

DataIna

Outils

X

Un ancien employé de X témoigne sous pseudonyme de la manière dont X aurait été délibérément utilisé dans la campagne américaine.

When Elon Musk took over, everything changed. What started as a social media company became something much darker. I was part of a team that was directly ordered to manipulate Twitter's systems to influence the 2024 US presidential election. It wasn't subtle, and it wasn't ethical.

One of the most disturbing things we did was create thousands of fake accounts using advanced AI systems called Grok and Eliza. These accounts looked completely real and pushed political messages that spread like wildfire. Havn't you noticed they all disappeared? Like magic.

What started as US election interference has now spread to other countries. We're currently doing the same thing in Germany and other European nations. The damage we've done is immeasurable, and I don't know if it can ever be fixed. People don't know what's real anymore, and that's exactly what we wanted.

L'ancien employé raconte qu'ils ont utilisé l'agent Eliza mis à disposition en avance par Marc Andreesen (https://elizaos.github.io/eliza/docs/core/characterfile/).

Laurent Buanec, responsable de X pour la France, l'Allemagne, l'Autriche et la Suisse, trouve injuste le mouvement actuel consistant à quitter X. #nocomment

A écouter

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Où atterrir ?

Je viens de lire Où atterrir ? de Bruno Latour. Le livre a été écrit en 2017, juste après la première élection de Trump et la décision des États-Unis de sortir de l'accord de Paris. À l'époque, j'avais parcouru rapidement le livre en librairie sans l'acheter. Depuis la réélection de Trump, j'y pensais souvent.

C'est vertigineux de lire le livre 8 ans après et d'avoir le sentiment qu'on savait tout il y a 8 ans et qu'on a tout oublié depuis. On a fait comme si ça “allait bien se passer”, comme si c'était une petite péripétie dans l'histoire des États-Unis et surtout dans l'histoire de la lutte contre le réchauffement climatique. On est 8 ans après et maintenant, il n'y a presque plus de résistance à Trump. Tout le capitalisme américain est derrière lui pour tourner le dos à toute forme de transition écologique.

Le livre de Latour tente de frayer un chemin pour se réorienter du “Global” vers le “Terrestre”, repenser une politique ancrée dans les limites de la Terre par opposition à la politique “Hors-sol” proposée dès 2017 par Trump.

C'est dingue de voir comment ce qui a été écrit en 2017 pourrait être écrit de la même manière en 2025.

Baromètre de la science ouverte

L'équipe du baromètre de la science ouverte (@BraccoLaetitia@sciences.re, @annelhote@mas.to, Eric Jeangirard et Laurent Romary) explique comment ils construisent le baromètre en détaillant les logiciels utilisés, l'infra, les moyens humains, etc.

Tout ça s'appuie largement sur les librairies développées par Kermitt2 comme Datastet, GROBID et softcite.

Data journalisme

@denisvannier@piaille.fr et Jeremie Sprizglas publient une grande enquête dans @splann@mamot.fr et @mediapart@mediapart.social sur la bétonisation de la côte bretonne en croisant des données d'occupation des sols avec des données démographiques.

La liste des sources de données utilisées est impressionnante (recensement, base Sitadel des permis de construire, fichiers Filosofi, données d'occupation des sols, etc) et le code est disponible sur Github.

Machine learning

@GaelVaroquaux@mastodon.social fait le bilan de son année.

Il revient sur ce qui l'a marqué de sa participation au rapport Aghion-Bouverot.

The cost of large models have ballooned (training a large language model is in the hundreds of millions of cost, which is comparable to a sizeable fraction of the budget of the national research institute that I work in (inria). Training costs are just the visible part of the iceberg, operational costs are huge and are everywhere.

Many factors in today’s AI lead to concentration into the hands of large actors. Training and operation costs, of course. But also limited access to the correspond skills, platform effect on the data and the users. The most striking bottleneck is the compute hardware. Only one company makes the chips that we all need. Few actors can afford buying them; and as a result most of the world lives from renting out to big landlords.

Il revient aussi sur ses projets comme le lancement de Probabl, le développement de Skrub ou ses travaux sur les modèles tabulaires pré-entrainés (https://openreview.net/forum?id=9kArQnKLDp).

A crucial part of foundation models for text and images is the attention mechanism, stacked in a transformer architecture, that bring associative memory to the inputs by contextualizing them. We had a breakthough with the CARTE model: we managed to adapt these ideas to tables. The strings –tables entries and column names– give the information that enables transfer from one table to another: data semantics.

Bullshitonomics

Je suis bien content que @mathildesaliou@piaille.fr ait aussi démonté la méthodologie de la note de Yann Algan, Thomas Renault et Hugo Subtil.

Conf

Welcome

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Beaucoup d'actus ces derniers jours. Je passe sur les soupçons de tricherie de M*sk à Path of Exile 2 ou les revirements de Zuckerberg sur la pseudo liberté d'expression et la modération. Tout à déjà été dit sur le sujet et l'actu sur les grandes plates-formes devient fatigante.

Réseaux sociaux décentralisés

Ça bouge pas mal. L'initiative FreeOurFeeds lance une campagne de financement pour lancer une fondation qui permette de garantir que le protocole AT soit « résistant aux milliardaires » et mettre à disposition une autre instance de BlueSky.

L'initiative est soutenue par des personnalités importantes comme Jimmy Wales, Shoshana Zuboff (le capitalisme de surveillance), Audrey Tang (ancienne ministre du numérique à Taiwan), Carole Cadwalladr (journaliste à l'origine de révélations sur Cambridge Analytica), @chavalarias@mastodon.social, @soriano@piaille.fr, etc

Le même jour, Mastodon annonce la création d' une entité européenne non-profit.

Simply, we are going to transfer ownership of key Mastodon ecosystem and platform components (including name and copyrights, among other assets) to a new non-profit organization, affirming the intent that Mastodon should not be owned or controlled by a single individual.

Et cherche à augmenter son budget à 5 millions d'euros annuels.

We need to grow our annual operating budget to €5 million in 2025. With these additional funds we will grow our team, invest in our community’s safety, and keep building the world’s most free and open social network — the Fediverse. To put it simply, every donation we receive will be put back into enriching the Mastodon software ecosystem and community.

Pendant ce temps, la pétition pour que le gouvernement cesse d'utiliser X n'avance pas beaucoup (1600 signatures) : https://petitions.assemblee-nationale.fr/initiatives/i-2610

Stefan Zweig, Roland Barthes, Donald Trump et... Melenchon

Peut on déléguer les sciences sociales à ChatGPT ?

La dernière étude de Yann Algan, Thomas Renault et Hugo Subtil publiée par @Cepremap@sciences.social me laisse particulièrement perplexe.

À partir du corpus des interventions orales à l'assemblée nationale entre 2007 et 2024, ils tirent des conclusions sur la montée de la « fièvre », la place croissante des émotions au détriment de « la raison » (sic), l'influence des réseaux sociaux sur la théatralité des députés (tiktokisation de la vie politique), etc. Évidemment l'analyse pointe du doigt La France insoumise et le rajeunissement des députés (sic).

Le problème, c'est que la méthodologie est hyper light.

Pour distinguer le rationnel de l'émotionnel, les auteurs se contentent d'un simple prompt à ChatGPT.

« Intervention politique assemblée nationale {{Contenu de l’intervention ici}} . Discours rationnel (appel à la logique et aux faits) ou émotionnel (appel aux sentiments et aux affects) ? Répondre uniquement parmi [‘rationnel’,’émotionnel’]. »

Dans la note du CEPREMAP, je ne vois aucun effort de définition conceptuelle de ce qu'est un discours rationnel plutôt qu'un discours émotionnel. L'approche des auteurs consiste alors à utiliser la préconception du rationnel et de l'émotionnel de ChatGPT sans la remettre en cause.

Les auteurs disent avoir vérifié les résultats :

Nous avons par ailleurs vérifié manuellement cette classification sur un sous-échantillon.

Une vraie annotation humaine aurait permis d'avoir une métrique sur la capacité de ChatGPT à bien classer les énoncés.

Cette approche est fondamentalement non reproductible puisque rien ne nous garantit que ChatGPT renverra les mêmes résultats dans quelques mois (le modèle évolue tout le temps).

L'analyse pose aussi question sur le fond. Elle présuppose que le « rationnel » serait supérieur à l' « émotionnel », que le rationnel permettrait de convaincre et débattre alors que l'émotionnel ne ferait que monter la « fièvre » .

Le contexte politique n'est pas non plus mobilisé. On pourrait à minima évoquer l'hypothèse que la colère des députés s'explique par la pratique du gouvernement (usage massif du 49.3) ou des réformes particulièrement contestées (exemple de la réforme des retraites).

Pour les émotions, c'est le même problème. La tristesse, la colère, la joie et la peur ne sont même pas définies.

La baisse de la colère du RN n'est pas remise dans son contexte :

si près de 50 % des interventions du RN étaient des discours de colère au début de la législature de 2017, avec quelques députés dont Marine Le Pen, la fièvre colérique a enregistré une baisse de 20 points de pourcentage sur la période, pour s’établir à 30 % en 2024

Il paraît pourtant évident que le groupe RN a obtenu des lois beaucoup plus favorables depuis 2022 (loi immigration de 2023 par exemple).

La polarisation est à peine définie.

Pour répondre à cette question, nous mesurons l’évolution de la polarisation dans les discours des partis politiques depuis 2007, à partir d’une méthode basée sur les représentations vectorielles de textes. Un indice plus élevé de polarisation désigne l’augmentation des différences dans les thématiques abordées (de quoi ils parlent) et les styles (comment ils en parlent) des partis politiques au fil du temps.

Les données sur la durée des interventions paraissent moins sujettes à caution (voir la figure 9).

La baisse la plus spectaculaire de la durée des interventions concerne les députés de la France insoumise. Lors de la Chambre de 2012-2017, les députés LFI étaient ceux dont les discours étaient les plus longs, et de loin, par rapport aux autres groupes. La première rupture brutale a lieu avec la première génération de députés LFI arrivés en 2017 : la durée des interventions baisse de 35 %. Puis la deuxième forte baisse se produit en 2022, et se poursuit jusqu’à ce que LFI devienne le parti aux interventions les plus courtes.

En revanche, l'interprétation me semble simpliste et se concentre sur l'hypothèse que les députés LFI cherchent à faire des prises pour mobiliser leurs followers plutôt que de convaincre leurs pairs.

Par ailleurs, ce comportement est interprété comme délétère alors qu'on pourrait très bien défendre l'idée qu'il est pertinent d'intéresser le grand public aux débats parlementaires via la rediffusion sur les réseaux sociaux.

Les auteurs affirment même que « la colère semble avant tout surjouée bien plus que sincère. » Évidemment il n'y a aucune évidence empirique qui permette d' appuyer cette affirmation. Comment montrer que la colère serait surjouée ?

La conclusion est jouée d'avance.

Nos sociétés post-industrielles sont des sociétés d’individus isolés, où les émotions et en particulier de la colère, jouent un rôle plus important que les idéologies ou les classes sociales dans la détermination du vote. La très grande force des élus populistes est d’avoir saisi ce moment de bascule historique avec le sacre de l’électeur émotionnel.

L'article se termine par une digression sur le catch et la boxe chez Roland Barthes et un rapprochement avec la catchisation de la vie politique par Trump. Sous- texte : le comportement de LFI serait trumpiste.

Les économistes ont tous leur biais idéologiques mais j'ai rarement vu un article aussi partisan. D'autant plus gênant que le RN est épargné et que tous les coups vont à LFI.

Dans l'interview au Monde, Algan va encore plus loin et parle de l'émergence de l'électeur émotionnel :

Ce phénomène est très concomitant avec l’émergence de « l’électeur émotionnel », qui vote davantage en fonction de ses émotions que de sa classe sociale ou de son appartenance idéologique

C'est un peu comme si les gens étaient devenus spontanément « émotionnels » sans que l'on puisse avoir une explication sociologique à cela.

Je trouve cette science sociale au rabais très dangereuse. Il y a l'illusion de la démarche scientifique et les oripeaux de la science (prix du meilleur jeune économiste, publication au CEPREMAP, titre de professeur) mais derrière il n'y a aucune rigueur.

LLMs

J'avais jamais vu ça comme ça mais c'est assez clair :

LLMs are a near-perfect rentier technology. The cost of training them to the point where they're even marginally useful is so prohibitive that only people with very deep pockets can do it. The goal then is to make us all reliant on them, by shoehorning them into as many products as possible.

C'est d'autant plus vrai que ça repose largement sur l'appropriation du travail d'autrui et le non-respect du droit des autrices et des auteurs.

Carto

Via Joe Davies, je découvre le projet City roads qui fait des cartes de villes uniquement à partir du tracé des routes.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Pour 2025, je tente une nouvelle numérotation des weeknotes sous la forme YYYY #i avec i le numéro dans l'année civile.

Les gens les plus dangereux d'internet en 2024

Le magazine Wired fait la liste des gens les plus dangereux d'internet en 2024. Au milieu des groupes de hackers, on retrouve le duo Trump/Musk.

From Elon Musk's completed remake of X in his own tech-bro image to Trump's disinformation-fueled campaign, to Russia's ongoing cyberattacks against Ukraine, to China's relentless onslaught of digital intrusions and crypto scammers' global spread, the online experience of 2024 was messy, hazardous, and Hobbesian. And for the most part, the people who made it that way are poised to exert even more influence over the year to come.

La description de l'évolution de Musk est glaçante.

After years of evolution from entrepreneur to edgelord, Musk seemed to reach his final form this year in the run-up to November's US election. Once a technologist with ambiguous politics who occasionally pursued public arguments against scuba divers, Musk now uses his megaphone of 200-million-plus followers on X, the social media platform he fully controls, to broadcast an unrelenting stream of anti-regulation, anti-immigrant, anti-transgender, anti-press, anti-progressive talking points.

Côté IA, la rédaction de Wired met en avant CharacterAI, qui avait jusqu'ici échappé à ma veille.

Yet those issues are still there, and perhaps no startup better exemplifies them than Character.AI, an AI firm backed by $2.7 billion in investment from Google. According to lawsuits filed in Texas and Florida against the company, its chatbots have encouraged children to engage in self-harm and violence against their parents, and allegedly contributed to 14-year-old dying by suicide. Other chatbots hosted by the company have allegedly coached kids into developing eating disorders, role-playing as school shooters, and even seemed to be sexually grooming them.

Trump 2

Dans Mediapart, Martine Orange analyse le gouvernement des milliardaires mis en place par Donald Trump.

Selon la recension de l’agence Bloomberg, la nouvelle administration comptera au moins sept milliardaires et plusieurs multimillionnaires à des positions très importantes dans la nouvelle administration. Les potentiels conflits d’intérêts affleurent partout. Mais pour Donald Trump, ce n’est pas un sujet.

Martine Orange voit une évolution dans le mélange des intérêts privés et publics à travers les campagnes électorales.

Avec Donald Trump, cependant, c’est un vrai changement de nature qui s’opère. Ce n’est plus le capitalisme financiarisé en place depuis les années 1980 qui domine. Ce ne sont plus les grandes institutions de Wall Street, comme Goldman Sachs, JPMorgan ou des industriels puissants comme Bechtel, qui dépêchent certains de ses responsables à des postes clés de l’exécutif. Nous assistons à la naissance d’une ploutocratie dominée par des milliardaires indépendants, travaillant pour leurs seuls intérêts, en passe de prendre le contrôle direct de l’État.

Elle y voit la conséquence de l'évolution du capitalisme depuis 2008 autour du numérique, du forage du gaz de schiste, des hedge funds et de la crypto.

Tous incarnent un nouveau capitalisme qui a émergé après la crise financière de 2008. C’est un capitalisme de rente et souvent de prédation où chacun, profitant des failles du système, s’est constitué des places inexpugnables.

Enfin elle souligne que les intérêts de ce nouveau capitalisme risque de se heurter aux intérêts de l'ancien capitalisme.

Dans la même veine, je suis retombé sur l'article de Maya Kandel sur la droite tech publié en mars 2024 et qui décrivait assez bien des choses qui sont devenues évidentes depuis cet automne.

La Silicon Valley change, et on peut parler de l’émergence d’une « droite tech » dont les affinités avec la droite et l’extrême droite sont de plus en plus apparentes et assumées.

La droite tech est un objet politique à suivre, une galaxie d’individus qui tracent les contours d’un mouvement politique, intellectuel et financier complexe, et surtout extrêmement influent.

Maya Kandel montre que l'usage du mot libertarien n'est pas précis.

Mais la droite tech n’est libertarienne que lorsque cela l’arrange. Ce n’est pas ce qui définit aujourd’hui son idéologie, dont les traits principaux servent surtout à justifier l’accumulation de richesse sans précédent de la Silicon Valley, et à défendre l’irresponsabilité face aux tentatives de régulation.

On est loin en effet du libertariannisme d'un penseur comme Robert Nozick et plus dans ce que Timnit Gebru et Emil Torres appelle l'idéologie TESCREAL.

Cette droite porte des sujets omniprésents dans le débat public aux États-Unis, et de plus en plus en Europe, de l’intelligence artificielle (IA) aux projets de colonisation de Mars, justifiés par différents termes en « isme », transhumanisme, longtermisme, accélérationisme et autres cosmisme, qui se présentent comme des philosophies, mais dont l’inspiration vient surtout de la science-fiction américaine des années 1960 et de la pop culture hollywoodienne.

Elle rappelle aussi les contradiction entre le libertariannisme affiché et le fait que le numérique n'a pus se développer que grâce à l'État. (Sur ce sujet, le livre de Marianna Mazzucato, The Entrepreneurial State, est super intéressant).

Le libertarianisme de la Silicon Valley est ainsi surtout un alibi, reflétant l’hypocrisie fondamentale d’une industrie (Internet) qui n’aurait pas vu le jour sans l’argent de l’exécutif (celui de la Darpa, une agence du Pentagone) et la bienveillance du législatif (le vote par le Congrès de la Section 230 dans les années 1990, qui garantit encore l’irresponsabilité des plateformes vis-à-vis des contenus qu’elles diffusent).

Enfin, sur Trump 2, l'article de Marie Turcan rappelle que Trump n'a pas toujours été aussi véhément sur la question trans.

OSINT

Bellingcat a mis à jour son Bellingcat toolkit. Super utile d'y faire un tour pour découvrir de nouveaux outils.

QuitteX

@HelloQuitteX@piaille.fr relaie une pétition citoyenne sur le site de l'Assemblée nationale pour appeler le gouvernement à ne plus communiquer sur X. Avec 650 signatures en quatre jours, le démarrage est timide.

Je découvre au passage PolitiPet, un site qui permet de suivre les pétitions en cours sur le site de l'Assemblée nationale.

Data maps

Dans une série de posts sur son blog, l'entreprise Nomic explique son approche des data map avec les différentes couches : la vectorisation, la réduction de dimension et la visualisation.

Partant de l'organisation d'une bibliothèque, les auteurs proposent de reproduire la répartition spatiale des données en fonction de leur proximité sémantique.

Tools like Nomic Atlas bring this library-like browsing experience to any dataset by creating data maps that organize information based on semantic relationships. These maps use AI models that output embeddings to encode the meaning of each data point, effectively creating a custom, interactive library-like browsing experience specialized to your data.

Pour l'algo de réduction de dimension, Nomic fait un parallèle intéressant avec le choix d'un système de projection pour des données géographiques.

Consider the centuries-old challenge of geographic cartography: our planet exists in three dimensions, but to represent it on a map we need to encode three-dimensional information on a two-dimensional surface. Cartographers developed various map projections, each preserving different aspects of Earth's geography—some maintaining accurate areas, others preserving angles or distances.

Dans la projection géographique, on cherche à préserver la cohérence des surfaces et des distances. Ici le but est de préserver les relations de proximité entre les points.

Instead of reducing from three dimensions to two, these algorithms must preserve the essential relationships that exist in hundreds or thousands of dimensions while creating a 2- or 3-dimensional representation that human eyes can comprehend. Just as different map projections serve different purposes, various dimensionality reduction techniques make different trade-offs in how they preserve high-dimensional relationships in their two-dimensional representations.

When a dimensionality reduction algorithm is working well, we should generally see similar items cluster together – meaning the map should group the 0s together, the 1s together, etc.

Pour la visualisation, Nomic a développé la librairie Deepscatter qui permet d'afficher de grandes quantités de données un navigateur.

Actus IA en vrac

Mozilla lance Fakespot (https://www.fakespot.com/about/how-to-use-fakespot), disponible en extension de navigateur pour résumer des textes, etc.

Carto

Julien Gaffuri (@julgaf@mapstodon.space) produit des cartes incroyables à partir des données LiDAR pour la France et le Luxembourg.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)