pac

weeknotes

Datagouv et le Fediverse

Grace à Cedric Rossi (@cedric@mapstodon.space), on peut maintenant utiliser son profil Datagouv comme lien vérifié sur Mastodon.

Peut être qu'un jour on pourra suivre l'activité d'une organisation Datagouv (@datagouvfr@social.numerique.gouv.fr) ou d'un jeu de données directement depuis le Fediverse avec le protocole ActivityPub.

Arthur Perret répond à OpenAI

OpenAI a publié un guide à destination des étudiants. Arthur Perret (@arthurperret@sciences.re) s'amuse à y répondre point par point et c'est plutôt bien vu.

Do not ask an intermediary who has no capacity to understand information to explain it to you. Instead, go to your university library and look it up yourself, with the help of your local librarians. Actual information is contained in brains, documents and databases.

C'est assez frappant de voir que les usages suggérés par OpenAI sont des substituts à des interactions humaines. C'est un peu comme si ChatGPT s'adressait à des individus isolés qui n'ont ni collègues et ni amis.

M*sk

Le Washington Post montre que X aurait largement favorisé les comptes républicains par rapport aux comptes démocrates.

Timothy Graham analyse la surperformance des tweets de M*sk depuis son soutien explicite à Trump en juillet 2024.

Gizmodo fait le parallèle entre le rôle de Bannon en 2016 et le rôle de Musk en 2024 : https://gizmodo.com/elon-musk-is-the-steve-bannon-of-2024-2000513792

3 247, c’est l’impressionnant nombre de messages postés par Elon Musk sur son compte X entre le 5 octobre et le 5 novembre. Soit en moyenne 101 messages par jour adressés à ses 203,4 millions d’abonnés.

La Vanguardia et le Guardian cessent de publier sur X. La prise de conscience est un peu tardive à mon goût mais au moins elle est là.

Le Center for Countering Digital Hate quitte aussi X (https://www.theverge.com/2024/11/14/24296404/anti-hate-group-sued-by-x-says-its-leaving-the-platform) et rejoint BlueSky (https://bsky.app/profile/counterhate.bsky.social).

Carto

Une « carto-treemap », tree map projetée sur la carte des États-Unis, de l'usage du sol aux États-Unis par Bloomberg.

Cartographie des publications sur Arxiv.org

Leland McInnes publie une incroyable visualisation des articles publiés sur Arxiv.org en s'appuyant sur Nomic Embed et l'algorithme de clustering Umap (dont il est l'auteur).

Jobs

Le projet #LexImpact, dont j'ai déjà parlé dans mes weeknotes, recrute un•e développeur•se : https://www2.assemblee-nationale.fr/informations-pratiques/concours-et-autres-recrutements/offres-d-emploi2/developpeur-polyvalent-full-stack-leximpact

CommonCorpus

pleias publie Common Corpus, un énorme dataset pour entraîner des LLMs en respectant le droit d'auteur !

Mastodon et BlueSky

J'ai l'impression qu'il y a une grosse vague de nouveaux sur BlueSky en ce moment. Les starter kits sont très utiles pour les nouveaux sur BlueSky (https://bsky.app/profile/flefgraph.bsky.social/post/3lavwxfdw5s2z).

Sur Mastodon c'est plus calme mais il y a quand même quelques arrivées bienvenues comme @xporte@mastodon.social.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Amazon et la FNAC

Nicolas Berrod et Jila Varoquiers reviennent dans Le Parisien sur les travaux de AI Forensics et Checkfirst sur les recommandations de la FNAC et Amazon.

Musk

On pourrait passer ses journées à commenter et analyser les méfaits de Musk. L'article de Damien Leloup dans Le Monde fait une petite synthèse du problème.

En tout cas, il est probable que l’impact d’Elon Musk sur la campagne en cours soit bien plus important que tout ce que des agents étrangers ont pu accomplir jusqu’à présent. En matière de désinformation et de polarisation, la recherche suggère que la majorité des opérations étatiques ont un impact négligeable sur les populations, même si elles peuvent avoir une forte influence sur de petits groupes d’individus déjà prêts à croire à des théories du complot ou des idéologies radicales.

La sociologue Jen Schradie, autrice de L'illusion de la démocratie numérique : Internet est-il de droite ? (2022), analyse dans Le Monde le phénomène Elon Musk.

Sur le rachat de Twitter, elle écrit :

Mais loin de ruiner son image de visionnaire des affaires et des technologies, Twitter a catapulté la notoriété d’Elon Musk à des niveaux vertigineux. Au fil de la campagne présidentielle américaine, il est apparu comme une figure hors norme, à la fois adulée et honnie, au carrefour des mondes de la technologie et de la politique.

Elle souligne que Musk n'est qu'un élément d'un phénomène plus large.

Le rôle polarisant qu’il endosse et sa décision de faire de Twitter, qu’il a au passage rebaptisé X, une plateforme de propagande d’extrême droite peuvent sembler sans précédent. En réalité, son ascension n’est qu’un élément particulièrement visible d’un phénomène plus large, amorcé il y a des décennies : Internet favorise les conservateurs, habiles à utiliser ses plateformes pour diffuser leurs messages toujours plus proches de l’extrême droite.

Et surtout, c'est sa grande thèse, la droite est fondamentalement plus forte que la gauche pour exploiter Internet.

Le fait est que, quand la droite exploite Internet à des fins politiques, elle le fait bien mieux que la gauche – une asymétrie au cœur de mes recherches depuis près de quinze ans.

Et Jen Schradie conclut :

Aussi la question n’est-elle plus de savoir ce que Musk va bien pouvoir faire avec X, mais comment nous allons faire face à sa propagande d’une puissance inouïe.

Tour de France

Les Décodeurs ont compté le nombre de passages du tour de France par département.

La dimension historique est intéressante :

Et puis, à partir des années 1980, et plus encore de l’an 2000, le Tour se détourne progressivement du nord-ouest du pays, malgré des passages répétés en Bretagne ou en Vendée, terres fertiles du cyclisme français. Désormais, ce sont les massifs montagneux qui ont la faveur des organisateurs : pour les 26 éditions de 2000 à 2025, les Pyrénées-Atlantiques sont traversées 23 fois (en 26 éditions) ; la Savoie, 25 fois ; et les Hautes-Pyrénées… 26 fois.

30daymapchallenge

En novembre, c'est la fête aux cartographes. Parmi les réalisations notables, j'ai remarqué la carte de @cedricr@mapstodon.space sur la canopée en région grenobloise réalisée à partir des données Lidar de L'IGN : https://mapstodon.space/@cedric/113424503864235916

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Réchauffement

@bonpoteofficiel@mamot.fr résume le Emissions Gap Report du Programme des Nations Unies pour l'environnement et c'est flippant.

L’augmentation des émissions totales de gaz à effet de serre (GES) de 1,3 % par rapport aux niveaux de 2022 est supérieure au taux moyen de la décennie précédant la pandémie de COVID-19 (2010-2019), au cours de laquelle la croissance des émissions de GES a été en moyenne de 0,8 % par an.

La domination blanche

Je viens de terminer La domination blanche de Claire Cosquer et Solène Brun. C'est une excellente synthèse de la littérature académique et du débat public sur les notions de blanchité, de privilège blanc et de domination blanche. Le livre est court (150 pages) et se lit facilement.

W.E.B. Du Bois se demandait ce que cela fait « d'être un problème » . Le livre de Claire Cosquer et Solène Brun retourne la question :

Ce livre retourne donc la question à notre lectorat blanc : vous êtes vous déjà pensé comme une partie du problème ?

[...] il s'agit de considérer le racisme lui-même comme problème, non pas seulement à partir de ce qu'il fait aux personnes qui en sont la cible, mais aussi depuis les personnes qui en sont les dépositaires – ou, tout du moins, qui en profitent.

C'est super intéressant de voir le renouveau des sciences sociales autour de la construction sociale de la race. Ce sont des questions dont on ne parlait jamais pendant mes études en sciences sociales au début des années 2000. Par exemple, je pense qu'aucun prof ne nous avait parlé de W.E.B. Du Bois alors qu'aujourd'hui il apparaît comme une figure incontournable de la sociologie.

À l'inverse, c'est amusant de voir comment les réflexions sur les limites du concept de privilège blanc amène à retrouver des notions classiques de la sociologie bourdieusienne comme l'habitus et la domination.

Sur la race comme construction sociale, j'avais aussi apprécié le livre de Sarah Mazouz Race.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Cartographie thématique

Éric Mauvière présente la méthode Head/tail pour représenter des distributions asymétriques.

La discrétisation Head/tail, proposée en 2013 par le géographe Bin Jiang, et récemment mise en lumière en France par Thomas Ansart dessine fort bien les données hiérarchisées, dont la distribution dissymétrique comprend typiquement beaucoup de petites valeurs et quelques valeurs élevées.

Concrètement :

Head/tail prend la moyenne comme premier seuil, considère les données supérieures (head), puis calcule de façon itérative des moyennes emboitées.

Ok Lightness-Chroma-Hue

OKLCH est une nouvelle modélisation des couleurs alternative à RGB ou HSL.

On peut spécifier 4 paramètres : luminosité, chroma, teinte (hue) et opacité.

Comment le foot est devenu ennuyeux

Dans Le Monde, Jérôme Latta analyse l'impasse actuelle dans laquelle se trouve le foot.

Je qualifierais plutôt le foot actuel d'inintéressant plutôt que d'ennuyeux. Le foot a toujours été un “art de l'ennui”. On attend 90 minutes devant sa télé qu'il se passe vaguement quelque chose sur le terrain. Le problème ça n'est pas l'ennui. C'est que le foot est devenu inintéressant avec la multiplication des compétitions, l'organisation du système autour des gros clubs, etc.

Retour de Rabenou

Bonne nouvelle @rabenou@mastodon.online est de nouveau actif sur Mastodon pour sa veille juridique.

Pour ceux qui ne le connaissent pas, Rabenou était un pionnier de l'information juridique sur Internet en France (http://rabenou.org/index2.htm).

Open washing

Le ton monte entre l'Open source institute (OSI) et Meta sur la définition de L'IA et open source : https://next.ink/154521/lopen-source-initiative-accuse-meta-de-polluer-la-definition-de-lia-open-source/ et https://news.itsfoss.com/osi-meta-ai/

Cartogramme de pays

Joe Davies propose une carte des pays sous forme de “forces directed graph”. Le résultat est assez impressionnant.

Twitter, 2 ans après

Ça fait deux ans que Musk a racheté Twitter.

Personnellement, j'ai gardé mon compte Twitter inactif depuis (aucun like, aucun message et aucun retweet).

Malgré toutes les errances de la plate-forme, je constate que Twitter reste encore aujourd'hui une plate-forme mainstream et incontournable. Ça reste le média principal de communication des institutions, des personnalités politiques, etc.

Malgré la radicalisation politique de Musk, les gens (ceux qui en ont les moyens) continuent d'acheter des Tesla et le gouvernement fédéral américain continue de s'appuyer sur spaceX. La presse continue de commenter les facéties de Musk sans en tirer les conséquences.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Comparer les LLMs en Français

Le ministère de la culture lance Comparia.beta.gouv.fr, un site qui permet de comparer des LLMs et de les évaluer.

Je trouve l'idée super pertinente et l'UX est top.

Sur le fond, je trouve aussi intéressant que le ministère de la Culture se positionne sur l'IA.

Le business de la violence

CalMatters et The Markup publient une enquête sur le business de la violence en analysant la bibliothèque de publicités de Facebook.

CalMatters and The Markup used Meta’s own tools to calculate how much Meta makes from spikes in advertising when instances of political violence happen, reviewing thousands of ads through both manual review and with the assistance of an AI model offered by Meta itself. (We also made improvements to Meta Research’s scripts for accessing the Ad Library API, and we’re sharing our changes.)

TheMarkup a utilisé un LLM pour interroger FacebookAds

To suss out which ads were related to the shooting, we reviewed more than 4,200 ads from the company’s different pages with the assistance of a large language model named Llama, a Meta AI model.

We programmed the model to evaluate the text of each ad to determine whether it was related to the assassination attempt, then manually reviewed hundreds of its classifications to ensure it was working as expected.

Au passage, l'équipe à contribué au dépôt de scripts python pour accéder à Facebook Ads : https://github.com/the-markup/Ad-Library-API-Script-Repository/ et publié ses données https://github.com/the-markup/investigation-meta-political-violence-ads.

Notebooks

Deno2 permet de faire tourner du JavaScript dans Jupyter. Ça peut être utile pout réutiliser du code Observable dans un environnement Jupyter, par exemple si on veut travailler sur sa machine.

Large Chain of Thoughts Models

La nouvelle génération de modèles dit de “raisonnement” comme GPT-o1 pousse l'anthropomorphisme encore plus loin.

Voir notamment ce thread de Carl Bergstrom: @ct_bergstrom@fediscience.org/113307407384723425">https://mastodon.social/@ct_bergstrom@fediscience.org/113307407384723425

L'insoutenable légèreté du Nobel d'économie

Le Nobel d'économie récompense Daron Acemoglu, Simon Johnson.

Ils sont notamment célèbres pour leur article The Great Reversal of Fortune. La fiabilité et la pertinence dss des données utilisées a pourtant été largement contestée, notamment par https://www.tandfonline.com/doi/abs/10.1080/00220388.2011.648621

Ça me fait penser à cette tribune d'Éric Monnet intitulée L'insoutenable légèreté des économistes : https://www.alternatives-economiques.fr/eric-monnet/linsoutenable-legerete-economistes/00105058

TheStallmanReport

Gros travail pour recenser les prises de position problématiques sur les questions sexuelles. Je ne sais pas trop qui est derrière mais ça paraît bien documenté.

Melodi

L'Insee met maintenant des données à disposition dans l'outil MELODI. Ça permet de les requêter directement en Python, R ou JavaScript.

Eric Mauviere montre comment les requêter directement depuis DuckDB et grâce à son commentaire les requêtes cross domain sont maintenant possibles.

https://www.linkedin.com/feed/update/urn:li:activity:7245023149111525376/?commentUrn=urn%3Ali%3Acomment%3A(activity%3A7245023149111525376%2C7250096621575634945)&dashCommentUrn=urn%3Ali%3Afsd_comment%3A(7250096621575634945%2Curn%3Ali%3Aactivity%3A7245023149111525376

Loi de finances

L'outil LexImpact permet de visualiser directement la loi de finances.

LexImpact est un ancien projet du programme Entrepreneurs d'intérêt général qui s'appuie sur le logiciel libre Openfisca.

2,5% des investissements dans les startups vont à des startups dirigées majoritairement ou entièrement par des femmes !

Between 2011 and 2021, €84.5 billion were invested by European Venture Capitalist (VC) firms in European start-ups. That's a massive amount, more than the GDP of Luxembourg last year. Yet, the startup landscape remains very unequal. 90% of the money was invested by all-male or majority-male VC teams into all-male or male-majority start-ups. Those are teams where top management is 55%+ male. Less than 2.5% of funding went to all-female or female-majority start-ups.

https://www.europeancorrespondent.com/data?s=Euro-cents-for-female-startups

A lire

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Des électeurs ordinaires

Je viens de terminer Des électeurs ordinaires de Félicien Faury, une enquête sociologique sur l'électorat du Rassemblement national dans la région Sud/PACA. L'enquête déconstruit l'idée d'un simple vote de colère, montre que l'économique et l'idéologique sont profondément impliqués et surtout que le racisme est fondamental dans le vote pour le Rassemblement national.

Le livre est court et bien écrit. Je le recommande.

Emily Bender

Emily Bender, don't j'ai souvent parlé dans ces weeknotes, est interviewée dans Le Monde.

Désinformation

Le spécialiste de la désinformation Thomas Rid analyse le leak de la Social Design Agency, l'entreprise qui opère la campagne DoppelGanger.

https://www.foreignaffairs.com/russia/lies-russia-tells-itself

Facebook

Grosse controverse sur une série d'études publiées dans Science l'an passé sur le feed d'actualité de Facebook.

Bagchi et al. point out that during the experiment, Facebook had implemented a set of 63 emergency measures designed to counter any political instability. These measures changed the active Facebook algorithm in a way that caused the platform to provide less polarizing and more reliable news. Indeed, when the emergency measures were in place, Facebook traffic to mainstream media outlets such as the Cable News Network, National Public Radio, and the New York Times increased.

Source : https://www.science.org/doi/10.1126/science.adt2983

Science ne retire pas l'article mais publie un avertissement sur la page de l'article.

Dans The Conversation, Timothy Graham analyse l'affaire :

The whole debacle highlights the problems caused by big tech funding and facilitating research into their own products. It also highlights the crucial need for greater independent oversight of social media platforms.

L'affaire me rappelle les Uber files et les études de Thesmar et Landier réalisées en prestation avec Uber.

Fatigue de l'IA

Via Maelle Salmon (https://mastodon.social/@maelle/113224806259930454), je suis tombé sur un article de blog intitulé “I'm tired of AI” écrit par un certain Bas Dijkstra. Il s'en prend notamment à cette excitation permanente où on a l'impression qu'on a chaque semaine une révolution technologique.

Every tech fart smelling of ‘AI’ these days is almost instantly labeled as a ‘game changer’, only to be replaced by the next ‘pivotal’ and ‘revolutionary’ ‘solution’ the next week.

Il dénonce aussi les soumissions à des conférences générées par IA.

Over the last few years, I’ve had the honour of being the member of the program committee for three different conferences, and a one-off reviewer for one or two more. What I have seen in these years is a significant rise in proposals that were clearly written with the help of, or in many cases, entirely by ChatGPT or similar software.

First of all, all these auto-generated proposals sound very much the same. ‘In the ever-changing world of …’. ‘Delve’. ‘Pivotal’. All words and phrases that smell suspiciously like someone used ChatGPT to write a proposal, instead of taking the time and effort to do it themselves. I don’t think that’s a great way to stand out and demonstrate your knowledge or experience of or unique take on a subject.

En conclusion, il souligne que si l'IA peut être utile, on pourrait quand même se passer de tous ces contenus générés par IA.

Again, there are some cases where AI is used as a force for good. Early detection of diseases, for example. That’s great. That’s progress. We should definitely keep using AI to do that, and try to make it even better.

But I’m pretty sure I can do without all that AI-generated music, images, text, conference proposals, test cases, LinkedIn posts and so much other AI-generated nonsense.

La déclaration What the Fuck d'Éric Schmidt

Mon avis est que nous n'atteindrons pas les objectifs climatiques de toute façon parce que nous ne sommes pas organisés pour le faire […] et oui les besoins dans ce domaine seront problématiques mais je préfère parier sur l'IA pour résoudre le problème plutôt que de la contraindre et d'avoir le problème.

C'est quand même chaud d'arriver à ce degré d'irresponsabilité.

https://next.ink/brief_article/eric-schmidt-estime-les-objectifs-climatiques-inatteignables-et-propose-de-les-confier-a-des-ia/

Nobel

Geoffrey Hinton a eu le Nobel de physique. Quand il a démissionné de Google en 2023, il disait regretter son œuvre :

A part of him, he said, now regrets his life’s work. “I console myself with the normal excuse: If I hadn’t done it, somebody else would have,” Dr. Hinton said during a lengthy interview last week[...]

Source: https://archive.ph/58WZy

Je vois que les Nobel de chimie et de physique ont été attribué à des spécialistes de l'IA. J'attends un prix Nobel de la paix ou un prix Nobel de littérature attribué à un spécialiste de l'IA :)

CompareIA

À l'occasion du sommet de la francophonie, le ministère de la Culture a lancé CompareIA, un site qui permet de comparer et d'évaluer deux LLMs sur la même tâche.

Je trouve l'idée géniale et le design est super simple.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Après deux ou trois semaines d'absence, je tente de reprendre le rythme des weeknotes.

Quarto et HuggingFace

On peut désormais héberger des sites Quarto sur HuggingFace Spaces : https://quarto.org/docs/publishing/hugging-face.html

Journalisme de données

Après 3 ans passé aux Échos, @tomfevrier@mastodon.social rejoint Bloomberg. Dans un fil Mastodon, il revient sur ses principales réalisations pour Les Echos et il y a quelques pépites.

Je recommande notamment un incroyable format pour expliquer le mode de scrutin des élections législatives en France : https://media.lesechos.fr/infographie/comprendre-legislatives/

Fossé des genres

Dans Le Monde, Marie Charrel analyse le fossé dss genres qui se creuse chez les jeunes générations.

Une série d’études et d’enquêtes publiées dans la presse anglo-saxonne ont ausculté ce déroutant phénomène. Lire aussi la notion : Article réservé à nos abonnés « Boomeurs », ou les « nouveaux » vieux schnocks On pourrait le résumer ainsi : les filles sont de plus en plus progressistes, tandis que les garçons du même âge penchent de plus en plus du côté conservateur.

https://www.lemonde.fr/idees/article/2024/04/04/partout-un-fosse-potentiellement-dramatique-se-creuse-entre-les-jeunes-femmes-et-les-jeunes-hommes_6225866_3232.html

Droit d'accès aux documents administratifs

@alphoenix a porté pendant 3 ans une demande d'accès à l'indice de position sociale (IPS) des collèges et lycées.

Aujourd'hui, ces données ont été utilisées pour le rapport parlementaire sur l'enseignement privé.

En vrac

Dans Le Monde, Louise Couvelaire analyse le mal être des musulmans en France.

Ailleurs

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Dataviz

Nicolas Lambert (@neocarto@vis.social) continue le développement de Geoviz. On peut maintenant faire des grilles de densité sur une carte sous forme de carrés ou d'hexagones grâce à la fonction tool.dotstogrid().

#LLM et SUV

Petite réflexion personnelle :

Les LLM sont au machine learning ce que les SUV sont aux voitures.

Pour un usager final, l'usage d'un service s'appuyant sur un LLM consomme beaucoup de ressources (énergétiques) pour un résultat qu'on peut souvent obtenir presque aussi facilement avec un moteur de recherche.

Pour un data scientist, l'usage d'un LLM consomme beaucoup de ressources (financières et énergétiques) pour un résultat qu'on peut très souvent obtenir avec un modèle plus frugal.

Ingérences étrangères

Dans l'émission En quête de politique, Thomas Legrand reçoit Maxime Audinet et Elsa Vidal pour parler de l'influence du Poutinisme en France.

Économie

L'économiste Angus Deaton a eu un éclair de lucidité.

Il souligne l'absence de réflexion dans la profession sur le pouvoir :

Our emphasis on the virtues of free, competitive markets and exogenous technical change can distract us from the importance of power in setting prices and wages, in choosing the direction of technical change, and in influencing politics to change the rules of the game. Without an analysis of power, it is hard to understand inequality or much else in modern capitalism.

Cela va de paire avec une absence de réflexion éthique :

We are technocrats who focus on efficiency. We get little training about the ends of economics, on the meaning of well-being—welfare economics has long since vanished from the curriculum—or on what philosophers say about equality.

Il critique aussi le tournant empirique :

the currently approved methods, randomized controlled trials, differences in differences, or regression discontinuity designs, have the effect of focusing attention on local effects, and away from potentially important but slow-acting mechanisms that operate with long and variable lags. Historians, who understand about contingency and about multiple and multidirectional causality, often do a better job than economists of identifying important mechanisms that are plausible, interesting, and worth thinking about, even if they do not meet the inferential standards of contemporary applied economics.

Je trouve ça intéressant qu'un économiste aussi reconnu ait autant de recul et de lucidité sur sa profession.

Appel de Tim Berners-Lee

Pour les 35 ans du Web, Tim Berners Lee publie un appel à réinventer le web.

5 years ago, when the web turned 30, I called out some of the dysfunction caused by the web being dominated by the self-interest of several corporations that have eroded the web’s values and led to breakdown and harm. Now, 5 years on as we arrive at the Web’s 35th Birthday, the rapid advancement of AI has exacerbated these concerns, proving that issues on the web are not isolated but rather deeply intertwined with emerging technologies.

L'explication est à chercher du côté du capitalisme.

Leadership, hindered by a lack of diversity, has steered away from a tool for public good and one that is instead subject to capitalist forces resulting in monopolisation. Governance, which should correct for this, has failed to do so, with regulatory measures being outstripped by the rapid development of innovation, leading to a widening gap between technological advancements and effective oversight.

Il appelle notamment à aider les citoyennes et citoyens à se réapproprier leurs données.

Part of the solution is the Solid Protocol, a specification and a movement to provide each person with their own ‘personal online data store’, known as a POD.

Droite tech

L'historienne Maya Kandel publie une série d'articles dans Mediapart sur la droite américaine. Dans l'article sur la « droite tech », elle analyse la trajectoire idéologique des grands patrons de la Silicon Valley.

Elle explique notamment leur droitisation par la politique anti-trust de Joe Biden.

Mais c’est aussi la politique antitrust de Joe Biden qui a accéléré ces évolutions : la plus grande offensive de ces dernières décennies, même si ses résultats sont minces à ce stade, se déploie en particulier contre les géants de la Silicon Valley.

Le revirement des grands patrons de la tech est impressionnant.

En 2016, la présence de Peter Thiel à la convention républicaine qui intronisait Trump avait choqué. Aujourd’hui, le basculement vers la droite des titans de la Silicon Valley est devenu banal. David Sacks, qui avait soutenu Hillary Clinton en 2016, Marc Andreessen, soutien d’Obama en 2008, financent des candidats républicains mais aussi le complotiste Robert Kennedy Jr., également soutenu par Jack Dorsey, le fondateur de Twitter.

Maya Kandel évoque aussi le fetichisme du QI pour justifier les inégalités.

Comme à d’autres moments de l’histoire américaine, où l’idée d’une hiérarchie raciale servait à justifier la ségrégation et les lois des quotas, les théories sur le QI permettent de rationaliser l’inégalité capitaliste : si certains individus ou groupes sont destinés à être au bas de l’échelle en raison d’un QI inférieur, il n’y a pas de problème d’accumulation obscène des richesses par quelques autres.

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Temperature des oceans

Le Financial Times a visualisé la température des océans sur les 365 derniers jours.

Oceans marked 365 straight days of record-breaking global sea surface temperatures this week, fuelling concerns among international scientists that climate change could push marine ecosystems beyond a tipping point.

L'article contient à la fois une carte de chaleur des océans et une visualisation impressionnante de la température moyenne au cours de l'année.

The Common Corpus

Pierre-Carl Langlais, dont j'ai déjà parlé plusieurs fois dans mes weeknotes, vient de publier avec d'autres un corpus de 500 milliards de mots sans droits d'auteur pour pouvoir entraîner des LLM.

C'est un énorme accomplissement et ça montre qu'on n'est pas obligé d'utiliser CommonCrawl ou Oscar pour constituer de gros corpus.

Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content from Common Crawl and other more dubious sources.

Répertoires privés sur Github

If your repo has ever been public there's a chance it was archived by https://www.softwareheritage.org/ and ended up in The Stack training data: https://huggingface.co/spaces/bigcode/in-the-stack

Pour savoir quels répertoires ont été publics un jour, Simon Willison a développé un petit notebook Observable : https://observablehq.com/@simonw/github-public-repo-history

En parallèle, on peut regarder si nos répertoires sont inclus dans le dataset de BigCode : https://huggingface.co/spaces/bigcode/in-the-stack

Le Monde et OpenAI

Je n'ai pas vu beaucoup de réactions à l'annonce du contrat entre Le Monde et OpenAI et je trouve ça inquiétant. Ça devrait susciter plus de réactions et d'inquiétudes.

Pour Arrêt sur Images, Pauline Bock souligne que ça n'est sans doute pas une bonne affaire pour la profession.

les observateur·ices du secteur des médias connaissent bien cette situation, que l'on vous racontait en février dans une série sur les 20 ans de Facebook : lorsque les Gafam, premiers géants du numérique, ont raflé l'audience des médias en ligne, la question se posait déjà. Fallait-il, ou non, passer des marchés avec Google, Facebook et cie ? Le journaliste spécialiste du sujet Julien Le Bot expliquait à ASI que faire confiance à Facebook a été “la plus grande erreur” des médias. Et l'IA pourrait bien être le prochain eldorado vers lequel les médias vont se précipiter pour, au final, s'entre-tuer.

Elle s'interroge aussi sur l'effet sur la qualité du journal.

Les journalistes du Monde seront-ils aussi fier·es que leur travail nourrisse ChatGPT qu'ils et elles ne le sont à écrire pour le journal français considéré comme “la référence” ?

Sur X, Alexander Doria souligne que Le Monde est une entreprise subventionnée et que ça n'est pas anodin.

Aussi je suis désolé mais le Monde n’est pas une entreprise lambda mais bénéficie de subventions publiques françaises. Est-il normal de brader ce contenu à une multinationale américaine à visée monopolistique ?

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Révolution à l'Insee

Petite révolution, l'Insee lance enfin un catalogue de données. Jusqu'à maintenant les données diffusées sur Insee.fr n'avaient aucune méta-données. Avec Melodi, on trouve des méta-données, exactement comme dans un portail open data. L'outil comporte également un explorateur de données qui permet de prévisualiser les données en ligne.

Personnellement, j'aurais trouvé ça malin de faire un site dédié de type data.insee.fr en utilisant udata, le moteur de @datagouvfr@social.numerique.gouv.fr. Ça aurait permis de mutualiser les efforts avec la DINUM.

Données météo

Après l'ouverture des données de Météo France et le lancement de meteo.data. gouv.fr, @datagouvfr@social.numerique.gouv.fr et Météo France organisent un hackathon les 8 et 9 avril.

La ville du quart d'heure

La sociologue Paola Tubaro, Sarah Berkemer et leurs étudiants ont fait le point sur le concept de « ville du quart d'heure » en s'appuyant sur des données. La ville du quart d'heure se donne pour objectif de donner accès à chaque habitant aux principales aménités en moins d'un quart d'heure à pieds ou en vélo.

We harness open map data from the large participatory project Open Street Map and geo-localized socio-economic data from official statistics (Insee) to fill this gap.

While the city of Paris is rather homogeneous, we show that it is nonetheless characterized by remarkable inequalities between a highly accessible city centre (though with some internal differences in terms of types of amenities) and a less equipped periphery, where lower-income neighborhoods are more often found. Heterogeneity increases if we consider Paris together with its immediate surroundings, the “Petite Couronne,” where large numbers of daily commuters and other users of city facilities live.

L'article combine les données socio-économiques carroyées produites par l'Insee (Filosofi) et des données Openstreetmap.

Carte

Sur cette carte, on voit le nombre de restaurants, le score d'accessibilité des restaurants, le nombre d'écoles et le score d'accessibilité des écoles par carreau de 200 mètres.

The figures depicting the number of restaurants and schools in Paris (Figures 2A, C) and the corresponding accessibility scores on the grid (Figures 2B, D) clearly show the importance of taking into account not only the total number but also accessibility measures of amenities. While the number of restaurants shows a strong trend toward the city center of Paris (arrondissement 1–4), the schools seem to be relatively well distributed among the city (Figure 2A). However, for schools (Figure 2D) the accessibility score clearly shows a concentration in the Passy district located in the South-West of Paris (16th), in the 5th/6th arrondissements (below the Seine) and in the 2nd/9th arrondissements (above the Seine, near the Opéra district).

Je ne rentre pas dans les détails de la construction de l'indicateur d'accessibilité. À la fin de l'article on obtient une cartographie de la petite couronne.

Carte de la petite couronne

Globalement l'analyse montre que l'accessibilité des services est très inégalement répartie.

Les 10 ans des Decodeurs

Pour leurs 10 ans, Les Décodeurs ont publié un abécédaire du fact-checking.

Je suis très intrigué par la suite Grumpy.

Des graphiques, des cartes, des tableaux… Vous en trouverez beaucoup au sein des articles des Décodeurs. Certains sont des productions ad hoc : généralement complexes, ces éléments visuels ont été pensés et codés pour les besoins spécifiques d’un article. Mais, dans nombre de cas, un histogramme, une carte des départements, une courbe assez simple suffisent pour visualiser une information. Pour cela, nous avons créé des outils qui permettent de générer un graphique sans avoir besoin de mettre les mains dans du code. Plusieurs versions et fonctionnalités se sont succédé, mais la première d’entre elles a été inventée par un éminent membre de l’équipe qui a la réputation (erronée, cela va de soi) d’être parfois d’humeur grincheuse. C’est pour rendre hommage à son travail si précieux que nous avons appelé ces outils la « suite Grumpy ».

Dataviz

Le Climate Lab du Washington Post publie une analyse de la précocité de l'arrivée des feuilles vertes aux États-Unis.

Of 274,016 cells with a trend, 220,486 (80.46%) are trending earlier. Of all 481,631 cells, 45.78% are trending earlier, 11.11% are trending later, and 43.11% show no trend at all.

La visualisation est réalisée entièrement sur Observable.

Le Monde et OpenAI

Je ne sais pas quoi penser de l'accord entre Le Monde et OpenAI.

Louis Dreyfus y voit une nouvelle source de revenus.

Il a également l’avantage de consolider notre modèle économique en apportant une source significative de revenus supplémentaires, pluriannuelle, qui intègre une quote-part au titre des droits voisins. Une partie « appropriée et équitable » de ces droits, sera, comme défini par la loi, reversée à la rédaction.

On n'a pas d'éléments financiers dans l'article mais il me semble peu probable qu'à terme la rémunération soit équitable pour les producteurs de contenus.

Surtout il y a quand même un risque réputationnel énorme que ChatGPT produise des hallucinations tout en prétendant s'appuyer sur Le Monde.

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)