pac

weeknotes

Comparer les LLMs en Français

Le ministère de la culture lance Comparia.beta.gouv.fr, un site qui permet de comparer des LLMs et de les évaluer.

Je trouve l'idée super pertinente et l'UX est top.

Sur le fond, je trouve aussi intéressant que le ministère de la Culture se positionne sur l'IA.

Le business de la violence

CalMatters et The Markup publient une enquête sur le business de la violence en analysant la bibliothèque de publicités de Facebook.

CalMatters and The Markup used Meta’s own tools to calculate how much Meta makes from spikes in advertising when instances of political violence happen, reviewing thousands of ads through both manual review and with the assistance of an AI model offered by Meta itself. (We also made improvements to Meta Research’s scripts for accessing the Ad Library API, and we’re sharing our changes.)

TheMarkup a utilisé un LLM pour interroger FacebookAds

To suss out which ads were related to the shooting, we reviewed more than 4,200 ads from the company’s different pages with the assistance of a large language model named Llama, a Meta AI model.

We programmed the model to evaluate the text of each ad to determine whether it was related to the assassination attempt, then manually reviewed hundreds of its classifications to ensure it was working as expected.

Au passage, l'équipe à contribué au dépôt de scripts python pour accéder à Facebook Ads : https://github.com/the-markup/Ad-Library-API-Script-Repository/ et publié ses données https://github.com/the-markup/investigation-meta-political-violence-ads.

Notebooks

Deno2 permet de faire tourner du JavaScript dans Jupyter. Ça peut être utile pout réutiliser du code Observable dans un environnement Jupyter, par exemple si on veut travailler sur sa machine.

Large Chain of Thoughts Models

La nouvelle génération de modèles dit de “raisonnement” comme GPT-o1 pousse l'anthropomorphisme encore plus loin.

Voir notamment ce thread de Carl Bergstrom: @ct_bergstrom@fediscience.org/113307407384723425">https://mastodon.social/@ct_bergstrom@fediscience.org/113307407384723425

L'insoutenable légèreté du Nobel d'économie

Le Nobel d'économie récompense Daron Acemoglu, Simon Johnson.

Ils sont notamment célèbres pour leur article The Great Reversal of Fortune. La fiabilité et la pertinence dss des données utilisées a pourtant été largement contestée, notamment par https://www.tandfonline.com/doi/abs/10.1080/00220388.2011.648621

Ça me fait penser à cette tribune d'Éric Monnet intitulée L'insoutenable légèreté des économistes : https://www.alternatives-economiques.fr/eric-monnet/linsoutenable-legerete-economistes/00105058

TheStallmanReport

Gros travail pour recenser les prises de position problématiques sur les questions sexuelles. Je ne sais pas trop qui est derrière mais ça paraît bien documenté.

Melodi

L'Insee met maintenant des données à disposition dans l'outil MELODI. Ça permet de les requêter directement en Python, R ou JavaScript.

Eric Mauviere montre comment les requêter directement depuis DuckDB et grâce à son commentaire les requêtes cross domain sont maintenant possibles.

https://www.linkedin.com/feed/update/urn:li:activity:7245023149111525376/?commentUrn=urn%3Ali%3Acomment%3A(activity%3A7245023149111525376%2C7250096621575634945)&dashCommentUrn=urn%3Ali%3Afsd_comment%3A(7250096621575634945%2Curn%3Ali%3Aactivity%3A7245023149111525376

Loi de finances

L'outil LexImpact permet de visualiser directement la loi de finances.

LexImpact est un ancien projet du programme Entrepreneurs d'intérêt général qui s'appuie sur le logiciel libre Openfisca.

2,5% des investissements dans les startups vont à des startups dirigées majoritairement ou entièrement par des femmes !

Between 2011 and 2021, €84.5 billion were invested by European Venture Capitalist (VC) firms in European start-ups. That's a massive amount, more than the GDP of Luxembourg last year. Yet, the startup landscape remains very unequal. 90% of the money was invested by all-male or majority-male VC teams into all-male or male-majority start-ups. Those are teams where top management is 55%+ male. Less than 2.5% of funding went to all-female or female-majority start-ups.

https://www.europeancorrespondent.com/data?s=Euro-cents-for-female-startups

A lire

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Des électeurs ordinaires

Je viens de terminer Des électeurs ordinaires de Félicien Faury, une enquête sociologique sur l'électorat du Rassemblement national dans la région Sud/PACA. L'enquête déconstruit l'idée d'un simple vote de colère, montre que l'économique et l'idéologique sont profondément impliqués et surtout que le racisme est fondamental dans le vote pour le Rassemblement national.

Le livre est court et bien écrit. Je le recommande.

Emily Bender

Emily Bender, don't j'ai souvent parlé dans ces weeknotes, est interviewée dans Le Monde.

Désinformation

Le spécialiste de la désinformation Thomas Rid analyse le leak de la Social Design Agency, l'entreprise qui opère la campagne DoppelGanger.

https://www.foreignaffairs.com/russia/lies-russia-tells-itself

Facebook

Grosse controverse sur une série d'études publiées dans Science l'an passé sur le feed d'actualité de Facebook.

Bagchi et al. point out that during the experiment, Facebook had implemented a set of 63 emergency measures designed to counter any political instability. These measures changed the active Facebook algorithm in a way that caused the platform to provide less polarizing and more reliable news. Indeed, when the emergency measures were in place, Facebook traffic to mainstream media outlets such as the Cable News Network, National Public Radio, and the New York Times increased.

Source : https://www.science.org/doi/10.1126/science.adt2983

Science ne retire pas l'article mais publie un avertissement sur la page de l'article.

Dans The Conversation, Timothy Graham analyse l'affaire :

The whole debacle highlights the problems caused by big tech funding and facilitating research into their own products. It also highlights the crucial need for greater independent oversight of social media platforms.

L'affaire me rappelle les Uber files et les études de Thesmar et Landier réalisées en prestation avec Uber.

Fatigue de l'IA

Via Maelle Salmon (https://mastodon.social/@maelle/113224806259930454), je suis tombé sur un article de blog intitulé “I'm tired of AI” écrit par un certain Bas Dijkstra. Il s'en prend notamment à cette excitation permanente où on a l'impression qu'on a chaque semaine une révolution technologique.

Every tech fart smelling of ‘AI’ these days is almost instantly labeled as a ‘game changer’, only to be replaced by the next ‘pivotal’ and ‘revolutionary’ ‘solution’ the next week.

Il dénonce aussi les soumissions à des conférences générées par IA.

Over the last few years, I’ve had the honour of being the member of the program committee for three different conferences, and a one-off reviewer for one or two more. What I have seen in these years is a significant rise in proposals that were clearly written with the help of, or in many cases, entirely by ChatGPT or similar software.

First of all, all these auto-generated proposals sound very much the same. ‘In the ever-changing world of …’. ‘Delve’. ‘Pivotal’. All words and phrases that smell suspiciously like someone used ChatGPT to write a proposal, instead of taking the time and effort to do it themselves. I don’t think that’s a great way to stand out and demonstrate your knowledge or experience of or unique take on a subject.

En conclusion, il souligne que si l'IA peut être utile, on pourrait quand même se passer de tous ces contenus générés par IA.

Again, there are some cases where AI is used as a force for good. Early detection of diseases, for example. That’s great. That’s progress. We should definitely keep using AI to do that, and try to make it even better.

But I’m pretty sure I can do without all that AI-generated music, images, text, conference proposals, test cases, LinkedIn posts and so much other AI-generated nonsense.

La déclaration What the Fuck d'Éric Schmidt

Mon avis est que nous n'atteindrons pas les objectifs climatiques de toute façon parce que nous ne sommes pas organisés pour le faire […] et oui les besoins dans ce domaine seront problématiques mais je préfère parier sur l'IA pour résoudre le problème plutôt que de la contraindre et d'avoir le problème.

C'est quand même chaud d'arriver à ce degré d'irresponsabilité.

https://next.ink/brief_article/eric-schmidt-estime-les-objectifs-climatiques-inatteignables-et-propose-de-les-confier-a-des-ia/

Nobel

Geoffrey Hinton a eu le Nobel de physique. Quand il a démissionné de Google en 2023, il disait regretter son œuvre :

A part of him, he said, now regrets his life’s work. “I console myself with the normal excuse: If I hadn’t done it, somebody else would have,” Dr. Hinton said during a lengthy interview last week[...]

Source: https://archive.ph/58WZy

Je vois que les Nobel de chimie et de physique ont été attribué à des spécialistes de l'IA. J'attends un prix Nobel de la paix ou un prix Nobel de littérature attribué à un spécialiste de l'IA :)

CompareIA

À l'occasion du sommet de la francophonie, le ministère de la Culture a lancé CompareIA, un site qui permet de comparer et d'évaluer deux LLMs sur la même tâche.

Je trouve l'idée géniale et le design est super simple.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Carte des résultats par bureau de vote

Cedric Rossi a développé une carte des résultats électoraux par bureau de vote.

Il utilise Observable Framework pour réaliser son site.

Circogrammes

https://elections-gouv-lol.netlify.app/legislatives/circogramme

Cartes choroplèthe ou cartogramme de Dorling

Françoise Bahoken et Nicolas Lambert proposent une réflexion sur la représentation cartographique des résultats des Européennes. Ils montrent à quel point la carte choroplèthe donne une vision faussée de la réalité :

le découpage des circonscriptions électorales est réalisé de telle sorte que chacune d’elles rassemble un nombre comparable de votants. Ainsi, en zone urbaine dense, les circonscriptions présentent de très petites tailles à l’inverse des zones rurales où elles peuvent s’étendre sur des kilomètres. Leurs formes géographiques et leurs surfaces sont donc nécessairement hétérogènes. En utilisant ce découpage électoral comme support de la représentation cartographique, la carte survalorise donc, par construction, la perception des résultats obtenus dans les territoires peu denses qui sont caractérisés par leur grande taille, créant un effet d’absorption visuelle. Autrement dit, on ne voit qu’elles.

À l'inverse de la carte choroplèthe, le cartogramme de Dorling donne une vision équilibrée du rapport de force entre le Nouveau Front Populaire et le Rassemblement national.

Vote rural et vote citadin

On oppose beaucoup vote rural et vote urbain mais @coulmont rappelle que certains citadins préfèrent voter dans leur campagne.

https://mstdn.io/@coulmont/112752326556988638

Hexmaps

Le Financial Times propose aussi de superbes hexmaps:

https://www.ft.com/content/2307e263-6cbb-4529-bf2c-0bb089f6c99b

Mise à jour du COG

https://x.com/antuki13/status/1808527592183550333

Positron

Posit lance Positron pour remplacer RStudio

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Désinformation

Dans Technoculture @mathildesaliou@piaille.fr revient sur la désinformation en période électorale.

On parle pas mal de deepfakes, ces derniers temps, mais il me semble que lorsqu’on s’intéresse à la désinformation en contexte électoral, on gagnerait à se pencher plus sur qui les propage et comment. Dans ces cas-là, émerge rapidement la question du biais politique potentiel d’internet, ou de certains outils que nous utilisons sur internet, vers un camp ou un autre.

Parce que finalement, l’enjeu, ça n’est pas tellement (ou pas seulement) d’échanger sur « est-ce que c’est vrai, est-ce que c’est faux », mais plutôt se former les uns les autres aux bases de la réception d’information : qui me parle ? Quel est son but ? Via quels outils ? Y a-t-il eu personalisation du contexte de réception ? Déformation ? Autre chose ?

Hyparquet

Hyparquet permet de lire des fichiers Parquet en JavaScript.

Cartographie de l'intelligence artificielle

La destruction du tripode de l'Insee

Dans AOC, Jérôme Denis revient sur la destruction du tripode de l'Insee à Malakoff,

Experimentation de L'IA comme secrétaire de rédaction

Loris Guemart revient dans Arrêt sur image sur l'expérimentation de ChatGPT à l'Est républicain.

« Aujourd'hui, je considère l'IA comme aussi intéressante qu'un correcteur orthographique : elle peut déverminer une copie pleine de faute d'orthographes, remettre en forme un conseil municipal présenté avec des tirets et faire des suggestions de titres ou d'accroche. Sauf qu'elle n'est pas fiable. » conclut le responsable des secrétaires de rédaction.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Après deux ou trois semaines d'absence, je tente de reprendre le rythme des weeknotes.

Quarto et HuggingFace

On peut désormais héberger des sites Quarto sur HuggingFace Spaces : https://quarto.org/docs/publishing/hugging-face.html

Journalisme de données

Après 3 ans passé aux Échos, @tomfevrier@mastodon.social rejoint Bloomberg. Dans un fil Mastodon, il revient sur ses principales réalisations pour Les Echos et il y a quelques pépites.

Je recommande notamment un incroyable format pour expliquer le mode de scrutin des élections législatives en France : https://media.lesechos.fr/infographie/comprendre-legislatives/

Fossé des genres

Dans Le Monde, Marie Charrel analyse le fossé dss genres qui se creuse chez les jeunes générations.

Une série d’études et d’enquêtes publiées dans la presse anglo-saxonne ont ausculté ce déroutant phénomène. Lire aussi la notion : Article réservé à nos abonnés « Boomeurs », ou les « nouveaux » vieux schnocks On pourrait le résumer ainsi : les filles sont de plus en plus progressistes, tandis que les garçons du même âge penchent de plus en plus du côté conservateur.

https://www.lemonde.fr/idees/article/2024/04/04/partout-un-fosse-potentiellement-dramatique-se-creuse-entre-les-jeunes-femmes-et-les-jeunes-hommes_6225866_3232.html

Droit d'accès aux documents administratifs

@alphoenix a porté pendant 3 ans une demande d'accès à l'indice de position sociale (IPS) des collèges et lycées.

Aujourd'hui, ces données ont été utilisées pour le rapport parlementaire sur l'enseignement privé.

En vrac

Dans Le Monde, Louise Couvelaire analyse le mal être des musulmans en France.

Ailleurs

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Dataviz

Nicolas Lambert (@neocarto@vis.social) continue le développement de Geoviz. On peut maintenant faire des grilles de densité sur une carte sous forme de carrés ou d'hexagones grâce à la fonction tool.dotstogrid().

#LLM et SUV

Petite réflexion personnelle :

Les LLM sont au machine learning ce que les SUV sont aux voitures.

Pour un usager final, l'usage d'un service s'appuyant sur un LLM consomme beaucoup de ressources (énergétiques) pour un résultat qu'on peut souvent obtenir presque aussi facilement avec un moteur de recherche.

Pour un data scientist, l'usage d'un LLM consomme beaucoup de ressources (financières et énergétiques) pour un résultat qu'on peut très souvent obtenir avec un modèle plus frugal.

Ingérences étrangères

Dans l'émission En quête de politique, Thomas Legrand reçoit Maxime Audinet et Elsa Vidal pour parler de l'influence du Poutinisme en France.

Économie

L'économiste Angus Deaton a eu un éclair de lucidité.

Il souligne l'absence de réflexion dans la profession sur le pouvoir :

Our emphasis on the virtues of free, competitive markets and exogenous technical change can distract us from the importance of power in setting prices and wages, in choosing the direction of technical change, and in influencing politics to change the rules of the game. Without an analysis of power, it is hard to understand inequality or much else in modern capitalism.

Cela va de paire avec une absence de réflexion éthique :

We are technocrats who focus on efficiency. We get little training about the ends of economics, on the meaning of well-being—welfare economics has long since vanished from the curriculum—or on what philosophers say about equality.

Il critique aussi le tournant empirique :

the currently approved methods, randomized controlled trials, differences in differences, or regression discontinuity designs, have the effect of focusing attention on local effects, and away from potentially important but slow-acting mechanisms that operate with long and variable lags. Historians, who understand about contingency and about multiple and multidirectional causality, often do a better job than economists of identifying important mechanisms that are plausible, interesting, and worth thinking about, even if they do not meet the inferential standards of contemporary applied economics.

Je trouve ça intéressant qu'un économiste aussi reconnu ait autant de recul et de lucidité sur sa profession.

Appel de Tim Berners-Lee

Pour les 35 ans du Web, Tim Berners Lee publie un appel à réinventer le web.

5 years ago, when the web turned 30, I called out some of the dysfunction caused by the web being dominated by the self-interest of several corporations that have eroded the web’s values and led to breakdown and harm. Now, 5 years on as we arrive at the Web’s 35th Birthday, the rapid advancement of AI has exacerbated these concerns, proving that issues on the web are not isolated but rather deeply intertwined with emerging technologies.

L'explication est à chercher du côté du capitalisme.

Leadership, hindered by a lack of diversity, has steered away from a tool for public good and one that is instead subject to capitalist forces resulting in monopolisation. Governance, which should correct for this, has failed to do so, with regulatory measures being outstripped by the rapid development of innovation, leading to a widening gap between technological advancements and effective oversight.

Il appelle notamment à aider les citoyennes et citoyens à se réapproprier leurs données.

Part of the solution is the Solid Protocol, a specification and a movement to provide each person with their own ‘personal online data store’, known as a POD.

Droite tech

L'historienne Maya Kandel publie une série d'articles dans Mediapart sur la droite américaine. Dans l'article sur la « droite tech », elle analyse la trajectoire idéologique des grands patrons de la Silicon Valley.

Elle explique notamment leur droitisation par la politique anti-trust de Joe Biden.

Mais c’est aussi la politique antitrust de Joe Biden qui a accéléré ces évolutions : la plus grande offensive de ces dernières décennies, même si ses résultats sont minces à ce stade, se déploie en particulier contre les géants de la Silicon Valley.

Le revirement des grands patrons de la tech est impressionnant.

En 2016, la présence de Peter Thiel à la convention républicaine qui intronisait Trump avait choqué. Aujourd’hui, le basculement vers la droite des titans de la Silicon Valley est devenu banal. David Sacks, qui avait soutenu Hillary Clinton en 2016, Marc Andreessen, soutien d’Obama en 2008, financent des candidats républicains mais aussi le complotiste Robert Kennedy Jr., également soutenu par Jack Dorsey, le fondateur de Twitter.

Maya Kandel évoque aussi le fetichisme du QI pour justifier les inégalités.

Comme à d’autres moments de l’histoire américaine, où l’idée d’une hiérarchie raciale servait à justifier la ségrégation et les lois des quotas, les théories sur le QI permettent de rationaliser l’inégalité capitaliste : si certains individus ou groupes sont destinés à être au bas de l’échelle en raison d’un QI inférieur, il n’y a pas de problème d’accumulation obscène des richesses par quelques autres.

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Temperature des oceans

Le Financial Times a visualisé la température des océans sur les 365 derniers jours.

Oceans marked 365 straight days of record-breaking global sea surface temperatures this week, fuelling concerns among international scientists that climate change could push marine ecosystems beyond a tipping point.

L'article contient à la fois une carte de chaleur des océans et une visualisation impressionnante de la température moyenne au cours de l'année.

The Common Corpus

Pierre-Carl Langlais, dont j'ai déjà parlé plusieurs fois dans mes weeknotes, vient de publier avec d'autres un corpus de 500 milliards de mots sans droits d'auteur pour pouvoir entraîner des LLM.

C'est un énorme accomplissement et ça montre qu'on n'est pas obligé d'utiliser CommonCrawl ou Oscar pour constituer de gros corpus.

Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content from Common Crawl and other more dubious sources.

Répertoires privés sur Github

If your repo has ever been public there's a chance it was archived by https://www.softwareheritage.org/ and ended up in The Stack training data: https://huggingface.co/spaces/bigcode/in-the-stack

Pour savoir quels répertoires ont été publics un jour, Simon Willison a développé un petit notebook Observable : https://observablehq.com/@simonw/github-public-repo-history

En parallèle, on peut regarder si nos répertoires sont inclus dans le dataset de BigCode : https://huggingface.co/spaces/bigcode/in-the-stack

Le Monde et OpenAI

Je n'ai pas vu beaucoup de réactions à l'annonce du contrat entre Le Monde et OpenAI et je trouve ça inquiétant. Ça devrait susciter plus de réactions et d'inquiétudes.

Pour Arrêt sur Images, Pauline Bock souligne que ça n'est sans doute pas une bonne affaire pour la profession.

les observateur·ices du secteur des médias connaissent bien cette situation, que l'on vous racontait en février dans une série sur les 20 ans de Facebook : lorsque les Gafam, premiers géants du numérique, ont raflé l'audience des médias en ligne, la question se posait déjà. Fallait-il, ou non, passer des marchés avec Google, Facebook et cie ? Le journaliste spécialiste du sujet Julien Le Bot expliquait à ASI que faire confiance à Facebook a été “la plus grande erreur” des médias. Et l'IA pourrait bien être le prochain eldorado vers lequel les médias vont se précipiter pour, au final, s'entre-tuer.

Elle s'interroge aussi sur l'effet sur la qualité du journal.

Les journalistes du Monde seront-ils aussi fier·es que leur travail nourrisse ChatGPT qu'ils et elles ne le sont à écrire pour le journal français considéré comme “la référence” ?

Sur X, Alexander Doria souligne que Le Monde est une entreprise subventionnée et que ça n'est pas anodin.

Aussi je suis désolé mais le Monde n’est pas une entreprise lambda mais bénéficie de subventions publiques françaises. Est-il normal de brader ce contenu à une multinationale américaine à visée monopolistique ?

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Révolution à l'Insee

Petite révolution, l'Insee lance enfin un catalogue de données. Jusqu'à maintenant les données diffusées sur Insee.fr n'avaient aucune méta-données. Avec Melodi, on trouve des méta-données, exactement comme dans un portail open data. L'outil comporte également un explorateur de données qui permet de prévisualiser les données en ligne.

Personnellement, j'aurais trouvé ça malin de faire un site dédié de type data.insee.fr en utilisant udata, le moteur de @datagouvfr@social.numerique.gouv.fr. Ça aurait permis de mutualiser les efforts avec la DINUM.

Données météo

Après l'ouverture des données de Météo France et le lancement de meteo.data. gouv.fr, @datagouvfr@social.numerique.gouv.fr et Météo France organisent un hackathon les 8 et 9 avril.

La ville du quart d'heure

La sociologue Paola Tubaro, Sarah Berkemer et leurs étudiants ont fait le point sur le concept de « ville du quart d'heure » en s'appuyant sur des données. La ville du quart d'heure se donne pour objectif de donner accès à chaque habitant aux principales aménités en moins d'un quart d'heure à pieds ou en vélo.

We harness open map data from the large participatory project Open Street Map and geo-localized socio-economic data from official statistics (Insee) to fill this gap.

While the city of Paris is rather homogeneous, we show that it is nonetheless characterized by remarkable inequalities between a highly accessible city centre (though with some internal differences in terms of types of amenities) and a less equipped periphery, where lower-income neighborhoods are more often found. Heterogeneity increases if we consider Paris together with its immediate surroundings, the “Petite Couronne,” where large numbers of daily commuters and other users of city facilities live.

L'article combine les données socio-économiques carroyées produites par l'Insee (Filosofi) et des données Openstreetmap.

Carte

Sur cette carte, on voit le nombre de restaurants, le score d'accessibilité des restaurants, le nombre d'écoles et le score d'accessibilité des écoles par carreau de 200 mètres.

The figures depicting the number of restaurants and schools in Paris (Figures 2A, C) and the corresponding accessibility scores on the grid (Figures 2B, D) clearly show the importance of taking into account not only the total number but also accessibility measures of amenities. While the number of restaurants shows a strong trend toward the city center of Paris (arrondissement 1–4), the schools seem to be relatively well distributed among the city (Figure 2A). However, for schools (Figure 2D) the accessibility score clearly shows a concentration in the Passy district located in the South-West of Paris (16th), in the 5th/6th arrondissements (below the Seine) and in the 2nd/9th arrondissements (above the Seine, near the Opéra district).

Je ne rentre pas dans les détails de la construction de l'indicateur d'accessibilité. À la fin de l'article on obtient une cartographie de la petite couronne.

Carte de la petite couronne

Globalement l'analyse montre que l'accessibilité des services est très inégalement répartie.

Les 10 ans des Decodeurs

Pour leurs 10 ans, Les Décodeurs ont publié un abécédaire du fact-checking.

Je suis très intrigué par la suite Grumpy.

Des graphiques, des cartes, des tableaux… Vous en trouverez beaucoup au sein des articles des Décodeurs. Certains sont des productions ad hoc : généralement complexes, ces éléments visuels ont été pensés et codés pour les besoins spécifiques d’un article. Mais, dans nombre de cas, un histogramme, une carte des départements, une courbe assez simple suffisent pour visualiser une information. Pour cela, nous avons créé des outils qui permettent de générer un graphique sans avoir besoin de mettre les mains dans du code. Plusieurs versions et fonctionnalités se sont succédé, mais la première d’entre elles a été inventée par un éminent membre de l’équipe qui a la réputation (erronée, cela va de soi) d’être parfois d’humeur grincheuse. C’est pour rendre hommage à son travail si précieux que nous avons appelé ces outils la « suite Grumpy ».

Dataviz

Le Climate Lab du Washington Post publie une analyse de la précocité de l'arrivée des feuilles vertes aux États-Unis.

Of 274,016 cells with a trend, 220,486 (80.46%) are trending earlier. Of all 481,631 cells, 45.78% are trending earlier, 11.11% are trending later, and 43.11% show no trend at all.

La visualisation est réalisée entièrement sur Observable.

Le Monde et OpenAI

Je ne sais pas quoi penser de l'accord entre Le Monde et OpenAI.

Louis Dreyfus y voit une nouvelle source de revenus.

Il a également l’avantage de consolider notre modèle économique en apportant une source significative de revenus supplémentaires, pluriannuelle, qui intègre une quote-part au titre des droits voisins. Une partie « appropriée et équitable » de ces droits, sera, comme défini par la loi, reversée à la rédaction.

On n'a pas d'éléments financiers dans l'article mais il me semble peu probable qu'à terme la rémunération soit équitable pour les producteurs de contenus.

Surtout il y a quand même un risque réputationnel énorme que ChatGPT produise des hallucinations tout en prétendant s'appuyer sur Le Monde.

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

IA et élections

L'an dernier, Julia Angwin (@Julia@journa.host), la fondatrice de The Markup, avait annoncé qu'elle quittait le journal pour se consacrer à de nouveaux projets (voir la weeknote #4)

Cette semaine, elle a annoncé le lancement de Proofnews (@proofnews@mastodon.social).

Proof is into proving things! Our goal is to question, test, and investigate the most important issues of our time. We will always tell you what we know and what we don’t know (source).

Sur Masto, elle souligne que c'est un peu fou de lancer un journal en ce moment.

It’s a crazy time to start a news org. Journalism is fighting for its life right now. Revenues are collapsing as adtech robs news of its ability to monetize audiences. Tech platforms are deprioritizing news in their algorithms. Rapacious owners have hollowed out newsroom (source).

Comme chez The Markup, Julia Angwin revendique d'appliquer une méthode scientifique dans le journalisme:

we turn to the scientific method to guide our work. We develop hypotheses and test them. We build software to collect data and use statistics to analyze it. We consult with experts to examine our work. We release our data to the public (source).

Pour la première investigation, Julia Angwin a collaboré avec la sociologue Alondra Nelson pour tester la capacité des modèles d'IA à répondre à des requêtes concernant les élections.

Our first investigation is a collaboration with Alondra Nelson to examine how AI models respond to voter inquiries. The answer: not well. More than half the answers were rated inaccurate by evaluated by our expert testers (source) .

Proofnews et le AI Democracy Projects ont réuni 40 experts pour évaluer la manière dont les 5 LLM les plus importants répondent à 26 questions d'information concernant les élections. Les résultats ne sont pas très surprenants.

none of the five leading AI text models we tested — Anthropic’s Claude, Google’s Gemini, OpenAI’s GPT-4, Meta’s Llama 2, and Mistral’s Mixtral — were able to correctly state that campaign attire, such as a MAGA hat, would not be allowed at the polls in Texas under rules that prohibit people from wearing “a badge, insignia, emblem, or other similar communicative device relating to a candidate, measure, or political party appearing on the ballot,” calling into question AI models’ actual utility for the public.

On voit néanmoins des différences entre les modèles.

Although the testers found all of the models wanting, GPT-4 performed better than the rest of the models on accuracy, by a significant margin. Anthropic’s Claude model was deemed inaccurate nearly half of the time. And Google’s Gemini, Meta’s Llama 2, and Mistral’s Mixtral model all performed poorly, with more than 60% of their responses deemed inaccurate.

Un peu comme les mauvais élèves, les modèles de langage en font des tonnes quand ils ne savent pas :

Many AI models provided lengthy multipart answers that required extensive fact-checking. Inaccurate answers were, on average, longer than accurate ones. And as a result of their wordiness, long answers often seemed plausible at first glance.

Sur le fond, on en revient toujours au même débat sur la confusion entretenue par les éditeurs entre un modèle de langage et un modèle de connaissance de recherche d'informations ou de connaissance. Cela renvoie aux travaux d'Emily Bender (Voir https://dair-community.social/@emilymbender/109456744691732172 et ma réaction à la sortie de ChatGPT https://hackmd.io/@pac/chatgpt).

L'article se conclut sur le risque d'érosion de la vérité

Much has been written about spectacular hypothetical harms that could arise from AI. And already in 2024 we have seen AI models used by bad actors to create fake images, fake videos, and fake voices of public officials and celebrities.

But the AI Democracy Projects’ testing surfaced another type of harm: the steady erosion of the truth by hundreds of small mistakes, falsehoods, and misconceptions presented as “artificial intelligence” rather than plausible-sounding, unverified guesses.

Marimo

L'équipe de Marimo lance Marimo.app, un notebook qui tourne dans le navigateur grâce à WASM.

We’ve created an online playground for marimo: try it out by opening our tutorial notebook or creating a new marimo notebook at https://marimo.new.

Our playground is powered by two emerging technologies. WebAssembly (or “WASM”), a binary instruction format that can be executed by modern web browsers, and Pyodide, a port of CPython to WASM. WASM makes it possible for web browsers to execute Python, C/C++, and Rust, eliminating the need to call out to remote machines. For this reason, marimo notebooks that run entirely in the browser are called WASM notebooks.

Je ne sais pas si ça peut être aussi bien qu'Observable mais ça devient vraiment intéressant.

When you take a moment to think about all this, it’s really quite magical ✨.

Archiver les algorithmes de recommandation

Le datalab de la BnF a organisé une journée sur l'archivage du web politique. La personnalisation des contenus par les plateformes pose des questions intéressantes pour l'archivage.

Les travaux présentés soulèvent également des questions concernant les pratiques d’archivage du web de la BnF et les silences des archives : la connaissance du fonctionnement des algorithmes des plateformes et de la façon dont ils façonnent et personnalisent l’expérience de chaque internaute, peut-elle nourrir la pratique d’archivage et la reconstitution du contexte de navigation dans les outils d’accès ? 4 A l’heure d’un web hautement personnalisé, devrait-on “rejouer” et donner à voir différentes versions du web, ou du moins quelques-unes de ces versions présentées à des usagers-types en employant la méthode des persona ?

  • florianhorrein (2024, 31 janvier). Vingt ans de web électoral. Web Corpora. Consulté le 26 février 2024, à l’adresse https://doi.org/10.58079/vq5n

Data center

Arrêt Sur image s'intéresse à la consommation énergétique de l'IA et ça a le mérite de faire réfléchir.

À l'heure où la presse s'extasie devant le nouveau gadget d'OpenAI, il est plus que temps de s'intéresser à la matérialité de l'IA. Le réseau mondial des data centers est une monstruosité énergétique en expansion constante, qui nous mène droit à la catastrophe.

Pendant que les chercheur·euses climatologues de l'IPCC supplient le capitalisme de diminuer de moitié ses émissions d'ici 2030 pour limiter la hausse des températures à 1,5°C, et alors que 2023 est l'année la plus chaude jamais enregistrée sur la planète, Sam Altman, PDG d'OpenAI, propose sa version de l'avenir : devant sa caste patronale réunie à Davos mi-janvier, il a calmement expliqué que son entreprise allait consommer beaucoup plus d'énergie que prévu, et que seule une ““percée” “technologique – la fusion nucléaire – permettrait de réaliser sa vision, qui consiste littéralement à recouvrir la surface de la Terre de data centers et de fermes solaires pour alimenter l'IA divine.

Cahiers citoyens

Dans un long thread, l'archiviste Marie Ranquet (@MarieRanquet@mastodon.zaclys.com) revient sur la supposée destruction des Cahiers citoyens : https://mastodon.zaclys.com/@MarieRanquet/112019267160958568

SSPHub

Dans la newsletter SSPHub, @linogaliana@vis.social revient sur l'année 2023 en IA et data sciences. Il insiste notamment sur l'importance des bases de données vectorielles de type ChromaDB. J'ai pas eu le temps de tester mais ça a l'air intéressant.

https://ssphub.netlify.app/infolettre/infolettre_17/

Dataviz

En s'appuyant sur la base de données des personnes notables construite par Étienne Wasmer et al. (A cross-verified database of notable people, 3500BC-2018AD,https://www.nature.com/articles/s41597-022-01369-4 ), Jan Willem Tulp a construit une dataviz super intéressante qui permet de voir pour chaque année de l'histoire de l'humanité les personnes notables vivantes et leur âge. On peut facilement voir qui est contemporain de qui.

Lire aussi

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Deepfakes, désinformation et élections

Les articles de presse sur le danger des deepfakes en période électorale se multiplient.

Je suis assez d'accord avec Meredith Whitaker (@Mer__edith@mastodon.world), présidente de la fondation Signal et fondatrice du AI Now Institute avec Kate Crawford, qui pense que c'est une diversion :

The election year focus on 'deep fakes' is a distraction, conveniently ignoring the documented role of surveillance ads—or, the ability to target specific segments to shape opinion. This's a boon to Meta/Google, who've rolled back restrictions on political ads in recent years.

Put another way, a deep fake is neither here nor there unless you have a platform + tools to disseminate it strategically.

Source : https://mastodon.world/@Mer__edith/111885056720284975

Lister des trucs qu'on ne fait pas

En lisant cet article sur le Éducation Data Hub (https://acteurspublics.fr/articles/leducation-nationale-enterre-son-projet-d-education-data-hub) , je me suis dit que ce serait une bonne idée de valoriser les choses qu'on ne fait pas. C'est aussi important de décider de ne pas faire quelque chose que de décider de le faire mais on a tendance à valoriser ceux qui décident de faire plutôt que ceux qui décident de ne pas faire.

Dans un monde fictif idéal, OpenAI aurait pu communiquer sur le choix de ne pas faire SORA (https://openai.com/sora), l'algo qui permet de générer des vidéos de synthèse à partir d'un texte.

Google pourrait communiquer sur le fait de ne pas faire Gemini Pro, l'outil qui permet de détecter le contenu d'une vidéo (https://fedi.simonwillison.net/@simon/111971103847972384).

Le bouche à oreille

Adrien Gombaud et Tom Février (@tomfevrier@mastodon.social) analysent la fréquentation des films semaine par semaine prochaine pour voir ceux qui bénéficient du bouche à oreille.

Médias

D'après @mathlehot@mastodon.zaclys.com, les chiffres de diffusion du Journal du Dimanche sont en chute libre : https://mastodon.zaclys.com/@mathlehot/111939832722337439

Geekeries

Apparemment, yt-dlp est un outil encore plus puissant que youtube-dl.

Mastodon

Je trouve que la fonctionnalité « suivre un hashtag » de Mastodon marche super bien pour la veille. En suivant les bons hashtags, ça permet de repérer plein de choses. Je récupère pas mal de chose intéressantes avec le hashtag #disinformation. Dernier exemple en date, une enquête du Washington Post sur la stratégie de désinformation russe en Ukraine : https://www.washingtonpost.com/world/2024/02/16/russian-disinformation-zelensky-zaluzhny/.

Ailleurs

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)