pac — ratures

Weeknote 37

28 mars 2024

Après deux ou trois semaines d'absence, je tente de reprendre le rythme des weeknotes.

Quarto et HuggingFace

On peut désormais héberger des sites Quarto sur HuggingFace Spaces : https://quarto.org/docs/publishing/hugging-face.html

Journalisme de données

Après 3 ans passé aux Échos, @tomfevrier@mastodon.social rejoint Bloomberg. Dans un fil Mastodon, il revient sur ses principales réalisations pour Les Echos et il y a quelques pépites.

Je recommande notamment un incroyable format pour expliquer le mode de scrutin des élections législatives en France : https://media.lesechos.fr/infographie/comprendre-legislatives/

https://mastodon.social/@tomfevrier/112218089581579448

Fossé des genres

Dans Le Monde, Marie Charrel analyse le fossé dss genres qui se creuse chez les jeunes générations.

Une série d’études et d’enquêtes publiées dans la presse anglo-saxonne ont ausculté ce déroutant phénomène. Lire aussi la notion : Article réservé à nos abonnés « Boomeurs », ou les « nouveaux » vieux schnocks On pourrait le résumer ainsi : les filles sont de plus en plus progressistes, tandis que les garçons du même âge penchent de plus en plus du côté conservateur.

https://www.lemonde.fr/idees/article/2024/04/04/partout-un-fosse-potentiellement-dramatique-se-creuse-entre-les-jeunes-femmes-et-les-jeunes-hommes_6225866_3232.html

Droit d'accès aux documents administratifs

@alphoenix a porté pendant 3 ans une demande d'accès à l'indice de position sociale (IPS) des collèges et lycées.

Aujourd'hui, ces données ont été utilisées pour le rapport parlementaire sur l'enseignement privé.

https://www.linkedin.com/feed/update/urn:li:activity:7182063832196907008

En vrac

Dans Le Monde, Louise Couvelaire analyse le mal être des musulmans en France.

https://www.lemonde.fr/societe/article/2024/04/18/francais-de-confession-musulmane-la-tentation-du-depart_6228469_3224.html

Ailleurs

Lu, vu et entendu par @macgraveur@framapiaf.org, https://hackmd.io/@macgraveur80/mars 2024, une newsletter mensuelle

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Dataviz

Nicolas Lambert (@neocarto@vis.social) continue le développement de Geoviz. On peut maintenant faire des grilles de densité sur une carte sous forme de carrés ou d'hexagones grâce à la fonction tool.dotstogrid().

https://observablehq.com/@neocartocnrs/bees

#LLM et SUV

Petite réflexion personnelle :

Les LLM sont au machine learning ce que les SUV sont aux voitures.

Pour un usager final, l'usage d'un service s'appuyant sur un LLM consomme beaucoup de ressources (énergétiques) pour un résultat qu'on peut souvent obtenir presque aussi facilement avec un moteur de recherche.

Pour un data scientist, l'usage d'un LLM consomme beaucoup de ressources (financières et énergétiques) pour un résultat qu'on peut très souvent obtenir avec un modèle plus frugal.

Ingérences étrangères

Dans l'émission En quête de politique, Thomas Legrand reçoit Maxime Audinet et Elsa Vidal pour parler de l'influence du Poutinisme en France.

https://www.radiofrance.fr/franceinter/podcasts/en-quete-de-politique/en-quete-de-politique-du-samedi-23-mars-2024-3700739

Économie

L'économiste Angus Deaton a eu un éclair de lucidité.

Il souligne l'absence de réflexion dans la profession sur le pouvoir :

Our emphasis on the virtues of free, competitive markets and exogenous technical change can distract us from the importance of power in setting prices and wages, in choosing the direction of technical change, and in influencing politics to change the rules of the game. Without an analysis of power, it is hard to understand inequality or much else in modern capitalism.

Cela va de paire avec une absence de réflexion éthique :

We are technocrats who focus on efficiency. We get little training about the ends of economics, on the meaning of well-being—welfare economics has long since vanished from the curriculum—or on what philosophers say about equality.

Il critique aussi le tournant empirique :

the currently approved methods, randomized controlled trials, differences in differences, or regression discontinuity designs, have the effect of focusing attention on local effects, and away from potentially important but slow-acting mechanisms that operate with long and variable lags. Historians, who understand about contingency and about multiple and multidirectional causality, often do a better job than economists of identifying important mechanisms that are plausible, interesting, and worth thinking about, even if they do not meet the inferential standards of contemporary applied economics.

Je trouve ça intéressant qu'un économiste aussi reconnu ait autant de recul et de lucidité sur sa profession.

https://www.imf.org/en/Publications/fandd/issues/2024/03/Symposium-Rethinking-Economics-Angus-Deaton

Appel de Tim Berners-Lee

Pour les 35 ans du Web, Tim Berners Lee publie un appel à réinventer le web.

5 years ago, when the web turned 30, I called out some of the dysfunction caused by the web being dominated by the self-interest of several corporations that have eroded the web’s values and led to breakdown and harm. Now, 5 years on as we arrive at the Web’s 35th Birthday, the rapid advancement of AI has exacerbated these concerns, proving that issues on the web are not isolated but rather deeply intertwined with emerging technologies.

L'explication est à chercher du côté du capitalisme.

Leadership, hindered by a lack of diversity, has steered away from a tool for public good and one that is instead subject to capitalist forces resulting in monopolisation. Governance, which should correct for this, has failed to do so, with regulatory measures being outstripped by the rapid development of innovation, leading to a widening gap between technological advancements and effective oversight.

Il appelle notamment à aider les citoyennes et citoyens à se réapproprier leurs données.

Part of the solution is the Solid Protocol, a specification and a movement to provide each person with their own ‘personal online data store’, known as a POD.

https://webfoundation.org/2024/03/marking-the-webs-35th-birthday-an-open-letter/

Droite tech

L'historienne Maya Kandel publie une série d'articles dans Mediapart sur la droite américaine. Dans l'article sur la « droite tech », elle analyse la trajectoire idéologique des grands patrons de la Silicon Valley.

Elle explique notamment leur droitisation par la politique anti-trust de Joe Biden.

Mais c’est aussi la politique antitrust de Joe Biden qui a accéléré ces évolutions : la plus grande offensive de ces dernières décennies, même si ses résultats sont minces à ce stade, se déploie en particulier contre les géants de la Silicon Valley.

Le revirement des grands patrons de la tech est impressionnant.

En 2016, la présence de Peter Thiel à la convention républicaine qui intronisait Trump avait choqué. Aujourd’hui, le basculement vers la droite des titans de la Silicon Valley est devenu banal. David Sacks, qui avait soutenu Hillary Clinton en 2016, Marc Andreessen, soutien d’Obama en 2008, financent des candidats républicains mais aussi le complotiste Robert Kennedy Jr., également soutenu par Jack Dorsey, le fondateur de Twitter.

Maya Kandel évoque aussi le fetichisme du QI pour justifier les inégalités.

Comme à d’autres moments de l’histoire américaine, où l’idée d’une hiérarchie raciale servait à justifier la ségrégation et les lois des quotas, les théories sur le QI permettent de rationaliser l’inégalité capitaliste : si certains individus ou groupes sont destinés à être au bas de l’échelle en raison d’un QI inférieur, il n’y a pas de problème d’accumulation obscène des richesses par quelques autres.

https://www.mediapart.fr/journal/international/170324/la-droite-tech-contre-la-democratie-comment-la-silicon-valley-s-est-radicalisee

En vrac

la newsletter Blue Hats : https://code.gouv.fr/fr/bluehats/bluehats_27/

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote #35

18 mars 2024

Temperature des oceans

Le Financial Times a visualisé la température des océans sur les 365 derniers jours.

Oceans marked 365 straight days of record-breaking global sea surface temperatures this week, fuelling concerns among international scientists that climate change could push marine ecosystems beyond a tipping point.

L'article contient à la fois une carte de chaleur des océans et une visualisation impressionnante de la température moyenne au cours de l'année.

https://www.ft.com/content/d1b74e8a-f8f4-4092-af9a-46bcb73a099e

The Common Corpus

Pierre-Carl Langlais, dont j'ai déjà parlé plusieurs fois dans mes weeknotes, vient de publier avec d'autres un corpus de 500 milliards de mots sans droits d'auteur pour pouvoir entraîner des LLM.

C'est un énorme accomplissement et ça montre qu'on n'est pas obligé d'utiliser CommonCrawl ou Oscar pour constituer de gros corpus.

Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content from Common Crawl and other more dubious sources.

Répertoires privés sur Github

If your repo has ever been public there's a chance it was archived by https://www.softwareheritage.org/ and ended up in The Stack training data: https://huggingface.co/spaces/bigcode/in-the-stack

Pour savoir quels répertoires ont été publics un jour, Simon Willison a développé un petit notebook Observable : https://observablehq.com/@simonw/github-public-repo-history

En parallèle, on peut regarder si nos répertoires sont inclus dans le dataset de BigCode : https://huggingface.co/spaces/bigcode/in-the-stack

https://fedi.simonwillison.net/@simon/112130028394563476

Le Monde et OpenAI

Je n'ai pas vu beaucoup de réactions à l'annonce du contrat entre Le Monde et OpenAI et je trouve ça inquiétant. Ça devrait susciter plus de réactions et d'inquiétudes.

Pour Arrêt sur Images, Pauline Bock souligne que ça n'est sans doute pas une bonne affaire pour la profession.

les observateur·ices du secteur des médias connaissent bien cette situation, que l'on vous racontait en février dans une série sur les 20 ans de Facebook : lorsque les Gafam, premiers géants du numérique, ont raflé l'audience des médias en ligne, la question se posait déjà. Fallait-il, ou non, passer des marchés avec Google, Facebook et cie ? Le journaliste spécialiste du sujet Julien Le Bot expliquait à ASI que faire confiance à Facebook a été “la plus grande erreur” des médias. Et l'IA pourrait bien être le prochain eldorado vers lequel les médias vont se précipiter pour, au final, s'entre-tuer.

Elle s'interroge aussi sur l'effet sur la qualité du journal.

Les journalistes du Monde seront-ils aussi fier·es que leur travail nourrisse ChatGPT qu'ils et elles ne le sont à écrire pour le journal français considéré comme “la référence” ?

Sur X, Alexander Doria souligne que Le Monde est une entreprise subventionnée et que ça n'est pas anodin.

Aussi je suis désolé mais le Monde n’est pas une entreprise lambda mais bénéficie de subventions publiques françaises. Est-il normal de brader ce contenu à une multinationale américaine à visée monopolistique ?

En vrac

Le développeur de pixelfed développe loops. video, une plate-forme de vidéos courtes pour le fedivers : https://loops.video/ (https://mastodon.social/@dansup/112115744361306721)
Dans la famille des jeux en ligne, Place Place, developpé par @bbecquet@mamot.fr, est pas mal foutu : https://mamot.fr/@bbecquet/112112275008386613. J'ai fait 13 470 mètres au premier essai.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote #34

14 mars 2024

Révolution à l'Insee

Petite révolution, l'Insee lance enfin un catalogue de données. Jusqu'à maintenant les données diffusées sur Insee.fr n'avaient aucune méta-données. Avec Melodi, on trouve des méta-données, exactement comme dans un portail open data. L'outil comporte également un explorateur de données qui permet de prévisualiser les données en ligne.

Personnellement, j'aurais trouvé ça malin de faire un site dédié de type data.insee.fr en utilisant udata, le moteur de @datagouvfr@social.numerique.gouv.fr. Ça aurait permis de mutualiser les efforts avec la DINUM.

https://www.insee.fr/fr/information/7721951

Données météo

Après l'ouverture des données de Météo France et le lancement de meteo.data. gouv.fr, @datagouvfr@social.numerique.gouv.fr et Météo France organisent un hackathon les 8 et 9 avril.

La ville du quart d'heure

La sociologue Paola Tubaro, Sarah Berkemer et leurs étudiants ont fait le point sur le concept de « ville du quart d'heure » en s'appuyant sur des données. La ville du quart d'heure se donne pour objectif de donner accès à chaque habitant aux principales aménités en moins d'un quart d'heure à pieds ou en vélo.

We harness open map data from the large participatory project Open Street Map and geo-localized socio-economic data from official statistics (Insee) to fill this gap.

While the city of Paris is rather homogeneous, we show that it is nonetheless characterized by remarkable inequalities between a highly accessible city centre (though with some internal differences in terms of types of amenities) and a less equipped periphery, where lower-income neighborhoods are more often found. Heterogeneity increases if we consider Paris together with its immediate surroundings, the “Petite Couronne,” where large numbers of daily commuters and other users of city facilities live.

L'article combine les données socio-économiques carroyées produites par l'Insee (Filosofi) et des données Openstreetmap.

Carte

Sur cette carte, on voit le nombre de restaurants, le score d'accessibilité des restaurants, le nombre d'écoles et le score d'accessibilité des écoles par carreau de 200 mètres.

The figures depicting the number of restaurants and schools in Paris (Figures 2A, C) and the corresponding accessibility scores on the grid (Figures 2B, D) clearly show the importance of taking into account not only the total number but also accessibility measures of amenities. While the number of restaurants shows a strong trend toward the city center of Paris (arrondissement 1–4), the schools seem to be relatively well distributed among the city (Figure 2A). However, for schools (Figure 2D) the accessibility score clearly shows a concentration in the Passy district located in the South-West of Paris (16th), in the 5th/6th arrondissements (below the Seine) and in the 2nd/9th arrondissements (above the Seine, near the Opéra district).

Je ne rentre pas dans les détails de la construction de l'indicateur d'accessibilité. À la fin de l'article on obtient une cartographie de la petite couronne.

Carte de la petite couronne

Globalement l'analyse montre que l'accessibilité des services est très inégalement répartie.

https://databigandsmall.com/2024/03/09/is-paris-a-15-minute-city/
Thaury M.-O., Genet S., Maurice L., Tubaro P. & Berkemer S.J., 2024, ‘City composition and accessibility statistics in and around Paris’, Frontiers in Big Data, 7, DOI=10.3389/fdata.2024.1354007

Les 10 ans des Decodeurs

Pour leurs 10 ans, Les Décodeurs ont publié un abécédaire du fact-checking.

Je suis très intrigué par la suite Grumpy.

Des graphiques, des cartes, des tableaux… Vous en trouverez beaucoup au sein des articles des Décodeurs. Certains sont des productions ad hoc : généralement complexes, ces éléments visuels ont été pensés et codés pour les besoins spécifiques d’un article. Mais, dans nombre de cas, un histogramme, une carte des départements, une courbe assez simple suffisent pour visualiser une information. Pour cela, nous avons créé des outils qui permettent de générer un graphique sans avoir besoin de mettre les mains dans du code. Plusieurs versions et fonctionnalités se sont succédé, mais la première d’entre elles a été inventée par un éminent membre de l’équipe qui a la réputation (erronée, cela va de soi) d’être parfois d’humeur grincheuse. C’est pour rendre hommage à son travail si précieux que nous avons appelé ces outils la « suite Grumpy ».

https://www.lemonde.fr/les-decodeurs/article/2024/03/10/les-decodeurs-ont-10-ans-l-abecedaire-d-une-decennie-de-fact-checking_6221141_4355770.html

Dataviz

Le Climate Lab du Washington Post publie une analyse de la précocité de l'arrivée des feuilles vertes aux États-Unis.

Of 274,016 cells with a trend, 220,486 (80.46%) are trending earlier. Of all 481,631 cells, 45.78% are trending earlier, 11.11% are trending later, and 43.11% show no trend at all.

La visualisation est réalisée entièrement sur Observable.

https://observablehq.com/@climatelab/map-trend-spring-leaf-appearance-1981-2023

Le Monde et OpenAI

Je ne sais pas quoi penser de l'accord entre Le Monde et OpenAI.

Louis Dreyfus y voit une nouvelle source de revenus.

Il a également l’avantage de consolider notre modèle économique en apportant une source significative de revenus supplémentaires, pluriannuelle, qui intègre une quote-part au titre des droits voisins. Une partie « appropriée et équitable » de ces droits, sera, comme défini par la loi, reversée à la rédaction.

On n'a pas d'éléments financiers dans l'article mais il me semble peu probable qu'à terme la rémunération soit équitable pour les producteurs de contenus.

Surtout il y a quand même un risque réputationnel énorme que ChatGPT produise des hallucinations tout en prétendant s'appuyer sur Le Monde.

https://www.lemonde.fr/le-monde-et-vous/article/2024/03/13/intelligence-artificielle-un-accord-de-partenariat-entre-le-monde-et-openai_6221836_6065879.html

En vrac

Datactivist lance le forum Scienceouverte : https://teamscienceouverte.org/ (voir https://framapiaf.org/@LeuLeu/112078894455684774 par @LeuLeu@framapiaf.org)
#Bellingcat propose plein de petits outils #OSINT en open source : https://github.com/bellingcat/open-source-research-notebooks
Overpass Ultra, ça a l'air d'être Overpass Turbo boosté sous stéroïdes : https://subdued.social/@alan/112055589997911236

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 33

6 mars 2024

IA et élections

L'an dernier, Julia Angwin (@Julia@journa.host), la fondatrice de The Markup, avait annoncé qu'elle quittait le journal pour se consacrer à de nouveaux projets (voir la weeknote #4)

Cette semaine, elle a annoncé le lancement de Proofnews (@proofnews@mastodon.social).

Proof is into proving things! Our goal is to question, test, and investigate the most important issues of our time. We will always tell you what we know and what we don’t know (source).

Sur Masto, elle souligne que c'est un peu fou de lancer un journal en ce moment.

It’s a crazy time to start a news org. Journalism is fighting for its life right now. Revenues are collapsing as adtech robs news of its ability to monetize audiences. Tech platforms are deprioritizing news in their algorithms. Rapacious owners have hollowed out newsroom (source).

Comme chez The Markup, Julia Angwin revendique d'appliquer une méthode scientifique dans le journalisme:

we turn to the scientific method to guide our work. We develop hypotheses and test them. We build software to collect data and use statistics to analyze it. We consult with experts to examine our work. We release our data to the public (source).

Pour la première investigation, Julia Angwin a collaboré avec la sociologue Alondra Nelson pour tester la capacité des modèles d'IA à répondre à des requêtes concernant les élections.

Our first investigation is a collaboration with Alondra Nelson to examine how AI models respond to voter inquiries. The answer: not well. More than half the answers were rated inaccurate by evaluated by our expert testers (source) .

Proofnews et le AI Democracy Projects ont réuni 40 experts pour évaluer la manière dont les 5 LLM les plus importants répondent à 26 questions d'information concernant les élections. Les résultats ne sont pas très surprenants.

none of the five leading AI text models we tested — Anthropic’s Claude, Google’s Gemini, OpenAI’s GPT-4, Meta’s Llama 2, and Mistral’s Mixtral — were able to correctly state that campaign attire, such as a MAGA hat, would not be allowed at the polls in Texas under rules that prohibit people from wearing “a badge, insignia, emblem, or other similar communicative device relating to a candidate, measure, or political party appearing on the ballot,” calling into question AI models’ actual utility for the public.

On voit néanmoins des différences entre les modèles.

Although the testers found all of the models wanting, GPT-4 performed better than the rest of the models on accuracy, by a significant margin. Anthropic’s Claude model was deemed inaccurate nearly half of the time. And Google’s Gemini, Meta’s Llama 2, and Mistral’s Mixtral model all performed poorly, with more than 60% of their responses deemed inaccurate.

Un peu comme les mauvais élèves, les modèles de langage en font des tonnes quand ils ne savent pas :

Many AI models provided lengthy multipart answers that required extensive fact-checking. Inaccurate answers were, on average, longer than accurate ones. And as a result of their wordiness, long answers often seemed plausible at first glance.

Sur le fond, on en revient toujours au même débat sur la confusion entretenue par les éditeurs entre un modèle de langage et un modèle de connaissance de recherche d'informations ou de connaissance. Cela renvoie aux travaux d'Emily Bender (Voir https://dair-community.social/@emilymbender/109456744691732172 et ma réaction à la sortie de ChatGPT https://hackmd.io/@pac/chatgpt).

L'article se conclut sur le risque d'érosion de la vérité

Much has been written about spectacular hypothetical harms that could arise from AI. And already in 2024 we have seen AI models used by bad actors to create fake images, fake videos, and fake voices of public officials and celebrities.

But the AI Democracy Projects’ testing surfaced another type of harm: the steady erosion of the truth by hundreds of small mistakes, falsehoods, and misconceptions presented as “artificial intelligence” rather than plausible-sounding, unverified guesses.

Lire l'article https://www.proofnews.org/seeking-election-information-dont-trust-ai/
Les données sont sur Github: https://github.com/ProofNews/aidp/tree/main

Marimo

L'équipe de Marimo lance Marimo.app, un notebook qui tourne dans le navigateur grâce à WASM.

We’ve created an online playground for marimo: try it out by opening our tutorial notebook or creating a new marimo notebook at https://marimo.new.

Our playground is powered by two emerging technologies. WebAssembly (or “WASM”), a binary instruction format that can be executed by modern web browsers, and Pyodide, a port of CPython to WASM. WASM makes it possible for web browsers to execute Python, C/C++, and Rust, eliminating the need to call out to remote machines. For this reason, marimo notebooks that run entirely in the browser are called WASM notebooks.

Je ne sais pas si ça peut être aussi bien qu'Observable mais ça devient vraiment intéressant.

When you take a moment to think about all this, it’s really quite magical ✨.

https://marimo.io/blog/newsletter-2

Archiver les algorithmes de recommandation

Le datalab de la BnF a organisé une journée sur l'archivage du web politique. La personnalisation des contenus par les plateformes pose des questions intéressantes pour l'archivage.

Les travaux présentés soulèvent également des questions concernant les pratiques d’archivage du web de la BnF et les silences des archives : la connaissance du fonctionnement des algorithmes des plateformes et de la façon dont ils façonnent et personnalisent l’expérience de chaque internaute, peut-elle nourrir la pratique d’archivage et la reconstitution du contexte de navigation dans les outils d’accès ? 4 A l’heure d’un web hautement personnalisé, devrait-on “rejouer” et donner à voir différentes versions du web, ou du moins quelques-unes de ces versions présentées à des usagers-types en employant la méthode des persona ?

florianhorrein (2024, 31 janvier). Vingt ans de web électoral. Web Corpora. Consulté le 26 février 2024, à l’adresse https://doi.org/10.58079/vq5n

Data center

Arrêt Sur image s'intéresse à la consommation énergétique de l'IA et ça a le mérite de faire réfléchir.

À l'heure où la presse s'extasie devant le nouveau gadget d'OpenAI, il est plus que temps de s'intéresser à la matérialité de l'IA. Le réseau mondial des data centers est une monstruosité énergétique en expansion constante, qui nous mène droit à la catastrophe.

Pendant que les chercheur·euses climatologues de l'IPCC supplient le capitalisme de diminuer de moitié ses émissions d'ici 2030 pour limiter la hausse des températures à 1,5°C, et alors que 2023 est l'année la plus chaude jamais enregistrée sur la planète, Sam Altman, PDG d'OpenAI, propose sa version de l'avenir : devant sa caste patronale réunie à Davos mi-janvier, il a calmement expliqué que son entreprise allait consommer beaucoup plus d'énergie que prévu, et que seule une ““percée” “technologique – la fusion nucléaire – permettrait de réaliser sa vision, qui consiste littéralement à recouvrir la surface de la Terre de data centers et de fermes solaires pour alimenter l'IA divine.

https://www.arretsurimages.net/chroniques/clic-gauche/le-data-center-va-manger-le-monde

Cahiers citoyens

Dans un long thread, l'archiviste Marie Ranquet (@MarieRanquet@mastodon.zaclys.com) revient sur la supposée destruction des Cahiers citoyens : https://mastodon.zaclys.com/@MarieRanquet/112019267160958568

SSPHub

Dans la newsletter SSPHub, @linogaliana@vis.social revient sur l'année 2023 en IA et data sciences. Il insiste notamment sur l'importance des bases de données vectorielles de type ChromaDB. J'ai pas eu le temps de tester mais ça a l'air intéressant.

https://ssphub.netlify.app/infolettre/infolettre_17/

Dataviz

En s'appuyant sur la base de données des personnes notables construite par Étienne Wasmer et al. (A cross-verified database of notable people, 3500BC-2018AD,https://www.nature.com/articles/s41597-022-01369-4 ), Jan Willem Tulp a construit une dataviz super intéressante qui permet de voir pour chaque année de l'histoire de l'humanité les personnes notables vivantes et leur âge. On peut facilement voir qui est contemporain de qui.

https://janwillemtulp.github.io/parallel-lives/

Weeknote 32

23 février 2024

Deepfakes, désinformation et élections

Les articles de presse sur le danger des deepfakes en période électorale se multiplient.

Je suis assez d'accord avec Meredith Whitaker (@Mer__edith@mastodon.world), présidente de la fondation Signal et fondatrice du AI Now Institute avec Kate Crawford, qui pense que c'est une diversion :

The election year focus on 'deep fakes' is a distraction, conveniently ignoring the documented role of surveillance ads—or, the ability to target specific segments to shape opinion. This's a boon to Meta/Google, who've rolled back restrictions on political ads in recent years.

Put another way, a deep fake is neither here nor there unless you have a platform + tools to disseminate it strategically.

Source : https://mastodon.world/@Mer__edith/111885056720284975

Lister des trucs qu'on ne fait pas

En lisant cet article sur le Éducation Data Hub (https://acteurspublics.fr/articles/leducation-nationale-enterre-son-projet-d-education-data-hub) , je me suis dit que ce serait une bonne idée de valoriser les choses qu'on ne fait pas. C'est aussi important de décider de ne pas faire quelque chose que de décider de le faire mais on a tendance à valoriser ceux qui décident de faire plutôt que ceux qui décident de ne pas faire.

Dans un monde fictif idéal, OpenAI aurait pu communiquer sur le choix de ne pas faire SORA (https://openai.com/sora), l'algo qui permet de générer des vidéos de synthèse à partir d'un texte.

Google pourrait communiquer sur le fait de ne pas faire Gemini Pro, l'outil qui permet de détecter le contenu d'une vidéo (https://fedi.simonwillison.net/@simon/111971103847972384).

Le bouche à oreille

Adrien Gombaud et Tom Février (@tomfevrier@mastodon.social) analysent la fréquentation des films semaine par semaine prochaine pour voir ceux qui bénéficient du bouche à oreille.

https://mastodon.social/@tomfevrier/111975256479555594

Médias

D'après @mathlehot@mastodon.zaclys.com, les chiffres de diffusion du Journal du Dimanche sont en chute libre : https://mastodon.zaclys.com/@mathlehot/111939832722337439

Geekeries

Apparemment, yt-dlp est un outil encore plus puissant que youtube-dl.

https://mastodon.xyz/@Julianoe/111963814501609068

Mastodon

Je trouve que la fonctionnalité « suivre un hashtag » de Mastodon marche super bien pour la veille. En suivant les bons hashtags, ça permet de repérer plein de choses. Je récupère pas mal de chose intéressantes avec le hashtag #disinformation. Dernier exemple en date, une enquête du Washington Post sur la stratégie de désinformation russe en Ukraine : https://www.washingtonpost.com/world/2024/02/16/russian-disinformation-zelensky-zaluzhny/.

Ailleurs

Weeknote de @tk@social.apreslanu.it : https://write.apreslanu.it/weeknotes/2024w07

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 31

15 février 2024

Dans The Atlantic, Adrienne LaFrance analyse l'idéologie de le techno-autoritarisme des patrons de la Tech.

Many Americans fret—rightfully—about the rising authoritarianism among MAGA Republicans, but they risk ignoring another ascendant force for illiberalism: the tantrum-prone and immensely powerful kings of tech.

Adrienne LaFrance compare le manifeste techno-optimiste de Marc Andreesden au manifeste futuriste de Marinetti.

In October, the venture capitalist and technocrat Marc Andreessen published on his firm’s website a stream-of-consciousness document he called “The Techno-Optimist Manifesto,” a 5,000-word ideological cocktail that eerily recalls, and specifically credits, Italian futurists such as Marinetti.

Les citations d'Andreessen sont effrayantes.

We believe in nature, but we also believe in overcoming nature. We are not primitives, cowering in fear of the lightning bolt. We are the apex predator; the lightning works for us.

To be clear, the Andreessen manifesto is not a fascist document, but it is an extremist one. He takes a reasonable position—that technology, on the whole, has dramatically improved human life—and warps it to reach the absurd conclusion that any attempt to restrain technological development under any circumstances is despicable.

Lire l'article https://www.theatlantic.com/magazine/archive/2024/03/facebook-meta-silicon-valley-politics/677168/

xsv ⚰️, xan 🐣

Il y a quelques années, j'ai commencé à utiliser xsv, un outil hyper rapide développé en Rust pour manipuler des csv en ligne de commande. Le développeur ne maintient plus le projet mais le Medialab l'a forké, ajouté plein de fonctionnalités et renommé en Xan.

Ça a l'air très cool.

https://github.com/medialab/xan

Du Bois challenge

@tomfevrier@mastodon.social relève le défi du Du Bois challenge

https://mastodon.social/@tomfevrier/111923695713849579

Observable Framework

Observable lance Observable Framework, un générateur de sites statiques pour générer des dashboards. Apparemment, on peut utiliser R, Python ou SQL pour le backend et du JavaScript pour le front.

C'est une alternative hyper interessante à Quarto Dashboard.

Voici la description de Mike Bostock.

With Framework, you can build the best data apps your team has ever seen. Framework combines the power of JavaScript on the front-end for interactive graphics with any language on the back-end for data preparation and analysis. Everything you need is at your fingertips: interactive charts and inputs, responsive grid layout, pleasing color themes, dark mode, keyboard-friendly navigation, blazing speed… and because it’s all code, there’s no limit to customization.

Sylvain Lesage (@severo@mastodon.social) a déjà expérimenté (https://mastodon.social/@severo/111936671570030173).

Autre bonne nouvelle : les utilisateurs qui disposent d'un compte gratuit peuvent de nouveau créer des notebooks privés. Cette fonctionnalité était passé en paywall en novembre 2022 malgré une vive protestation des utilisateurs.

https://observablehq.com/framework/
Lire l'article de Bostock : https://observablehq.com/blog/observable-2-0

Geekeries toujours

Maelle Salmon (@maelle@mastodon.social) a développé un package #Rstats pour convertir un Google Doc en Quarto Book.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote #30

8 février 2024

Cartogrammes

Françoise Bahoken (@fbahoken@mapstodon.space) et Nicolas Lambert (@neocarto@vis.social) publient le code R pour réaliser des cartogrammes de Dorling et des cartogrammes par points.

Personnellement, depuis que j'ai découvert le cartogramme de Dorling, je trouve que c'est une représentation beaucoup plus intéressante que la carte choroplèthe. On évite le biais de représentation qui consiste à donner une plus grande importance aux entités avec une grande superficie.

Lire https://neocarto.github.io/dotcartogram/ (via https://mapstodon.space/@fbahoken/111851761672009705)

En JavaScript, on peut facilement faire les mêmes cartogrammes avec Bertin.js (https://github.com/neocarto/bertin) ou Geoviz (https://neocarto.github.io/geoviz/)

Prompt engineering

FipAddict (@fipaddict@piaille.fr) publie un guide de prompt engineering assez bien fait.

On y apprend qu'il faut une dizaine d'heures pour apprendre à parler avec un LLM.

Travailler avec l'IA est étrange et ne vient pas avec un manuel d'instructions. La seule façon de devenir bon dans l'utilisation de l'IA est donc de l'utiliser. Ma règle générale est qu'il faut 10 heures d'utilisation avant de commencer à comprendre ces outils et leurs particularités. Citation d'un certain Ethan Mollick.

Il est conseiller de contextualiser.

Un excellent moyen pour commencer consiste souvent à donner une identité au modèle (ex : « Tu es journaliste à Libération », « Tu es un enseignant au lycée, etc.) afin de l’aider à adopter un positionnement et un vocabulaire adaptés.

Bien préciser le format de la réponse.

Au-delà du contexte de votre requête, il est également très utile de préciser la réponse attendue de la part de l’IA

Fournir quelques exemples pour obtenir des résultats précis.

Pour une tâche consistant à résumer en une phrase le contenu d’un amendement parlementaire, il a par exemple suffit de donner sept exemples au modèle dans la consigne initiale pour accroître significativement la qualité des résumés

Demander au modèle de procéder par étape.

, il est également possible d’améliorer considérablement la qualité des réponses en précisant dans le prompt qu’on souhaite que le modèle procède « étape par étape » pour élaborer sa réplique.

Sauvegarder les prompts qui marchent.

quand vous êtes amenés à effectuer des tâches répétitives, pensez à sauvegarder vos instructions afin de pouvoir les réutiliser, les améliorer au fil du temps… et les partager !

Lire toute la note https://vivreaveclia.substack.com/p/une-introduction-au-prompting

Transcription libre

Je découvre le projet Scribe (https://scribe.cemea.org/), développés par les Cemea pour faire de la transcription libre (as a service ou on premise). Ça s'appuie apparemment sur les données de Common Voice.

Marimo

Dans la première newsletter de Mario, Akshay Agrawal explique la genèse du projet.

When I was a PhD candidate, working on embeddings for machine learning and visualization, I used Jupyter notebooks almost daily — they were useful, but also very frustrating. Having seen engineers invent the future at Google Brain, I was convinced that there must be a way to build a better programming environment for working with data — one that made data tangible and actionable, while also solving the long list of problems that notebooks suffer from.

Akshay Agrawal ne manque pas d'ambition pour Mario :

Today, marimo is open source, and we’re dedicated to making it the best programming environment for doing research and communicating it; running computational experiments and scaling them; and learning computer science and teaching it.

IA et électricité

Dans The Atlas of AI, Kate Crawford parlait déjà des besoins de l'IA en électricité. À l'époque, je pensais qu'elle exagérait un peu. Aujourd'hui, le sujet est devenu mainstream.

Pour d’autres, miser sur l’apparition d’une telle électricité illimitée et décarbonée est un pari dangereux et une fuite en avant. Voire une ironie cruelle, à l’heure ou des apôtres de l’IA clament qu’elle peut « sauver le climat ». « Nous ne pouvons pas générer plus d’énergie par magie. Il faut arrêter de mettre de l’IA générative partout et réduire sa consommation, immédiatement », a tweeté Sasha Luccioni, de la start-up d’IA Hugging Face.

Lire l'article d'Alexandre Piquard dans Le Monde : https://www.lemonde.fr/economie/article/2024/02/08/l-explosion-de-la-demande-d-electricite-liee-a-l-ia-a-deja-des-consequences-locales_6215368_3234.html

Datatouille

@cquest@amicale.net est taquin : https://amicale.net/@cquest/111892288623656883

Poubellocene

Dans Le Monde, Claire Legros synthétise les recherches récentes autour des déchets. L'article est plein de références qui ont l'air passionnantes.

le déchet, à la croisée de l’intime et du collectif, est une affaire d’affect autant que de technique et surtout un « matériau politique, par sa présence dans l’espace public et ses effets, mais aussi par les choix qu’il impose », souligne la socio-anthropologue Nathalie Ortar, l’une des coordinatrices de l’ouvrage collectif Jeux de pouvoir dans nos poubelles.

Jusqu’à la fin du XIXe siècle, en effet, la notion de déchet telle qu’on l’entend aujourd’hui n’existe pas.

C'est l'invention des déchets chimiques qui met fin à la réutilisation des déchets comme engrais.

A partir de la seconde moitié du XIXe siècle apparaissent de nouveaux engrais fossiles ou chimiques, comme le guano, le nitrate de soude et les phosphates, qui vont progressivement remplacer les boues urbaines et la « poudrette » des fosses d’aisance dans le domaine agricole.

Avec le développement de l’hygiénisme, les ordures sont enfermées dans des boîtes, bientôt appelées poubelles, puis éloignées dans de vastes dépotoirs creusés en périphérie des villes. Les excréments, de leur côté, sont rejetés dans les nouveaux systèmes de tout-à-l’égout et finissent souvent dans les rivières.

« Les pratiques de recyclage peuvent être intéressantes à condition que soient remises en cause les logiques de surconsommation, car, sinon, elles tendent à les aggraver en encourageant plutôt une forme d’effet rebond et de désinhibition. Les meilleurs élèves du recyclage, comme la Suède ou l’Allemagne, sont aussi les pays qui produisent le plus de déchets », regrette Baptiste Monsaingeon.

Lire l'article https://www.lemonde.fr/idees/article/2024/02/02/le-poubellocene-ou-la-folle-histoire-de-l-ere-des-dechets_6214466_3232.html

Notes

La yearnote de Thomas Parisot (https://détour.studio/yearnotes/4/)
La weeknote de @tk@social.apreslanu.it : https://write.apreslanu.it/weeknotes/2024w05

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknotes 29

4 février 2024

IA et journalisme

Le New York Times crée une équipe pluridisciplinaire pour explorer les possibilités de l'IA générative pour le journal.

On ne sait pas encore vraiment comment utiliser intelligemment l'IA générative dans la le journalisme mais je pense que créer une petite équipe en mélangeant les compétences tech et éditoriale, c'est la meilleure manière d'expérimenter.

https://www.theverge.com/2024/1/30/24055718/new-york-times-generative-ai-machine-learning

Faudra-t-il des méga bassines pour l'IA ?

Un papier de recherche publié en 2023 sur ArXiv évalue les besoins en eau de l'IA.

training GPT-3 in Microsoft's state-of-the-art U.S. data centers can directly evaporate 700,000 liters of clean freshwater, but such information has been kept a secret.

More critically, the global AI demand may be accountable for 4.2 — 6.6 billion cubic meters of water withdrawal in 2027, which is more than the total annual water withdrawal of 4 — 6 Denmark or half of the United Kingdom.

https://arxiv.org/abs/2304.03271

Modern Polars

J'ai toujours pas eu l'occasion d'utiliser Polars en vrai mais j'aimerais bien. Kevin Heavey montre que Polars a pas mal d'avantages par rapport à Pandas.

https://kevinheavey.github.io/modern-polars/

Le zoo de l'IA

La revue d'anthropologie Terrain lance un call for papers pour un numéro consacré au « bestiaire de l'IA ».

Perceptron, Eliza, MYCIN, Bob, Clippy, Infobot, SmarterChild, Siri, Alexa, Image Net, espace latent, DeepDream, GAN, Zoetrope, Jax, GPT2, TensorFlow, Deep Fake, Colab, Disco Diffusion, TPU, Dall-E, Prompt, ChatGPT, Bard, Claude, Laion, Ernie, Stable Diffusion, Lora, Bark, Midjourney, etc. The list of material, conceptual and imaginary entities created by techniques of Artificial Intelligence, which have gradually become part of our daily lives, is growing ever longer, forming a gigantic zoo. Hence the ambition of this special issue: if we had to make a bestiary of AI systems, what form should it take?

Let's face it, we evolve within this great artificial zoo, testing quite hastily some of these systems, curiously equipped with the wrong theories and a whole host of pre-conceptions or misconceptions about intelligence, the non-human, the living and the non-living.

On est toujours dans l'ambiguïté entre prêter des qualités humaines aux systèmes d'IA tout en voulant garder une distinction homme-machine.

These AI systems have a name, they are equipped with a power to act modelled on human, animal or monstrous beings, and sometimes with a physical appearance inspired by such entities. But as soon as it's time for reasonable people to make a real decision about these entities, we are careful not to grant them a vital principle, sentience, intelligence or subjectivity. “We know they're only machines, but still...” perhaps because, through them, those faculties we too readily attribute to human beings can be put back into play.

J'ai hâte de voir ce que ça donnera.

DuBois Challenge

La Data Visualization Society lance le DuBois challenge pour reproduire les œuvres de W. E.B. Du Bois avec des outils modernes.

https://www.linkedin.com/feed/update/urn:li:activity:7159274428558626816

Weeknote 28

27 janvier 2024

JO et qualité de l'eau

Mathieu Lehot (@math_lehot@mastodon.zaclys.com) s'est plongé dans les données de qualité de l'eau de la Seine.

https://www.francetvinfo.fr/les-jeux-olympiques/paris-2024/enquete-franceinfo-paris-2024-pollution-trop-elevee-normes-non-respectees-ce-que-revelent-les-analyses-de-la-qualite-de-l-eau-de-la-seine_6173826.html

Palettes

En R, @emilhvitfeldt@fosstodon.org a ajouté de nombreuses palettes à son package {paletteer}

https://fosstodon.org/@emilhvitfeldt/111801917437255235

En JS, je découvre dicopal développé par @neocarto@vis.social.

https://observablehq.com/@neocartocnrs/dicopal-library

Un nouveau kernel R pour Jupyter

Romain François (@romainfrancois@mastodon.social), très connu dans la communauté R, s'est associé à QuantStack, une boîte de pythonistes très impliqués dans le projet Jupyter, pour développer un nouveau kernel R pour Jupyter. Ça a l'air très prometteur.

Today, we, a collaborative team led by Romain François and supported by QuantStack, are thrilled to announce the initial release of Xeus-R, a future-proof Jupyter kernel for R. Xeus-R builds upon the components of Xeus to facilitate the use of R in Jupyter notebooks and already supports typical capabilities: R code execution, inspection, completion, and contextual help.

The recent advancements in support for WebAssembly in the R world led by the WebR project, the flexible design of Xeus, and the rise of JupyterLite all contribute to our strong belief that Xeus-R has the potential to deliver Jupyter in-browser experience for data scientists using R.

https://blog.jupyter.org/meet-xeus-r-a-future-proof-jupyter-kernel-for-r-1adc5fdd09ab

Newletters

Mathilde Saliou (@mathildesaliou@piaille.fr), journaliste à Next et autrice de TechnoFeminisme, lance une nouvelle newsletter intitulée Technoculture.

https://piaille.fr/@mathildesaliou/111764426001809501

Pseudonymisation des décisions de justice

Quel plaisir de découvrir que le dernier épisode du Code a changé, le podcast de Xavier de la Porte, porte sur le projet de pseudonymisation des décisions de justice de la Cour de cassation, un projet que j'ai accompagné depuis le début dans mes précédentes fonctions à Etalab.

J'avais rencontré Camille Girard-Chanudet au début de sa thèse, au moment où elle cherchait un terrain d'enquête. Son travail, qui montre le rôle central des annotatrices.

Je suis assez admiratif de comment en quelques années la Cour de cassation a réussi à mettre en production un algo de pseudonymisation, en internalisant à la fois la data science et l'annotation.