pac — ratures

Weeknote 33

6 mars 2024

IA et élections

L'an dernier, Julia Angwin (@Julia@journa.host), la fondatrice de The Markup, avait annoncé qu'elle quittait le journal pour se consacrer à de nouveaux projets (voir la weeknote #4)

Cette semaine, elle a annoncé le lancement de Proofnews (@proofnews@mastodon.social).

Proof is into proving things! Our goal is to question, test, and investigate the most important issues of our time. We will always tell you what we know and what we don’t know (source).

Sur Masto, elle souligne que c'est un peu fou de lancer un journal en ce moment.

It’s a crazy time to start a news org. Journalism is fighting for its life right now. Revenues are collapsing as adtech robs news of its ability to monetize audiences. Tech platforms are deprioritizing news in their algorithms. Rapacious owners have hollowed out newsroom (source).

Comme chez The Markup, Julia Angwin revendique d'appliquer une méthode scientifique dans le journalisme:

we turn to the scientific method to guide our work. We develop hypotheses and test them. We build software to collect data and use statistics to analyze it. We consult with experts to examine our work. We release our data to the public (source).

Pour la première investigation, Julia Angwin a collaboré avec la sociologue Alondra Nelson pour tester la capacité des modèles d'IA à répondre à des requêtes concernant les élections.

Our first investigation is a collaboration with Alondra Nelson to examine how AI models respond to voter inquiries. The answer: not well. More than half the answers were rated inaccurate by evaluated by our expert testers (source) .

Proofnews et le AI Democracy Projects ont réuni 40 experts pour évaluer la manière dont les 5 LLM les plus importants répondent à 26 questions d'information concernant les élections. Les résultats ne sont pas très surprenants.

none of the five leading AI text models we tested — Anthropic’s Claude, Google’s Gemini, OpenAI’s GPT-4, Meta’s Llama 2, and Mistral’s Mixtral — were able to correctly state that campaign attire, such as a MAGA hat, would not be allowed at the polls in Texas under rules that prohibit people from wearing “a badge, insignia, emblem, or other similar communicative device relating to a candidate, measure, or political party appearing on the ballot,” calling into question AI models’ actual utility for the public.

On voit néanmoins des différences entre les modèles.

Although the testers found all of the models wanting, GPT-4 performed better than the rest of the models on accuracy, by a significant margin. Anthropic’s Claude model was deemed inaccurate nearly half of the time. And Google’s Gemini, Meta’s Llama 2, and Mistral’s Mixtral model all performed poorly, with more than 60% of their responses deemed inaccurate.

Un peu comme les mauvais élèves, les modèles de langage en font des tonnes quand ils ne savent pas :

Many AI models provided lengthy multipart answers that required extensive fact-checking. Inaccurate answers were, on average, longer than accurate ones. And as a result of their wordiness, long answers often seemed plausible at first glance.

Sur le fond, on en revient toujours au même débat sur la confusion entretenue par les éditeurs entre un modèle de langage et un modèle de connaissance de recherche d'informations ou de connaissance. Cela renvoie aux travaux d'Emily Bender (Voir https://dair-community.social/@emilymbender/109456744691732172 et ma réaction à la sortie de ChatGPT https://hackmd.io/@pac/chatgpt).

L'article se conclut sur le risque d'érosion de la vérité

Much has been written about spectacular hypothetical harms that could arise from AI. And already in 2024 we have seen AI models used by bad actors to create fake images, fake videos, and fake voices of public officials and celebrities.

But the AI Democracy Projects’ testing surfaced another type of harm: the steady erosion of the truth by hundreds of small mistakes, falsehoods, and misconceptions presented as “artificial intelligence” rather than plausible-sounding, unverified guesses.

Lire l'article https://www.proofnews.org/seeking-election-information-dont-trust-ai/
Les données sont sur Github: https://github.com/ProofNews/aidp/tree/main

Marimo

L'équipe de Marimo lance Marimo.app, un notebook qui tourne dans le navigateur grâce à WASM.

We’ve created an online playground for marimo: try it out by opening our tutorial notebook or creating a new marimo notebook at https://marimo.new.

Our playground is powered by two emerging technologies. WebAssembly (or “WASM”), a binary instruction format that can be executed by modern web browsers, and Pyodide, a port of CPython to WASM. WASM makes it possible for web browsers to execute Python, C/C++, and Rust, eliminating the need to call out to remote machines. For this reason, marimo notebooks that run entirely in the browser are called WASM notebooks.

Je ne sais pas si ça peut être aussi bien qu'Observable mais ça devient vraiment intéressant.

When you take a moment to think about all this, it’s really quite magical ✨.

https://marimo.io/blog/newsletter-2

Archiver les algorithmes de recommandation

Le datalab de la BnF a organisé une journée sur l'archivage du web politique. La personnalisation des contenus par les plateformes pose des questions intéressantes pour l'archivage.

Les travaux présentés soulèvent également des questions concernant les pratiques d’archivage du web de la BnF et les silences des archives : la connaissance du fonctionnement des algorithmes des plateformes et de la façon dont ils façonnent et personnalisent l’expérience de chaque internaute, peut-elle nourrir la pratique d’archivage et la reconstitution du contexte de navigation dans les outils d’accès ? 4 A l’heure d’un web hautement personnalisé, devrait-on “rejouer” et donner à voir différentes versions du web, ou du moins quelques-unes de ces versions présentées à des usagers-types en employant la méthode des persona ?

florianhorrein (2024, 31 janvier). Vingt ans de web électoral. Web Corpora. Consulté le 26 février 2024, à l’adresse https://doi.org/10.58079/vq5n

Data center

Arrêt Sur image s'intéresse à la consommation énergétique de l'IA et ça a le mérite de faire réfléchir.

À l'heure où la presse s'extasie devant le nouveau gadget d'OpenAI, il est plus que temps de s'intéresser à la matérialité de l'IA. Le réseau mondial des data centers est une monstruosité énergétique en expansion constante, qui nous mène droit à la catastrophe.

Pendant que les chercheur·euses climatologues de l'IPCC supplient le capitalisme de diminuer de moitié ses émissions d'ici 2030 pour limiter la hausse des températures à 1,5°C, et alors que 2023 est l'année la plus chaude jamais enregistrée sur la planète, Sam Altman, PDG d'OpenAI, propose sa version de l'avenir : devant sa caste patronale réunie à Davos mi-janvier, il a calmement expliqué que son entreprise allait consommer beaucoup plus d'énergie que prévu, et que seule une ““percée” “technologique – la fusion nucléaire – permettrait de réaliser sa vision, qui consiste littéralement à recouvrir la surface de la Terre de data centers et de fermes solaires pour alimenter l'IA divine.

https://www.arretsurimages.net/chroniques/clic-gauche/le-data-center-va-manger-le-monde

Cahiers citoyens

Dans un long thread, l'archiviste Marie Ranquet (@MarieRanquet@mastodon.zaclys.com) revient sur la supposée destruction des Cahiers citoyens : https://mastodon.zaclys.com/@MarieRanquet/112019267160958568

SSPHub

Dans la newsletter SSPHub, @linogaliana@vis.social revient sur l'année 2023 en IA et data sciences. Il insiste notamment sur l'importance des bases de données vectorielles de type ChromaDB. J'ai pas eu le temps de tester mais ça a l'air intéressant.

https://ssphub.netlify.app/infolettre/infolettre_17/

Dataviz

En s'appuyant sur la base de données des personnes notables construite par Étienne Wasmer et al. (A cross-verified database of notable people, 3500BC-2018AD,https://www.nature.com/articles/s41597-022-01369-4 ), Jan Willem Tulp a construit une dataviz super intéressante qui permet de voir pour chaque année de l'histoire de l'humanité les personnes notables vivantes et leur âge. On peut facilement voir qui est contemporain de qui.

https://janwillemtulp.github.io/parallel-lives/

Weeknote 32

23 février 2024

Deepfakes, désinformation et élections

Les articles de presse sur le danger des deepfakes en période électorale se multiplient.

Je suis assez d'accord avec Meredith Whitaker (@Mer__edith@mastodon.world), présidente de la fondation Signal et fondatrice du AI Now Institute avec Kate Crawford, qui pense que c'est une diversion :

The election year focus on 'deep fakes' is a distraction, conveniently ignoring the documented role of surveillance ads—or, the ability to target specific segments to shape opinion. This's a boon to Meta/Google, who've rolled back restrictions on political ads in recent years.

Put another way, a deep fake is neither here nor there unless you have a platform + tools to disseminate it strategically.

Source : https://mastodon.world/@Mer__edith/111885056720284975

Lister des trucs qu'on ne fait pas

En lisant cet article sur le Éducation Data Hub (https://acteurspublics.fr/articles/leducation-nationale-enterre-son-projet-d-education-data-hub) , je me suis dit que ce serait une bonne idée de valoriser les choses qu'on ne fait pas. C'est aussi important de décider de ne pas faire quelque chose que de décider de le faire mais on a tendance à valoriser ceux qui décident de faire plutôt que ceux qui décident de ne pas faire.

Dans un monde fictif idéal, OpenAI aurait pu communiquer sur le choix de ne pas faire SORA (https://openai.com/sora), l'algo qui permet de générer des vidéos de synthèse à partir d'un texte.

Google pourrait communiquer sur le fait de ne pas faire Gemini Pro, l'outil qui permet de détecter le contenu d'une vidéo (https://fedi.simonwillison.net/@simon/111971103847972384).

Le bouche à oreille

Adrien Gombaud et Tom Février (@tomfevrier@mastodon.social) analysent la fréquentation des films semaine par semaine prochaine pour voir ceux qui bénéficient du bouche à oreille.

https://mastodon.social/@tomfevrier/111975256479555594

Médias

D'après @mathlehot@mastodon.zaclys.com, les chiffres de diffusion du Journal du Dimanche sont en chute libre : https://mastodon.zaclys.com/@mathlehot/111939832722337439

Geekeries

Apparemment, yt-dlp est un outil encore plus puissant que youtube-dl.

https://mastodon.xyz/@Julianoe/111963814501609068

Mastodon

Je trouve que la fonctionnalité « suivre un hashtag » de Mastodon marche super bien pour la veille. En suivant les bons hashtags, ça permet de repérer plein de choses. Je récupère pas mal de chose intéressantes avec le hashtag #disinformation. Dernier exemple en date, une enquête du Washington Post sur la stratégie de désinformation russe en Ukraine : https://www.washingtonpost.com/world/2024/02/16/russian-disinformation-zelensky-zaluzhny/.

Ailleurs

Weeknote de @tk@social.apreslanu.it : https://write.apreslanu.it/weeknotes/2024w07

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 31

15 février 2024

Dans The Atlantic, Adrienne LaFrance analyse l'idéologie de le techno-autoritarisme des patrons de la Tech.

Many Americans fret—rightfully—about the rising authoritarianism among MAGA Republicans, but they risk ignoring another ascendant force for illiberalism: the tantrum-prone and immensely powerful kings of tech.

Adrienne LaFrance compare le manifeste techno-optimiste de Marc Andreesden au manifeste futuriste de Marinetti.

In October, the venture capitalist and technocrat Marc Andreessen published on his firm’s website a stream-of-consciousness document he called “The Techno-Optimist Manifesto,” a 5,000-word ideological cocktail that eerily recalls, and specifically credits, Italian futurists such as Marinetti.

Les citations d'Andreessen sont effrayantes.

We believe in nature, but we also believe in overcoming nature. We are not primitives, cowering in fear of the lightning bolt. We are the apex predator; the lightning works for us.

To be clear, the Andreessen manifesto is not a fascist document, but it is an extremist one. He takes a reasonable position—that technology, on the whole, has dramatically improved human life—and warps it to reach the absurd conclusion that any attempt to restrain technological development under any circumstances is despicable.

Lire l'article https://www.theatlantic.com/magazine/archive/2024/03/facebook-meta-silicon-valley-politics/677168/

xsv ⚰️, xan 🐣

Il y a quelques années, j'ai commencé à utiliser xsv, un outil hyper rapide développé en Rust pour manipuler des csv en ligne de commande. Le développeur ne maintient plus le projet mais le Medialab l'a forké, ajouté plein de fonctionnalités et renommé en Xan.

Ça a l'air très cool.

https://github.com/medialab/xan

Du Bois challenge

@tomfevrier@mastodon.social relève le défi du Du Bois challenge

https://mastodon.social/@tomfevrier/111923695713849579

Observable Framework

Observable lance Observable Framework, un générateur de sites statiques pour générer des dashboards. Apparemment, on peut utiliser R, Python ou SQL pour le backend et du JavaScript pour le front.

C'est une alternative hyper interessante à Quarto Dashboard.

Voici la description de Mike Bostock.

With Framework, you can build the best data apps your team has ever seen. Framework combines the power of JavaScript on the front-end for interactive graphics with any language on the back-end for data preparation and analysis. Everything you need is at your fingertips: interactive charts and inputs, responsive grid layout, pleasing color themes, dark mode, keyboard-friendly navigation, blazing speed… and because it’s all code, there’s no limit to customization.

Sylvain Lesage (@severo@mastodon.social) a déjà expérimenté (https://mastodon.social/@severo/111936671570030173).

Autre bonne nouvelle : les utilisateurs qui disposent d'un compte gratuit peuvent de nouveau créer des notebooks privés. Cette fonctionnalité était passé en paywall en novembre 2022 malgré une vive protestation des utilisateurs.

https://observablehq.com/framework/
Lire l'article de Bostock : https://observablehq.com/blog/observable-2-0

Geekeries toujours

Maelle Salmon (@maelle@mastodon.social) a développé un package #Rstats pour convertir un Google Doc en Quarto Book.

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote #30

8 février 2024

Cartogrammes

Françoise Bahoken (@fbahoken@mapstodon.space) et Nicolas Lambert (@neocarto@vis.social) publient le code R pour réaliser des cartogrammes de Dorling et des cartogrammes par points.

Personnellement, depuis que j'ai découvert le cartogramme de Dorling, je trouve que c'est une représentation beaucoup plus intéressante que la carte choroplèthe. On évite le biais de représentation qui consiste à donner une plus grande importance aux entités avec une grande superficie.

Lire https://neocarto.github.io/dotcartogram/ (via https://mapstodon.space/@fbahoken/111851761672009705)

En JavaScript, on peut facilement faire les mêmes cartogrammes avec Bertin.js (https://github.com/neocarto/bertin) ou Geoviz (https://neocarto.github.io/geoviz/)

Prompt engineering

FipAddict (@fipaddict@piaille.fr) publie un guide de prompt engineering assez bien fait.

On y apprend qu'il faut une dizaine d'heures pour apprendre à parler avec un LLM.

Travailler avec l'IA est étrange et ne vient pas avec un manuel d'instructions. La seule façon de devenir bon dans l'utilisation de l'IA est donc de l'utiliser. Ma règle générale est qu'il faut 10 heures d'utilisation avant de commencer à comprendre ces outils et leurs particularités. Citation d'un certain Ethan Mollick.

Il est conseiller de contextualiser.

Un excellent moyen pour commencer consiste souvent à donner une identité au modèle (ex : « Tu es journaliste à Libération », « Tu es un enseignant au lycée, etc.) afin de l’aider à adopter un positionnement et un vocabulaire adaptés.

Bien préciser le format de la réponse.

Au-delà du contexte de votre requête, il est également très utile de préciser la réponse attendue de la part de l’IA

Fournir quelques exemples pour obtenir des résultats précis.

Pour une tâche consistant à résumer en une phrase le contenu d’un amendement parlementaire, il a par exemple suffit de donner sept exemples au modèle dans la consigne initiale pour accroître significativement la qualité des résumés

Demander au modèle de procéder par étape.

, il est également possible d’améliorer considérablement la qualité des réponses en précisant dans le prompt qu’on souhaite que le modèle procède « étape par étape » pour élaborer sa réplique.

Sauvegarder les prompts qui marchent.

quand vous êtes amenés à effectuer des tâches répétitives, pensez à sauvegarder vos instructions afin de pouvoir les réutiliser, les améliorer au fil du temps… et les partager !

Lire toute la note https://vivreaveclia.substack.com/p/une-introduction-au-prompting

Transcription libre

Je découvre le projet Scribe (https://scribe.cemea.org/), développés par les Cemea pour faire de la transcription libre (as a service ou on premise). Ça s'appuie apparemment sur les données de Common Voice.

Marimo

Dans la première newsletter de Mario, Akshay Agrawal explique la genèse du projet.

When I was a PhD candidate, working on embeddings for machine learning and visualization, I used Jupyter notebooks almost daily — they were useful, but also very frustrating. Having seen engineers invent the future at Google Brain, I was convinced that there must be a way to build a better programming environment for working with data — one that made data tangible and actionable, while also solving the long list of problems that notebooks suffer from.

Akshay Agrawal ne manque pas d'ambition pour Mario :

Today, marimo is open source, and we’re dedicated to making it the best programming environment for doing research and communicating it; running computational experiments and scaling them; and learning computer science and teaching it.

IA et électricité

Dans The Atlas of AI, Kate Crawford parlait déjà des besoins de l'IA en électricité. À l'époque, je pensais qu'elle exagérait un peu. Aujourd'hui, le sujet est devenu mainstream.

Pour d’autres, miser sur l’apparition d’une telle électricité illimitée et décarbonée est un pari dangereux et une fuite en avant. Voire une ironie cruelle, à l’heure ou des apôtres de l’IA clament qu’elle peut « sauver le climat ». « Nous ne pouvons pas générer plus d’énergie par magie. Il faut arrêter de mettre de l’IA générative partout et réduire sa consommation, immédiatement », a tweeté Sasha Luccioni, de la start-up d’IA Hugging Face.

Lire l'article d'Alexandre Piquard dans Le Monde : https://www.lemonde.fr/economie/article/2024/02/08/l-explosion-de-la-demande-d-electricite-liee-a-l-ia-a-deja-des-consequences-locales_6215368_3234.html

Datatouille

@cquest@amicale.net est taquin : https://amicale.net/@cquest/111892288623656883

Poubellocene

Dans Le Monde, Claire Legros synthétise les recherches récentes autour des déchets. L'article est plein de références qui ont l'air passionnantes.

le déchet, à la croisée de l’intime et du collectif, est une affaire d’affect autant que de technique et surtout un « matériau politique, par sa présence dans l’espace public et ses effets, mais aussi par les choix qu’il impose », souligne la socio-anthropologue Nathalie Ortar, l’une des coordinatrices de l’ouvrage collectif Jeux de pouvoir dans nos poubelles.

Jusqu’à la fin du XIXe siècle, en effet, la notion de déchet telle qu’on l’entend aujourd’hui n’existe pas.

C'est l'invention des déchets chimiques qui met fin à la réutilisation des déchets comme engrais.

A partir de la seconde moitié du XIXe siècle apparaissent de nouveaux engrais fossiles ou chimiques, comme le guano, le nitrate de soude et les phosphates, qui vont progressivement remplacer les boues urbaines et la « poudrette » des fosses d’aisance dans le domaine agricole.

Avec le développement de l’hygiénisme, les ordures sont enfermées dans des boîtes, bientôt appelées poubelles, puis éloignées dans de vastes dépotoirs creusés en périphérie des villes. Les excréments, de leur côté, sont rejetés dans les nouveaux systèmes de tout-à-l’égout et finissent souvent dans les rivières.

« Les pratiques de recyclage peuvent être intéressantes à condition que soient remises en cause les logiques de surconsommation, car, sinon, elles tendent à les aggraver en encourageant plutôt une forme d’effet rebond et de désinhibition. Les meilleurs élèves du recyclage, comme la Suède ou l’Allemagne, sont aussi les pays qui produisent le plus de déchets », regrette Baptiste Monsaingeon.

Lire l'article https://www.lemonde.fr/idees/article/2024/02/02/le-poubellocene-ou-la-folle-histoire-de-l-ere-des-dechets_6214466_3232.html

Notes

La yearnote de Thomas Parisot (https://détour.studio/yearnotes/4/)
La weeknote de @tk@social.apreslanu.it : https://write.apreslanu.it/weeknotes/2024w05

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknotes 29

4 février 2024

IA et journalisme

Le New York Times crée une équipe pluridisciplinaire pour explorer les possibilités de l'IA générative pour le journal.

On ne sait pas encore vraiment comment utiliser intelligemment l'IA générative dans la le journalisme mais je pense que créer une petite équipe en mélangeant les compétences tech et éditoriale, c'est la meilleure manière d'expérimenter.

https://www.theverge.com/2024/1/30/24055718/new-york-times-generative-ai-machine-learning

Faudra-t-il des méga bassines pour l'IA ?

Un papier de recherche publié en 2023 sur ArXiv évalue les besoins en eau de l'IA.

training GPT-3 in Microsoft's state-of-the-art U.S. data centers can directly evaporate 700,000 liters of clean freshwater, but such information has been kept a secret.

More critically, the global AI demand may be accountable for 4.2 — 6.6 billion cubic meters of water withdrawal in 2027, which is more than the total annual water withdrawal of 4 — 6 Denmark or half of the United Kingdom.

https://arxiv.org/abs/2304.03271

Modern Polars

J'ai toujours pas eu l'occasion d'utiliser Polars en vrai mais j'aimerais bien. Kevin Heavey montre que Polars a pas mal d'avantages par rapport à Pandas.

https://kevinheavey.github.io/modern-polars/

Le zoo de l'IA

La revue d'anthropologie Terrain lance un call for papers pour un numéro consacré au « bestiaire de l'IA ».

Perceptron, Eliza, MYCIN, Bob, Clippy, Infobot, SmarterChild, Siri, Alexa, Image Net, espace latent, DeepDream, GAN, Zoetrope, Jax, GPT2, TensorFlow, Deep Fake, Colab, Disco Diffusion, TPU, Dall-E, Prompt, ChatGPT, Bard, Claude, Laion, Ernie, Stable Diffusion, Lora, Bark, Midjourney, etc. The list of material, conceptual and imaginary entities created by techniques of Artificial Intelligence, which have gradually become part of our daily lives, is growing ever longer, forming a gigantic zoo. Hence the ambition of this special issue: if we had to make a bestiary of AI systems, what form should it take?

Let's face it, we evolve within this great artificial zoo, testing quite hastily some of these systems, curiously equipped with the wrong theories and a whole host of pre-conceptions or misconceptions about intelligence, the non-human, the living and the non-living.

On est toujours dans l'ambiguïté entre prêter des qualités humaines aux systèmes d'IA tout en voulant garder une distinction homme-machine.

These AI systems have a name, they are equipped with a power to act modelled on human, animal or monstrous beings, and sometimes with a physical appearance inspired by such entities. But as soon as it's time for reasonable people to make a real decision about these entities, we are careful not to grant them a vital principle, sentience, intelligence or subjectivity. “We know they're only machines, but still...” perhaps because, through them, those faculties we too readily attribute to human beings can be put back into play.

J'ai hâte de voir ce que ça donnera.

DuBois Challenge

La Data Visualization Society lance le DuBois challenge pour reproduire les œuvres de W. E.B. Du Bois avec des outils modernes.

https://www.linkedin.com/feed/update/urn:li:activity:7159274428558626816

Weeknote 28

27 janvier 2024

JO et qualité de l'eau

Mathieu Lehot (@math_lehot@mastodon.zaclys.com) s'est plongé dans les données de qualité de l'eau de la Seine.

https://www.francetvinfo.fr/les-jeux-olympiques/paris-2024/enquete-franceinfo-paris-2024-pollution-trop-elevee-normes-non-respectees-ce-que-revelent-les-analyses-de-la-qualite-de-l-eau-de-la-seine_6173826.html

Palettes

En R, @emilhvitfeldt@fosstodon.org a ajouté de nombreuses palettes à son package {paletteer}

https://fosstodon.org/@emilhvitfeldt/111801917437255235

En JS, je découvre dicopal développé par @neocarto@vis.social.

https://observablehq.com/@neocartocnrs/dicopal-library

Un nouveau kernel R pour Jupyter

Romain François (@romainfrancois@mastodon.social), très connu dans la communauté R, s'est associé à QuantStack, une boîte de pythonistes très impliqués dans le projet Jupyter, pour développer un nouveau kernel R pour Jupyter. Ça a l'air très prometteur.

Today, we, a collaborative team led by Romain François and supported by QuantStack, are thrilled to announce the initial release of Xeus-R, a future-proof Jupyter kernel for R. Xeus-R builds upon the components of Xeus to facilitate the use of R in Jupyter notebooks and already supports typical capabilities: R code execution, inspection, completion, and contextual help.

The recent advancements in support for WebAssembly in the R world led by the WebR project, the flexible design of Xeus, and the rise of JupyterLite all contribute to our strong belief that Xeus-R has the potential to deliver Jupyter in-browser experience for data scientists using R.

https://blog.jupyter.org/meet-xeus-r-a-future-proof-jupyter-kernel-for-r-1adc5fdd09ab

Newletters

Mathilde Saliou (@mathildesaliou@piaille.fr), journaliste à Next et autrice de TechnoFeminisme, lance une nouvelle newsletter intitulée Technoculture.

https://piaille.fr/@mathildesaliou/111764426001809501

Pseudonymisation des décisions de justice

Quel plaisir de découvrir que le dernier épisode du Code a changé, le podcast de Xavier de la Porte, porte sur le projet de pseudonymisation des décisions de justice de la Cour de cassation, un projet que j'ai accompagné depuis le début dans mes précédentes fonctions à Etalab.

J'avais rencontré Camille Girard-Chanudet au début de sa thèse, au moment où elle cherchait un terrain d'enquête. Son travail, qui montre le rôle central des annotatrices.

Je suis assez admiratif de comment en quelques années la Cour de cassation a réussi à mettre en production un algo de pseudonymisation, en internalisant à la fois la data science et l'annotation.

Écouter le podcast : https://www.radiofrance.fr/franceinter/podcasts/le-code-a-change/le-code-a-change-6-5342040

Mapstodon

Étienne Come a mis à jour sa cartographie des instances Mastodon.

On voit notamment l'importance de l'écosystème japonais sur Mastodon.

https://www.comeetie.fr/galerie/mapstodon2024/

Les données de la démocratie

Samuel Goeta (@samgoeta@mastodon.social) publie en février ''Les données de la démocratie: open data, pouvoir et contre-pouvoir'' chez C&F.

https://mastodon.social/@samgoeta/111811672463984598

Sparklines

La dernière version du package #rstats 'gt' permet de faire des sparklines facilement.

https://posit.co/blog/new-features-in-gt-0-10-0/

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknotes #27

22 janvier 2024

Mediapart s'investit dans le Fediverse et lance Mediapart.social. C'est une super nouvelle. On verra si d'autres médias suivent.

https://mediapart.social/about

Foot

Nicolas Mondon (@nmondon@vis.social) lance une newsletter sur l'analyse statistique du foot.

C'est peut être pas une bonne idée de recommander une newsletter Substack au moment où la plateforme est sous le feu des critiques mais les analyses de Nicolas sont toujours intéressantes.

https://pointu.substack.com/

Python Rgonomics

Emily Riederer présente quelques outils Python qui peuvent permettre aux utilisateurs de R de s'y retrouver.

The tips and tricks we learn to be hyper productive in a primary language are comfortable, familiar, elegant, and effective. They just feel good. Working in a new language, developers often face a choice between forcing their favored workflows into a new tool where they may not “fit”, writing technically correct yet plodding code to get the job done, or approaching a new language as a true beginner to learn it’s “feel” from the ground up.

If you told me you liked the New York’s Museum of Metropolitan Art, I might say that you might also like Chicago’s Art Institute. That doesn’t mean you should only go to the museum in Chicago or that you should never go to the Louvre in Paris. That’s not how recommendations (by human or recsys) work. This is an “opinionated” post in the sense that “I like this” and not opinionated in the sense that “you must do this”.

Emily apprécie notamment Polars pour la manipulation de données.

Data Wrangling: Although pandas is undoubtedly the best-known wrangling tool in the python space, I believe the growing polars project offers the best experience for a transitioning developer (along with other nice-to-have benefits like being dependency free and blazingly fast).

Évidemment, elle recommande aussi Quarto qui permet de garder l'esprit “plaintext computational notebooks” de RMarkdown.

Elle recommande aussi pdm et ruff que je n'ai jamais testés.

Marimo

J'avais parlé de Marimo il y a quelques semaines. Simon Willison trouve Marimo très prometteur.

I'm very impressed by first impressions of https://marimo.io/ – a brand new open source Python notebook implementation, a bit like Jupyter but with reactive cells as seen in https://observablehq.com/ – which means any edits you make to values or code (or a UI element) in a cell cause all dependent cells to update automatically

https://fedi.simonwillison.net/@simon/111745089939579216

Cédric Eyssette

Cedric Eyssette (@eysette@scholar.social) est un prof de philo un peu geek et fan de markdown. Il développe plein de petits outils super pratiques.

Il a notamment développé un lecteur de flux rss (https://eyssette.forge.aeif.fr/marknews/), un générateur de site (https://eyssette.forge.aeif.fr/markpage/) et un outil de carte mentale (https://mymarkmap.netlify.app/)

https://eyssette.github.io/

Ailleurs

note mensuelle de Richard Hanna (@supertanuki@toot.aquilenet.fr) : https://richardhanna.dev/notes/2024/2024-01-17.html
weeknote de Tam Kien (@tk@social.apreslanu.it) : https://write.apreslanu.it/weeknotes/2024w02

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 26

11 janvier 2024

Medialab,❤️, CSV

Via @paulanomalie@piaille.fr (https://piaille.fr/@paulanomalie/111731919920063056), je découvre la lettre d'amour au format CSV publiée par le Medialab.

https://medialab.sciencespo.fr/actu/a-love-letter-to-the-csv-format/

Bluesky

Sur Observable, il y a des gens qui développent des trucs assez cool pour Bluesky.

@hrbrmstr développe un outil qui analyse les liens partagés sur Bluesky développé par .

https://observablehq.com/@hrbrmstr/new-improved-urls-and-domains-from-the-bluesky-firehose

@aendra développe un outil qui analyse et exporte les publications d'un compte.

https://observablehq.com/@aendra/bluesky-backup-tool

Détecteur de clichés

Yann Guégan (@yanng@mastodon.social) a réparé son détecteur de clichés

https://dansmonlabo.com/2020/06/01/jai-repris-la-chasse-aux-cliches-dans-les-medias-et-voila-ce-que-jai-appris-1969/

2024, année électorale

La moitié de la population mondiale en âge de voter est appelée aux urnes lors de scrutins libres ou déjà joués d’avance.

En 2024, la population vivant dans des pays où auront lieu des élections s’élève à 4,1 milliards de personnes – soit la moitié des habitants de la planète. Des scrutins multiples (présidentiels, législatifs, régionaux, municipaux) seront organisés dans 68 pays.

https://www.lemonde.fr/international/article/2024/01/06/2024-annee-electorale-record_6209359_3210.html

Le New York Times revient sur le même sujet sous l'angle de la menace pour la démocratie.

https://www.nytimes.com/2024/01/09/business/media/election-disinformation-2024.html

Yihuidown

Yihui Xie, well-known in the R community as the creator of R packages such as R Markdown, knitr, blogdown, and bookdown, has been laid off from Posit, where he worked as a full-time software developer. Xie announced the layoff, which happened at the end of December, in a blog post this week.

Source : https://www.infoworld.com/article/3712061/posit-lays-off-r-markdown-knitr-creator-yihui-xie.html

Dans son blog post, Yihui exprime à la fois sa stupeur face à la brutalité de la décision et sa gratitude pour les 10 années passées chez Posit/RStudio.

Who is down? Me. After more than 10 years at RStudio/Posit, the time has come for me to explore other opportunities. A little over two weeks ago, I was told that I was laid off and my last day would be 2023-12-31.

https://yihui.org/en/2024/01/bye-rstudio/

Data sciences

Le cours de Lino Galiana (@linogaliana@vis.social) est entièrement open source : https://github.com/linogaliana/python-datascientist

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 25

16 décembre 2023

Python

Posit lance le package python Great tables. Ça a l'air pas mal.

https://posit.co/blog/introducing-great-tables-for-python-v0-1-0/

Biais algorithmique

une nouvelle étude scientifique conclut à un relatif biais à droite de l'algorithme de YouTube. En revanche, elle ne démontre pas d'exposition marquée aux contenus extrémistes, sauf chez les profils d'utilisateurs déjà les plus marqués à l'extrême, en particulier à l'extrême-droite.

Via @mathildesaliou@piaille.fr : https://piaille.fr/@mathildesaliou/111600259713820915

Retour en 1999

Richard Hannah (@supertanuki@toot.aquilenet.fr) veut revenir au web de 1999. Je découvre notamment le projet Gemini.

C’est le cas de Gemini, tout à la fois format et protocole (gemini://). Il est nécessaire d’utiliser un autre outil qu’un navigateur web pour pouvoir accéder au geminispace : ligne de commande ou logiciels à installer. Le contenu est exclusivement du texte formaté par une version simplifiée de Markdown. Quelques autres contraintes : pas d’entête, donc pas de cookies, et un maximum de un lien par ligne.

https://www.24joursdeweb.fr/2023/et-si-on-faisait-du-web-comme-en-1999-ou-presque/

OSINT

J'ai découvert récemment le podcast Mécanique du journalisme qui revient sur de grandes enquêtes journalistiques du point de vue du journaliste.

Je recommande la série d'épisodes sur l'empoisonnement de Navalny dans laquelle Eliot Higgins raconte la naissance de Bellingcat.

https://www.radiofrance.fr/franceculture/podcasts/mecaniques-du-journalisme-saison-5-guerre-chimique-en-syrie/laffaire-navalny-14-belling-cat-chasseurs-despions-en-chambre-9464876

NewPipe

J'utilise de plus en plus mon smartphone pour écouter de la musique et des podcasts, notamment sur YouTube. Je viens de découvrir l'appli NewPipe qui permet d'écouter YouTube ou d'autres plateformes de manière fluide. On peut facilement télécharger ou se créer des playlists sans avoir de compte YouTube/Google.

https://github.com/TeamNewPipe/NewPipe

LLM

Mozilla lance Llamafile pour transformer des modèles de langage en exécutable installable sur un ordinateur personnel.

https://github.com/Mozilla-Ocho/llamafile#readme

Quitter X/Twitter

La NPR a quitté Twitter en avril dernier. Apparemment, ça a eu un impact négligeable sur le trafic du site:

Six months later, we can see that the effects of leaving Twitter have been negligible. A memo circulated to NPR staff says traffic has dropped by only a single percentage point as a result of leaving Twitter, now officially renamed X, though traffic from the platform was small already and accounted for just under two percent of traffic before the posting stopped.

https://niemanreports.org/articles/npr-twitter-musk/

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

Weeknote 24

15 décembre 2023

Je suis toujours aussi fan du minimalisme de #writefreely. J'écris les notes depuis mon téléphone. C'est donc super agréable d'avoir une interface simple et fluide.

Le seul truc dommage, c'est que la date du post correspond à la date de création du draft plutôt qu'à la date de publication.

Emissions de CO2

@tomfevrier@mastodon.social s'est amusé à faire un compteur un peu flippant.

👉https://mastodon.social/@tomfevrier/111504862026860728

Test du Chi-Deux

@tk@social.apreslanu.it s'amuse à faire des tests du Chi Deux à la mano.

👉 https://write.apreslanu.it/weeknotes/2023w48.

Algo de la CNAF

La Quadrature du net (@LaQuadrature@mamot.fr) a obtenu la publication de l'algorithme de ciblage de la fraude de la CNAF.

Les Décodeurs ont publié un format pédagogique super bien fait en collaboration avec Lighthouse Reports : https://www.lemonde.fr/les-decodeurs/visuel/2023/12/04/comment-l-algorithme-de-la-caf-predit-si-vous-etes-a-risque-de-frauder_6203836_4355770.html

Carto

L'équipe de Codeur•euses en liberté développe CoCarto, un outil permettant l'édition collaborative de carte.

Dans la dernière lettre d'information (https://buttondown.email/cocarto), ils présentent le projet de suivi du plan vélo d'île-de-France réalisé avec CoCarto.

https://observatoire-vif.velo-iledefrance.fr/#region

IA générative

L'équipe de Contexte a organisé un hackathon interne sur l'utilisation de l'IA générative. Je pense que c'est une super idée pour appréhender le sujet de manière concrète et déconstruire les fausses idées.

Je retiens de la restitution :

En fait, l’impression générale est qu'aujourd'hui ChatGPT peut être comparé à un stagiaire pas très futé mais plein de bonne volonté : il fera toujours son possible pour accomplir sa tâche, mais il est nécessaire de repasser derrière lui parce qu’il ne comprend pas toujours bien ce qu’on lui demande et qu’il fait souvent des erreurs.

Lire l'article : https://about.contexte.com/notre-actualite/hackathon-ia-generative

Geoviz

J'ai pas encore eu le temps de rester Geoviz, la nouvelle librairie de Nicolas Lambert (@neocarto@vis.social), mais ça a l'air top.

https://observablehq.com/@neocartocnrs/geoviz

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)

IA et élections

Marimo

Archiver les algorithmes de recommandation

Data center

Cahiers citoyens

SSPHub

Dataviz

Lire aussi

Deepfakes, désinformation et élections

Lister des trucs qu'on ne fait pas

Le bouche à oreille

Médias

Geekeries

Mastodon

Ailleurs

xsv ⚰️, xan 🐣

Du Bois challenge

Observable Framework

Geekeries toujours

Cartogrammes

Prompt engineering

Transcription libre

Marimo

IA et électricité

Datatouille

Poubellocene

Notes

IA et journalisme

Faudra-t-il des méga bassines pour l'IA ?

Modern Polars

Le zoo de l'IA

DuBois Challenge

Lire aussi

JO et qualité de l'eau

Palettes

Un nouveau kernel R pour Jupyter

Newletters

Pseudonymisation des décisions de justice

Mapstodon

Les données de la démocratie

Sparklines

Mediapart.social

Foot

Python Rgonomics

Marimo

Cédric Eyssette

Ailleurs

Medialab,❤️, CSV

Bluesky

Détecteur de clichés

2024, année électorale

Yihuidown

Data sciences

Python

Biais algorithmique

Retour en 1999

OSINT

NewPipe

LLM

Quitter X/Twitter

Emissions de CO2

Test du Chi-Deux

Algo de la CNAF

Carto

IA générative

Geoviz