Weeknote 48
Élections américaines
Dans La vie des idées, le sociologue Daniel Sabbagh revient sur un paradoxe : d'un côté la question raciale a été au centre du débat de l'élection, de l'autre le clivage racial est moins fort qu'auparavant.
Carte de Cassini numérisée
L'IGN a mis en ligne une version entièrement numérisée du fond de carte Cassini.
L'histoire de la carte de Cassini est extraordinaire. Une famille qui sur trois générations construit ce qu'on appellerai aujourd'hui une “donnée de référence”, la première carte à l'échelle de la France en s'appuyant successivement sur des fonds publics, une souscription auprès de grandes familles quand l'Etat manque d'argent (toute ressemblance avec la période contemporaine...) puis une renationalisation au moment de la Révolution française quand l'Etat comprend le caractère stratégique de cette donnée de référence.
- https://piaille.fr/@MadameMollette/113571427461851556
- Explorer la carte : https://www.geoportail.gouv.fr/carte?c=2.8539167019866256%2C46.995126219934576&z=6&l0=BNF-IGNF_GEOGRAPHICALGRIDSYSTEMS.CASSINI%3A%3AGEOPORTAIL%3AOGC%3AWMTS%281%29&permalink=yes
- L'article Wikipedia raconte bien le temps et la détermination nécessaire à la construction d'une telle carte : https://fr.m.wikipedia.org/wiki/Carte_de_Cassini
Sur GitHub, Jean-Marc Viglino, ingénieur à L'IGN, met même à disposition une police de caractère Cassini avec les principaux symboles utilisés sur la carte.
Rstats
Je n'utilise plus beaucoup R ces derniers temps mais je suis encore un peu l'actualité. Je découvre que Posit développe un nouveau kernel R pour Jupyter dénommé ARK : https://github.com/posit-dev/ark qui est apparemment utilisé dans Positron (https://github.com/posit-dev/positron), l'interface qui devrait remplacer RStudio.
Mastodon
L'Insee s'est créé un compte sur Mastodon 🚀: @admin@social.numerique.gouv.fr/113589663659372134">https://mastodon.social/@admin@social.numerique.gouv.fr/113589663659372134 !
Podcasts 🎧
J'écoute pas beaucoup de podcasts en ce moment. J'ai quand même pris le temps d'écouter Le Code a changé avec Étienne Ollion qui explique comment utiliseret comment ne pas utiliser les LLMs en sciences sociales : https://www.radiofrance.fr/franceinter/podcasts/le-code-a-change/le-code-a-change-4-10-9709507
LLMs
Après avoir publié The Common Corpus, pleias publie ses premiers LLMs open source et respectueux du droit d'auteur
Training large language models required copyrighted data until it did not. Today we release Pleias 1.0 models, a family of fully open small language models. Pleias 1.0 models include three base models: 350M, 1.2B, and 3B parameters.
We also developed a specialized pipeline for addressing toxic and harmful content. As many existing tools work poorly with our multilingual data, which contain historical texts and OCR errors, we trained a custom toxicity classifier, which we used to remove harmful language about minoritized groups without over-filtering our corpus.
Pleias propose même une application de RAG à installer en local : https://github.com/Pleias/pleias_ScholasticAI
Maintenir un logiciel libre
@bzg@fosstodon.org revient sur ses 14 ans comme mainteneur d'Orgmode.
The first is that maintaining Org Mode isn't just about code, it's mostly about users.
The second lesson is that maintenance isn't just about technical choices, it's also about predictability.
Calendrier de l'avent
@datagouvfr@social.numerique.gouv.fr publie son traditionnel calendrier de l'avent : https://www.data.gouv.fr/fr/pages/noel/. On y découvre notamment la mise à disposition des données volumineuses au format parquet : https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/.
Rétrospective 2024
Mediapart propose une rétrospective de l'année 2024. Le format est super. Le contenu est plus flippant.
PAC – @pac@mastodon.social
S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)