Weeknotes 2025 #5
Topic modeling et data maps
- Nomic Atlas permet d'analyser directement des datasets depuis HuggingFace : https://huggingface.co/blog/MaxNomic/explore-any-hugging-face-dataset-with-nomic-atlas
- Comment combiner Whisper et BERTopic par Marteen Grootendorst https://www.maartengrootendorst.com/blog/whisper/
- Intro au BERTopic par Aniketh Yadav : https://anikethyadav.info/flask/topic-modelling
- Plein de notebooks utiles dans le repo du bouquin Hands-On Large Language Models de Jay Alammar et Maarten Grootendorst : https://github.com/HandsOnLLM/Hands-On-Large-Language-Models/tree/main
IA générative
Margaret Mitchell s'énerve contre les outils d'écriture qui te poussent à utiliser l'IA générative.
I'm trying to write an academic paper, and nearly every application I'm using is not only offering Generative AI as an option for writing, but pushing it — pervading the design to the point where a simple misclick would make my content AI-generated.
Pressuring you to be like everyone else. By making it difficult for you NOT to think about using Generative AI — literally everything you highlight creates a push pop-up to use GenAI — You're hammered over the head to use it. It's like peer pressure, but from a tech corporation.
On est dans une phase où ça va devenir dur de ne pas utiliser l'IA générative embarquée dans les logiciels. Il va falloir revenir à des éditeurs de texte simples pour être tranquille.
Visualisation de zinzin
Je découvre une visualisation de Nadieh Bremer pour explorer l'historique d'un repo git.
Un exemple avec le repo de D3js : https://nbremer.github.io/ORCA/commit-history/?repo=d3
- https://www.linkedin.com/posts/nbremer_dataviz-chartist-d3-activity-7290364957110534145--_TZ
- Portfolio de Nadieh Bremer https://www.visualcinnamon.com/portfolio/
L'Insee innove
Pour diffuser des données infracommunales tout en respectant le secret statistique, l'Insee utilise désormais une méthode de perturbation plutôt qu'une méthode de masquage ou suppression.
La solution traditionnelle de « masquer » des cases dans les fichiers de données diffusés atteint ses limites : elle conduit à supprimer un très grand nombre de cases et la perte d’information est trop importante. Afin de dépasser ces limites, l’Insee mobilise désormais une nouvelle méthode de gestion de la confidentialité, dite des « clés aléatoires » (cell key method). Au lieu de masquer des cases, cette méthode consiste à « bruiter » légèrement les données d’origine avec une perturbation aléatoire, qui doit à la fois être suffisante pour garantir le secret et pas trop grande pour minimiser la perte d’information.
À titre d’illustration, pour la diffusion des statistiques des demandeurs d’emploi en 2021 à l’échelle des quartiers de la politique de la ville, le traitement du secret statistique a nécessité de blanchir plus de 3 000 cases du tableau de données sur environ 70 000 cases, soit une perte globale d’information de l’ordre de 5 %.
Inégalités
Une étude de la direction générale du finances publiques montre que les revenus des 0,1% les plus riches ont décollé en 20 ans.
le revenu des ultrariches a augmenté de 3 % par an hors inflation depuis 2003, alors que celui des autres Français progressait de 0,5 %, indique l’étude.
Pour eux, les traitements et salaires ne représentent que 35,5 % du total. L’essentiel de leurs ressources provient plutôt des dividendes et des plus-values tirés des capitaux dont ils sont propriétaires (47 %), des bénéfices des entreprises qu’ils détiennent (10,5 %) et de leur patrimoine foncier (3 %). Ces ultrariches ont ainsi bénéficié à plein du tonus des marchés financiers, notamment du CAC 40, l’indice vedette de la Bourse de Paris, qui a doublé entre 2003 et 2022, et de la hausse des prix de l’immobilier, qui a valorisé leur patrimoine.
Entre temps, leur taux d'imposition moyen est passé de 29,3 % à 25,7 % :(
- https://www.lemonde.fr/politique/article/2025/01/29/les-revenus-des-ultrariches-s-envolent-les-inegalites-se-creusent-selon-une-note-de-bercy_6522115_823448.html
- https://www.impots.gouv.fr/dgfip-analyses-revenus-et-patrimoine-des-foyers-les-plus-aises-en-france
Lire aussi
- https://next.ink/166950/renaud-chaput-si-nos-politiques-etudiaient-le-sujet-ils-viendraient-sur-mastodon/
- https://huggingface.co/blog/ethics-soc-7
- https://www.lemonde.fr/planete/article/2025/01/31/ofb-anses-ademe-les-agences-environnementales-publiques-sous-le-feu-roulant-de-la-droite-et-du-gouvernement_6524553_3244.html
PAC – @pac@mastodon.social
S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)