ratures

Reader

Read the latest posts from ratures.

from le numérique est un champ de bataille

Je développe quelques informations glanées sur le web concernant le Project Nimbus. C’est une synthèse centrée sur le projet plutôt que les licenciements et sa controverse en tant que séquence. J’ai mis à la fin quelques pistes pour continuer à creuser les histoires qui pourraient être racontées et qui me sembleraient intéressantes.

Avec ce genre de billet, je cherche à savoir si j'arrive à formuler par écrit un sujet. N'hésitez donc pas à me signaler s'il y a des choses qui vous semble être de l'ordre de l'égarement ou s'il y a des informations complémentaires qui pourraient être pertinente pour mieux comprendre les choses.

ce qu’on sait du Project Nimbus

  • Le projet a été officialisé en 2021. Il s’agit d’un accord entre Israël et 2 entreprises US, Google et Amazon.
  • La valeur est de 1.22 USD.
  • La durée est de 7 ans.
  • C’est une prestation très large du service cloud.
  • Une partie concerne la mise en place d’un data center sur le territoire israélien ce qui permettrait à cet état de faire valoir une forme de souveraineté et d’échapper à un éventuel regard de l’Union européenne et de sa réglementation avancée sur la protection des données.
  • Une autre partie est la mise à disponibilité de services de consulting pour la connexion avec les services de Google déjà existant.
  • Le contrat stipule bien que l’armée sera aussi usagère de cette infrastructure.
  • L’infrastructure est ainsi faite pour que Google n’ait pas accès aux données et ne dispose pas d’un droit de regard sur les usages des technologies.
  • Cependant, les conditions d’utilisation empêchent théoriquement un usage à des fins de guerre ou de coercition.
  • Une clause amenée par le gouvernement israélien est l’impossibilité pour Google et Amazon d’annuler le contrat sous l’effet d’un boycott.

la réaction en interne

  • L’existence du projet suscite en interne des réactions vives, mais qui semblent autant minoritaires qu’isolées. Elles sont parfois médiatisées en donnant lieu à des articles. Cela entraine une réaction de l’entreprise autre qu’un durcissement rapide de la gestion des voix discordantes.
  • En 2022, Ariel Koren a été poussée dehors avec des pratiques vraiment douteuses. Elle revenait de congés maladie et avait été mutée au Brésil alors qu’elle vivait alors à San Francisco. Elle avait le choix entre démissionner et déménager dans les 3 semaines. La procédure, sous le regard de Google et d’un service tiers, a jugé que ce n’était pas des représailles à l’encontre de son activisme.
  • En 2022 également, Jack Poulson, qui était employé depuis 14 ans, démissionne à son tour en protestation du contrat.
  • En mars 2024, Eddie Hatfield avait fait une interpellation verbale pendant une conférence tech sponsorisée par une entreprise israélienne. Il a été licencié. Dans la foulée, Vidana Abdel Khalek, une employée du Trust and Safety, démissionne pour protester contre les pratiques de l’entreprise.
  • En avril 2024, une dizaine d’employé-e-s organisent un sit-in dans les locaux de New York City et Sunnyvale (CA). Ils iront jusqu’à occuper le bureau du CEO de Google Cloud. En tout 28 employé-e-s seront licencié-e-s sans que la participation aux manifestations soit nécessairement avérée.
  • Un élément difficile à appréhender est la place de la culture américaine. Il y a des différences notables en termes de : culture d’entreprise, attitude vis-à-vis de la colonisation du territoire palestinien, du sionisme et de l’antisémitisme. Sans parler également de la place de Google dans le mythe américain et du capitalisme numérique. Les États-Unis ont leur propre histoire faite de racisme et de ségrégation, mais également d’immigration et colonisation qui fait tout un gloubiboulga assez différent de la soupe mentale européenne.
  • Il faut également prendre en compte le climat économique actuel du marché de l’emploi dans le secteur numérique. Après une forte période d’embauches suite à l’exploitation de l’explosion des besoins en services permettant un travail massif à distance, l’ambiance est maintenant à un dégraissage (big layoff) pour atteindre les objectifs financiers de croissance économique et de rendements pour les actionnaires. Il faut également faire de la place pour de nouveaux investissements dans la bulle IA. Les employé-e-s du numérique, spécialement aux USA, voient une régression du rapport de force entre travail et capital. Les employé-e-s qui préfèrent se faire virer ou démissionner ont d’autant plus de courage bien que cela permette à peu de frais l’entreprise de s’éloigner discrètement d’une image d’entreprise à la pointe du progrès social et de continuer à rogner sur les marges.

cloud

  • Air du temps oblige, il est beaucoup question d’intelligence artificielle, mais il me semble que les problématiques de privacy, big data et cloud computing sont déjà bien assez importantes.
  • Le montant s’explique par la masse de données et le lieu de leur stockage pour éviter des transferts depuis des zones avec des régimes de protection plus strictes comme l’Europe.
  • Avoir des données personnelles ou individuelles en grande quantité est ce qui permet de faire du ciblage.
  • C’est aussi un prérequis pour une politique technocratique où les populations sont gouvernées du dessus comme dans de vastes simulations se rapprochant d’un jeu vidéo. Les citoyen-ne-s sont réduits en diverses lignes d’informations et si possible de chiffres, ce qui permettra des calculs et des simplifications. C’est toute l’ambition des techniques de machine learning ou d’intelligence artificielle. Dans ce contexte, les deux termes sont équivalents : réduire les individus à un petit nombre de valeurs utilisables. Par exemple, une probabilité d’être un membre de l’armée adverse et un autre indiquant l’importance dans la hiérarchie à partir des comportements sur les messageries sociales du type WhatsApp ou les données géographiques.
  • Le cloud computing est souvent ironiquement résumé par le déplacement de la propriété d’une ressource informatique. Là où habituellement, on achète un ordinateur ou un serveur, la fiction du cloud est celle d’une évaporation de cette ressource alors qu’elle se retrouve simplement déplacée dans un lieu éloigné. Sous couvert d’optimisation des ressources, cette mise à distance permet de cacher les coûts écologiques tout en concentrant le pouvoir.
  • Le cloud est également un modèle d’architecture très profitable. Il est difficile d’imaginer le contrat prendre fin en 2028 et tout l’enjeu stratégique pour les entreprises est de créer une situation de rente. Tout ce montage est largement thématisé dans la littérature sur le capitalisme de plateforme.
  • Enfin, le cloud permet à Israël d’utiliser des services grand public à des fins militaires et de surveillance. Par exemple, les employé-e-s de Google eux-mêmes soulignent que Google Photos permet de faire de la reconnaissance faciale sans créer directement une nouvelle brèche de privacy, mais en exploitant celle déjà énorme de l’accumulation de données personnelles par Google. Il n’y a pas vraiment de transfert de données ou de technologies seulement la location d’un service tiers. C’est aussi cela la magie du cloud.
  • Autant les big data que les technologies étiquetées « intelligence artificielle » sont tributaires de racines racistes et eugénistes (la phrénologie, Galton, Pearson, et Fischer) d’une part et de contrôle étatique d’autre part (la démographie comme contrôle politique et économique des populations). Un présupposé des dérivées de la reconnaissance faciale est la réduction des individus à des traits physiques lus par une machine. C’est une forme de déterminisme qui donne lieu à der formes d’oppression ainsi qu’une introduction invisible de biais idéologique dans une promesse de neutralité par effet de machine washing.
  • Ces technologies sont également gourmandes en ressources informatiques. Ce qui n’est pas sans rappeler les origines militaires de la Silicon Valley. Ce petit coin de Californie ne doit son existence et ses profits que par un besoin constant de l’appareil militaire US en technologie. Notamment pour assurer une forme de supériorité technologique d’une armée de métier amenant souvent une infériorité numérique sur le terrain.

Israël et Gaza

  • Actuellement, on ne sait pas grand-chose du contrat en lui-même. Il y a donc beaucoup de spéculation. Mais on peut le remettre dans le contexte dans la mise à disposition de technologies et de services à un État en conflit avec un autre. Ce conflit donne aujourd’hui lieu à un génocide qu’il est difficile de contester.
  • Gaza est un terrain d’expérimentation des technologies de surveillance et de guerre, de maintien de l’ordre et de propagande. C’était le cas avant l’escalade suite au 7 octobre.

interview des employé-e-s licencié-e-s

https://www.youtube.com/watch?v=rz8Y2NSPpXo

Cette vidéo est super pour mettre des visages et des voix sur les personnes qui luttent.

poursuivre ce chemin

  • Je ne vois pas trop quel intérêt à faire de nouveaux entretiens avec les employé-e-s qui ont quitté l’entreprise. Leurs propos sont déjà clairs et articulés. Dans un contexte francophone, j’aimerais bien savoir ce qu’il en est des employé-e-s qui travaillent sur le territoire européen ou qui en viennent.
  • Comment s’organisent ou non des employé-e-s d’autres entreprises fournissant des services et du matériel contribuant directement à une politique de surveillance et par extension à la mise en application d’une politique amenant à un génocide ?
  • Quels sont les modes d’action pour casser l’appareillage oppressif en tant que travailleur-euse du numérique ? Est-ce que visibiliser la continuité entre le quotidien des entreprises de services numériques à un paradigme technologique de gouvernementalité où tout tend vers le numérique et à une déshumanisation est suffisant ?
  • Quelles seraient les conséquences d’une rupture du contrat entre Google, Amazon et l’administration israélienne ? La somme doit être conséquente, mais de quel ordre sachant au regard de la richesse des deux entreprises au pinacle d’un oligopole.

références bibliographiques

Ce sont quelques références qui ont traversé mon esprit lors de la compilation de ces quelques notes.

  • Acemoglu, Daron, and Simon Johnson. 2023. Power and Progress: Our Thousand-Year Struggle over Technology and Prosperity. First edition. New York: PublicAffairs.
  • Crawford, Kate. 2021. Atlas of AI: Power, Politics, and the Planetary Costs of Artificial Intelligence. New Haven: Yale University Press.
  • Doctorow, Cory. 2020. How to Destroy Surveillance Capitalism. First edition. New York, NY: Stonesong Digital.
  • Hu, Tung-Hui. 2015. A Prehistory of the Cloud. Cambridge, Massachusetts: The MIT Press.
  • Martin, Olivier. 2023. Chiffre. Collection Le Mot Est Faible. Paris: Anamosa.
  • McQuillan, Dan. 2022. Resisting AI: An Anti-Fascist Approach to Artificial Intelligence. Bristol, UK: Bristol University Press.
  • Raji, Inioluwa Deborah, I. Elizabeth Kumar, Aaron Horowitz, and Andrew D. Selbst. 2022. “The Fallacy of AI Functionality.” In 2022 ACM Conference on Fairness, Accountability, and Transparency, 959–72. https://doi.org/10.1145/3531146.3533158.
  • Scott, James C. 2020. Seeing like a State: How Certain Schemes to Improve the Human Condition Have Failed. Veritas paperbacks edition. New Haven: Yale University Press.
  • Tréguer, Félix. 2023. Contre-Histoire d’Internet, Du XVe Siècle À Nos Jours. Marseille: Agone éditeur.
  • Zuboff, Shoshana. 2019. The Age of Surveillance Capitalism: The Fight for a Human Future at the New Frontier of Power. First edition. New York: PublicAffairs.

  • type : #veille
 
Lire la suite...

from le numérique est un champ de bataille

J’avais besoin de me faire une petite synthèse concernant le licenciement de 28 employé-e-s de Google car ce que je lisais partait dans tous les sens à grands coups de paniques autour de l’intelligence artificielle. Mon intention était de manifester quelques chemins que j’aimerais voir apparaître et de réfléchir en faisant des phrases. Cela peut toujours dépanner celleux qui regardent la chose de loin pour éviter quelques confusions.

ce qu’il s’est passé

  • Mardi 16 avril 2024, des employé-e-s de la grande entreprise Google, et membres du collectif No Tech For Apartheid, ont organisé une manifestation à l’intérieur des locaux.
  • L’intention était de sensibiliser leurs collègues à propos d’un contrat commercial entre Google et l’État israélien. C’est le fameux Project Nimbus. Selon elleux, c’est une ligne rouge éthique qui est vécue comme la participation de l’entreprise au génocide à Gaza.
  • 28 employé-e-s se font alors licencier après des arrestations et de la garde à vue pour certain-e-s alors que d'autres ne semblent qu'avoir adressé-e-s la parole aux protestataires.

les notes en vrac

sur le projet

  • Le Project Nimbus est un accord commercial de 1,3 milliard de dollars US entre l’état israélien et des entreprises américaines, Google et Amazon, pour une prestation d’infrastructure cloud ainsi que du conseil en modernisation. L’accord date de 2021 et a une durée de 7 ans. Depuis son commencement, il suscite des inquiétudes et des mobilisations au sein de l’entreprise.
  • Pas de lien avéré pour le moment avec Lavender, le système permettant à l’armée israélienne d’établir une large liste d’individus à abattre en faisant fi des victimes civiles. À ne pas confondre avec The Gospel qui est le système qui détermine les bâtiments à détruire. Les deux systèmes optimisent, entre autres, l’étalement des bombardements dans le temps pour éviter des effets de creux et d’entonnoirs.
  • Il faut certainement inscrire le contrat dans le triptyque infernal : big data, cloud computing, et intelligence artificielle.
  • D’ailleurs même si on trouve des mentions de technologies commercialisées comme étant de l’IA, la problématique du paradigme de contrôle et de gouvernance introduite par l’informatisation et la quantification reste d’actualité. Looking at you la CNAF.
  • On peut retrouver la thématique de l’alignement entre le capitalisme de plateforme et les visions technocratiques des États modernes. Notamment l’importance du cloud computing dans les infrastructures de surveillance.
  • À mon avis, il y a une piste sur le rôle des grandes entreprises comme prolongement de la diplomatie. Confier une infrastructure critique à une organisation étrangère, plus particulièrement états-unienne, après les révélations de Snowden ainsi que les différentes mesures prises, par exemple par l’Europe, sur la protection des données, laisse songeur. Cohérence avec la politique du gouvernement US.
  • On y retrouve les nuances sémantiques concerne la vente d’armes au gouvernement et non à l’armée.
  • Contrairement à Maven qui impliquait le Pentagone, il n’y a pas encore eu de vague de protestation massive et médiatisée notamment avec des relais dans l’opinion publique. Le projet a alors disparu des radars et sa principale porteuse, Fei-Fei Li est retournée au monde académique. Cela dit quand même quelque chose sur les lignes de démarcation au sein de l’entreprise. La surveillance de masse, c’est non, mais un génocide, c’est emoji shrug.

sur les licenciements

  • Le licenciement expéditif de 28 employés ainsi que le ton autoritaire de l’email montrent une évolution du contrôle au sein de l’entreprise.
  • Cet entretien téléphonique de Marisa Kabas avec Hasan Ibraheem, un des employé-e-s licencié-e-s, est une lecture très intéressante et plus riche que la plupart des articles de presse qui font un travail touristique de synthèse.
  • On pourrait mettre cela en contraste avec :
    • démission de Ariel Koren en 2022 après une série de protestations écrites et des mobilisations sur les canaux de communications internes concernant le même Project Nimbus.
    • démission de Meredith Whittaker en 2019 suite aux Google Walkouts visant un manque d’actions concrètes contre les discriminations sexistes au sein de l’entreprise.
    • démission de Timnit Gebru en 2020 suite à la publication du célèbre article signé avec 3 autres co-autrices On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? dénoncant l’exagération de la pertinence et les dérives éthiques de l’IA notamment les Large Language Models sur le plan de la consommation de ressources naturelles par exemple.
  • L’importance géographique du lieu de travail et retour de bâton du work from home. virulence de la sanction. Visibilisation de la dimension politique du télétravail au regard d’un esprit de contrôle.
  • La sociologie des employé-e-s qui semblent à la fois jeunes, à la fois en âge, mais aussi en ancienneté, et racisé-e-s.
  • Est-ce qu’on va voir enfin revenir la question du syndicalisme des travailleuses et travailleurs du numérique ?

email de licenciement

Serious consequences for disruptive behavior

Googlers,

You may have seen reports of protests at some of our offices yesterday. Unfortunately, a number of employees brought the event into our buildings in New York and Sunnyvale. They took over office spaces, defaced our property, and physically impeded the work of other Googlers. Their behavior was unacceptable, extremely disruptive, and made coworkers feel threatened. We placed employees involved under investigation and cut their access to our systems. Those who refused to leave were arrested by law enforcement and removed from our offices.

Following investigation, today we terminated the employment of twenty-eight employees found to be involved. We will continue to investigate and take action as needed.

Behavior like this has no place in our workplace and we will not tolerate it. It clearly violates multiple policies that all employees must adhere to — including our Code of Conduct and Policy on Harassment, Discrimination, Retaliation, Standards of Conduct, and Workplace Concerns.

We are a place of business and every Googler is expected to read our policies and apply them to how they conduct themselves and communicate in our workplace. The overwhelming majority of our employees do the right thing. If you’re one of the few who are tempted to think we’re going to overlook conduct that violates our policies, think again. The company takes this extremely seriously, and we will continue to apply our longstanding policies to take action against disruptive behavior — up to and including termination.

You should expect to hear more from leaders about standards of behavior and discourse in the workplace.

Source : The Verge

 
Lire la suite...

from pac

Après deux ou trois semaines d'absence, je tente de reprendre le rythme des weeknotes.

Quarto et HuggingFace

On peut désormais héberger des sites Quarto sur HuggingFace Spaces : https://quarto.org/docs/publishing/hugging-face.html

Journalisme de données

Après 3 ans passé aux Échos, @tomfevrier@mastodon.social rejoint Bloomberg. Dans un fil Mastodon, il revient sur ses principales réalisations pour Les Echos et il y a quelques pépites.

Je recommande notamment un incroyable format pour expliquer le mode de scrutin des élections législatives en France : https://media.lesechos.fr/infographie/comprendre-legislatives/

Fossé des genres

Dans Le Monde, Marie Charrel analyse le fossé dss genres qui se creuse chez les jeunes générations.

Une série d’études et d’enquêtes publiées dans la presse anglo-saxonne ont ausculté ce déroutant phénomène. Lire aussi la notion : Article réservé à nos abonnés « Boomeurs », ou les « nouveaux » vieux schnocks On pourrait le résumer ainsi : les filles sont de plus en plus progressistes, tandis que les garçons du même âge penchent de plus en plus du côté conservateur.

https://www.lemonde.fr/idees/article/2024/04/04/partout-un-fosse-potentiellement-dramatique-se-creuse-entre-les-jeunes-femmes-et-les-jeunes-hommes_6225866_3232.html

Droit d'accès aux documents administratifs

@alphoenix a porté pendant 3 ans une demande d'accès à l'indice de position sociale (IPS) des collèges et lycées.

Aujourd'hui, ces données ont été utilisées pour le rapport parlementaire sur l'enseignement privé.

En vrac

Dans Le Monde, Louise Couvelaire analyse le mal être des musulmans en France.

Ailleurs

 
Lire la suite...

from pac

Dataviz

Nicolas Lambert (@neocarto@vis.social) continue le développement de Geoviz. On peut maintenant faire des grilles de densité sur une carte sous forme de carrés ou d'hexagones grâce à la fonction tool.dotstogrid().

#LLM et SUV

Petite réflexion personnelle :

Les LLM sont au machine learning ce que les SUV sont aux voitures.

Pour un usager final, l'usage d'un service s'appuyant sur un LLM consomme beaucoup de ressources (énergétiques) pour un résultat qu'on peut souvent obtenir presque aussi facilement avec un moteur de recherche.

Pour un data scientist, l'usage d'un LLM consomme beaucoup de ressources (financières et énergétiques) pour un résultat qu'on peut très souvent obtenir avec un modèle plus frugal.

Ingérences étrangères

Dans l'émission En quête de politique, Thomas Legrand reçoit Maxime Audinet et Elsa Vidal pour parler de l'influence du Poutinisme en France.

Économie

L'économiste Angus Deaton a eu un éclair de lucidité.

Il souligne l'absence de réflexion dans la profession sur le pouvoir :

Our emphasis on the virtues of free, competitive markets and exogenous technical change can distract us from the importance of power in setting prices and wages, in choosing the direction of technical change, and in influencing politics to change the rules of the game. Without an analysis of power, it is hard to understand inequality or much else in modern capitalism.

Cela va de paire avec une absence de réflexion éthique :

We are technocrats who focus on efficiency. We get little training about the ends of economics, on the meaning of well-being—welfare economics has long since vanished from the curriculum—or on what philosophers say about equality.

Il critique aussi le tournant empirique :

the currently approved methods, randomized controlled trials, differences in differences, or regression discontinuity designs, have the effect of focusing attention on local effects, and away from potentially important but slow-acting mechanisms that operate with long and variable lags. Historians, who understand about contingency and about multiple and multidirectional causality, often do a better job than economists of identifying important mechanisms that are plausible, interesting, and worth thinking about, even if they do not meet the inferential standards of contemporary applied economics.

Je trouve ça intéressant qu'un économiste aussi reconnu ait autant de recul et de lucidité sur sa profession.

Appel de Tim Berners-Lee

Pour les 35 ans du Web, Tim Berners Lee publie un appel à réinventer le web.

5 years ago, when the web turned 30, I called out some of the dysfunction caused by the web being dominated by the self-interest of several corporations that have eroded the web’s values and led to breakdown and harm. Now, 5 years on as we arrive at the Web’s 35th Birthday, the rapid advancement of AI has exacerbated these concerns, proving that issues on the web are not isolated but rather deeply intertwined with emerging technologies.

L'explication est à chercher du côté du capitalisme.

Leadership, hindered by a lack of diversity, has steered away from a tool for public good and one that is instead subject to capitalist forces resulting in monopolisation. Governance, which should correct for this, has failed to do so, with regulatory measures being outstripped by the rapid development of innovation, leading to a widening gap between technological advancements and effective oversight.

Il appelle notamment à aider les citoyennes et citoyens à se réapproprier leurs données.

Part of the solution is the Solid Protocol, a specification and a movement to provide each person with their own ‘personal online data store’, known as a POD.

Droite tech

L'historienne Maya Kandel publie une série d'articles dans Mediapart sur la droite américaine. Dans l'article sur la « droite tech », elle analyse la trajectoire idéologique des grands patrons de la Silicon Valley.

Elle explique notamment leur droitisation par la politique anti-trust de Joe Biden.

Mais c’est aussi la politique antitrust de Joe Biden qui a accéléré ces évolutions : la plus grande offensive de ces dernières décennies, même si ses résultats sont minces à ce stade, se déploie en particulier contre les géants de la Silicon Valley.

Le revirement des grands patrons de la tech est impressionnant.

En 2016, la présence de Peter Thiel à la convention républicaine qui intronisait Trump avait choqué. Aujourd’hui, le basculement vers la droite des titans de la Silicon Valley est devenu banal. David Sacks, qui avait soutenu Hillary Clinton en 2016, Marc Andreessen, soutien d’Obama en 2008, financent des candidats républicains mais aussi le complotiste Robert Kennedy Jr., également soutenu par Jack Dorsey, le fondateur de Twitter.

Maya Kandel évoque aussi le fetichisme du QI pour justifier les inégalités.

Comme à d’autres moments de l’histoire américaine, où l’idée d’une hiérarchie raciale servait à justifier la ségrégation et les lois des quotas, les théories sur le QI permettent de rationaliser l’inégalité capitaliste : si certains individus ou groupes sont destinés à être au bas de l’échelle en raison d’un QI inférieur, il n’y a pas de problème d’accumulation obscène des richesses par quelques autres.

En vrac

 
Lire la suite...

from pac

Temperature des oceans

Le Financial Times a visualisé la température des océans sur les 365 derniers jours.

Oceans marked 365 straight days of record-breaking global sea surface temperatures this week, fuelling concerns among international scientists that climate change could push marine ecosystems beyond a tipping point.

L'article contient à la fois une carte de chaleur des océans et une visualisation impressionnante de la température moyenne au cours de l'année.

The Common Corpus

Pierre-Carl Langlais, dont j'ai déjà parlé plusieurs fois dans mes weeknotes, vient de publier avec d'autres un corpus de 500 milliards de mots sans droits d'auteur pour pouvoir entraîner des LLM.

C'est un énorme accomplissement et ça montre qu'on n'est pas obligé d'utiliser CommonCrawl ou Oscar pour constituer de gros corpus.

Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content from Common Crawl and other more dubious sources.

Répertoires privés sur Github

If your repo has ever been public there's a chance it was archived by https://www.softwareheritage.org/ and ended up in The Stack training data: https://huggingface.co/spaces/bigcode/in-the-stack

Pour savoir quels répertoires ont été publics un jour, Simon Willison a développé un petit notebook Observable : https://observablehq.com/@simonw/github-public-repo-history

En parallèle, on peut regarder si nos répertoires sont inclus dans le dataset de BigCode : https://huggingface.co/spaces/bigcode/in-the-stack

Le Monde et OpenAI

Je n'ai pas vu beaucoup de réactions à l'annonce du contrat entre Le Monde et OpenAI et je trouve ça inquiétant. Ça devrait susciter plus de réactions et d'inquiétudes.

Pour Arrêt sur Images, Pauline Bock souligne que ça n'est sans doute pas une bonne affaire pour la profession.

les observateur·ices du secteur des médias connaissent bien cette situation, que l'on vous racontait en février dans une série sur les 20 ans de Facebook : lorsque les Gafam, premiers géants du numérique, ont raflé l'audience des médias en ligne, la question se posait déjà. Fallait-il, ou non, passer des marchés avec Google, Facebook et cie ? Le journaliste spécialiste du sujet Julien Le Bot expliquait à ASI que faire confiance à Facebook a été “la plus grande erreur” des médias. Et l'IA pourrait bien être le prochain eldorado vers lequel les médias vont se précipiter pour, au final, s'entre-tuer.

Elle s'interroge aussi sur l'effet sur la qualité du journal.

Les journalistes du Monde seront-ils aussi fier·es que leur travail nourrisse ChatGPT qu'ils et elles ne le sont à écrire pour le journal français considéré comme “la référence” ?

Sur X, Alexander Doria souligne que Le Monde est une entreprise subventionnée et que ça n'est pas anodin.

Aussi je suis désolé mais le Monde n’est pas une entreprise lambda mais bénéficie de subventions publiques françaises. Est-il normal de brader ce contenu à une multinationale américaine à visée monopolistique ?

En vrac

 
Lire la suite...

from pac

Révolution à l'Insee

Petite révolution, l'Insee lance enfin un catalogue de données. Jusqu'à maintenant les données diffusées sur Insee.fr n'avaient aucune méta-données. Avec Melodi, on trouve des méta-données, exactement comme dans un portail open data. L'outil comporte également un explorateur de données qui permet de prévisualiser les données en ligne.

Personnellement, j'aurais trouvé ça malin de faire un site dédié de type data.insee.fr en utilisant udata, le moteur de @datagouvfr@social.numerique.gouv.fr. Ça aurait permis de mutualiser les efforts avec la DINUM.

Données météo

Après l'ouverture des données de Météo France et le lancement de meteo.data. gouv.fr, @datagouvfr@social.numerique.gouv.fr et Météo France organisent un hackathon les 8 et 9 avril.

La ville du quart d'heure

La sociologue Paola Tubaro, Sarah Berkemer et leurs étudiants ont fait le point sur le concept de « ville du quart d'heure » en s'appuyant sur des données. La ville du quart d'heure se donne pour objectif de donner accès à chaque habitant aux principales aménités en moins d'un quart d'heure à pieds ou en vélo.

We harness open map data from the large participatory project Open Street Map and geo-localized socio-economic data from official statistics (Insee) to fill this gap.

While the city of Paris is rather homogeneous, we show that it is nonetheless characterized by remarkable inequalities between a highly accessible city centre (though with some internal differences in terms of types of amenities) and a less equipped periphery, where lower-income neighborhoods are more often found. Heterogeneity increases if we consider Paris together with its immediate surroundings, the “Petite Couronne,” where large numbers of daily commuters and other users of city facilities live.

L'article combine les données socio-économiques carroyées produites par l'Insee (Filosofi) et des données Openstreetmap.

Carte

Sur cette carte, on voit le nombre de restaurants, le score d'accessibilité des restaurants, le nombre d'écoles et le score d'accessibilité des écoles par carreau de 200 mètres.

The figures depicting the number of restaurants and schools in Paris (Figures 2A, C) and the corresponding accessibility scores on the grid (Figures 2B, D) clearly show the importance of taking into account not only the total number but also accessibility measures of amenities. While the number of restaurants shows a strong trend toward the city center of Paris (arrondissement 1–4), the schools seem to be relatively well distributed among the city (Figure 2A). However, for schools (Figure 2D) the accessibility score clearly shows a concentration in the Passy district located in the South-West of Paris (16th), in the 5th/6th arrondissements (below the Seine) and in the 2nd/9th arrondissements (above the Seine, near the Opéra district).

Je ne rentre pas dans les détails de la construction de l'indicateur d'accessibilité. À la fin de l'article on obtient une cartographie de la petite couronne.

Carte de la petite couronne

Globalement l'analyse montre que l'accessibilité des services est très inégalement répartie.

Les 10 ans des Decodeurs

Pour leurs 10 ans, Les Décodeurs ont publié un abécédaire du fact-checking.

Je suis très intrigué par la suite Grumpy.

Des graphiques, des cartes, des tableaux… Vous en trouverez beaucoup au sein des articles des Décodeurs. Certains sont des productions ad hoc : généralement complexes, ces éléments visuels ont été pensés et codés pour les besoins spécifiques d’un article. Mais, dans nombre de cas, un histogramme, une carte des départements, une courbe assez simple suffisent pour visualiser une information. Pour cela, nous avons créé des outils qui permettent de générer un graphique sans avoir besoin de mettre les mains dans du code. Plusieurs versions et fonctionnalités se sont succédé, mais la première d’entre elles a été inventée par un éminent membre de l’équipe qui a la réputation (erronée, cela va de soi) d’être parfois d’humeur grincheuse. C’est pour rendre hommage à son travail si précieux que nous avons appelé ces outils la « suite Grumpy ».

Dataviz

Le Climate Lab du Washington Post publie une analyse de la précocité de l'arrivée des feuilles vertes aux États-Unis.

Of 274,016 cells with a trend, 220,486 (80.46%) are trending earlier. Of all 481,631 cells, 45.78% are trending earlier, 11.11% are trending later, and 43.11% show no trend at all.

La visualisation est réalisée entièrement sur Observable.

Le Monde et OpenAI

Je ne sais pas quoi penser de l'accord entre Le Monde et OpenAI.

Louis Dreyfus y voit une nouvelle source de revenus.

Il a également l’avantage de consolider notre modèle économique en apportant une source significative de revenus supplémentaires, pluriannuelle, qui intègre une quote-part au titre des droits voisins. Une partie « appropriée et équitable » de ces droits, sera, comme défini par la loi, reversée à la rédaction.

On n'a pas d'éléments financiers dans l'article mais il me semble peu probable qu'à terme la rémunération soit équitable pour les producteurs de contenus.

Surtout il y a quand même un risque réputationnel énorme que ChatGPT produise des hallucinations tout en prétendant s'appuyer sur Le Monde.

En vrac

 
Lire la suite...

from pac

IA et élections

L'an dernier, Julia Angwin (@Julia@journa.host), la fondatrice de The Markup, avait annoncé qu'elle quittait le journal pour se consacrer à de nouveaux projets (voir la weeknote #4)

Cette semaine, elle a annoncé le lancement de Proofnews (@proofnews@mastodon.social).

Proof is into proving things! Our goal is to question, test, and investigate the most important issues of our time. We will always tell you what we know and what we don’t know (source).

Sur Masto, elle souligne que c'est un peu fou de lancer un journal en ce moment.

It’s a crazy time to start a news org. Journalism is fighting for its life right now. Revenues are collapsing as adtech robs news of its ability to monetize audiences. Tech platforms are deprioritizing news in their algorithms. Rapacious owners have hollowed out newsroom (source).

Comme chez The Markup, Julia Angwin revendique d'appliquer une méthode scientifique dans le journalisme:

we turn to the scientific method to guide our work. We develop hypotheses and test them. We build software to collect data and use statistics to analyze it. We consult with experts to examine our work. We release our data to the public (source).

Pour la première investigation, Julia Angwin a collaboré avec la sociologue Alondra Nelson pour tester la capacité des modèles d'IA à répondre à des requêtes concernant les élections.

Our first investigation is a collaboration with Alondra Nelson to examine how AI models respond to voter inquiries. The answer: not well. More than half the answers were rated inaccurate by evaluated by our expert testers (source) .

Proofnews et le AI Democracy Projects ont réuni 40 experts pour évaluer la manière dont les 5 LLM les plus importants répondent à 26 questions d'information concernant les élections. Les résultats ne sont pas très surprenants.

none of the five leading AI text models we tested — Anthropic’s Claude, Google’s Gemini, OpenAI’s GPT-4, Meta’s Llama 2, and Mistral’s Mixtral — were able to correctly state that campaign attire, such as a MAGA hat, would not be allowed at the polls in Texas under rules that prohibit people from wearing “a badge, insignia, emblem, or other similar communicative device relating to a candidate, measure, or political party appearing on the ballot,” calling into question AI models’ actual utility for the public.

On voit néanmoins des différences entre les modèles.

Although the testers found all of the models wanting, GPT-4 performed better than the rest of the models on accuracy, by a significant margin. Anthropic’s Claude model was deemed inaccurate nearly half of the time. And Google’s Gemini, Meta’s Llama 2, and Mistral’s Mixtral model all performed poorly, with more than 60% of their responses deemed inaccurate.

Un peu comme les mauvais élèves, les modèles de langage en font des tonnes quand ils ne savent pas :

Many AI models provided lengthy multipart answers that required extensive fact-checking. Inaccurate answers were, on average, longer than accurate ones. And as a result of their wordiness, long answers often seemed plausible at first glance.

Sur le fond, on en revient toujours au même débat sur la confusion entretenue par les éditeurs entre un modèle de langage et un modèle de connaissance de recherche d'informations ou de connaissance. Cela renvoie aux travaux d'Emily Bender (Voir https://dair-community.social/@emilymbender/109456744691732172 et ma réaction à la sortie de ChatGPT https://hackmd.io/@pac/chatgpt).

L'article se conclut sur le risque d'érosion de la vérité

Much has been written about spectacular hypothetical harms that could arise from AI. And already in 2024 we have seen AI models used by bad actors to create fake images, fake videos, and fake voices of public officials and celebrities.

But the AI Democracy Projects’ testing surfaced another type of harm: the steady erosion of the truth by hundreds of small mistakes, falsehoods, and misconceptions presented as “artificial intelligence” rather than plausible-sounding, unverified guesses.

Marimo

L'équipe de Marimo lance Marimo.app, un notebook qui tourne dans le navigateur grâce à WASM.

We’ve created an online playground for marimo: try it out by opening our tutorial notebook or creating a new marimo notebook at https://marimo.new.

Our playground is powered by two emerging technologies. WebAssembly (or “WASM”), a binary instruction format that can be executed by modern web browsers, and Pyodide, a port of CPython to WASM. WASM makes it possible for web browsers to execute Python, C/C++, and Rust, eliminating the need to call out to remote machines. For this reason, marimo notebooks that run entirely in the browser are called WASM notebooks.

Je ne sais pas si ça peut être aussi bien qu'Observable mais ça devient vraiment intéressant.

When you take a moment to think about all this, it’s really quite magical ✨.

Archiver les algorithmes de recommandation

Le datalab de la BnF a organisé une journée sur l'archivage du web politique. La personnalisation des contenus par les plateformes pose des questions intéressantes pour l'archivage.

Les travaux présentés soulèvent également des questions concernant les pratiques d’archivage du web de la BnF et les silences des archives : la connaissance du fonctionnement des algorithmes des plateformes et de la façon dont ils façonnent et personnalisent l’expérience de chaque internaute, peut-elle nourrir la pratique d’archivage et la reconstitution du contexte de navigation dans les outils d’accès ? 4 A l’heure d’un web hautement personnalisé, devrait-on “rejouer” et donner à voir différentes versions du web, ou du moins quelques-unes de ces versions présentées à des usagers-types en employant la méthode des persona ?

  • florianhorrein (2024, 31 janvier). Vingt ans de web électoral. Web Corpora. Consulté le 26 février 2024, à l’adresse https://doi.org/10.58079/vq5n

Data center

Arrêt Sur image s'intéresse à la consommation énergétique de l'IA et ça a le mérite de faire réfléchir.

À l'heure où la presse s'extasie devant le nouveau gadget d'OpenAI, il est plus que temps de s'intéresser à la matérialité de l'IA. Le réseau mondial des data centers est une monstruosité énergétique en expansion constante, qui nous mène droit à la catastrophe.

Pendant que les chercheur·euses climatologues de l'IPCC supplient le capitalisme de diminuer de moitié ses émissions d'ici 2030 pour limiter la hausse des températures à 1,5°C, et alors que 2023 est l'année la plus chaude jamais enregistrée sur la planète, Sam Altman, PDG d'OpenAI, propose sa version de l'avenir : devant sa caste patronale réunie à Davos mi-janvier, il a calmement expliqué que son entreprise allait consommer beaucoup plus d'énergie que prévu, et que seule une ““percée” “technologique – la fusion nucléaire – permettrait de réaliser sa vision, qui consiste littéralement à recouvrir la surface de la Terre de data centers et de fermes solaires pour alimenter l'IA divine.

Cahiers citoyens

Dans un long thread, l'archiviste Marie Ranquet (@MarieRanquet@mastodon.zaclys.com) revient sur la supposée destruction des Cahiers citoyens : https://mastodon.zaclys.com/@MarieRanquet/112019267160958568

SSPHub

Dans la newsletter SSPHub, @linogaliana@vis.social revient sur l'année 2023 en IA et data sciences. Il insiste notamment sur l'importance des bases de données vectorielles de type ChromaDB. J'ai pas eu le temps de tester mais ça a l'air intéressant.

https://ssphub.netlify.app/infolettre/infolettre_17/

Dataviz

En s'appuyant sur la base de données des personnes notables construite par Étienne Wasmer et al. (A cross-verified database of notable people, 3500BC-2018AD,https://www.nature.com/articles/s41597-022-01369-4 ), Jan Willem Tulp a construit une dataviz super intéressante qui permet de voir pour chaque année de l'histoire de l'humanité les personnes notables vivantes et leur âge. On peut facilement voir qui est contemporain de qui.

Lire aussi

 
Lire la suite...

from weeknotes

Une semaine de vacances, de vadrouille et de rage sur internet.

qu’est-ce qui s’est passé ?

  • 3 jours en vadrouille
  • 36 h en solo
  • le sondage Wikipédia
  • j’ai finalement publié une note synthétique sur le sujet

des joies

  • Avoir une journée à soi, c’était vraiment bien même si je n’en ai pas fait grand-chose. Ce n’est pas si rare, mais c’est toujours appréciable. Dans la suite, j’étais aussi content de retrouver ma petite famille qui m’a rejoint une grosse journée plus tard.

des peines

  • Le sentiment d’injustice et d’être témoin d’une violence par certains wikipédien·ne·s est toujours là et je ne sai pas trop quoi en faire alors que j’ai quand même quelques cartes entre les mains.

lu, vu, joué

  • 📕 lu d’une traite Paris 2024. Une ville face à la violence des jeux de Jade Lindgaard.
    • Très bel ouvrage fort d’un travail de terrain qui concerne plus le département de la Seine–Saint-Denis que Paris. Il y a une écriture journalistique qui rend les choses plus vivantes que les écrits plus théoriques et universitaires que d’autres livres critiques sur le sujet.
  • 📕 terminé la lecture de Power and Progress de Daron Acemoglu.
    • Premier livre de l’auteur que je termine. C’est beaucoup plus historique et politique que mon attente et c’est une bonne chose. Je pensais que ça allait être une digression contre l’intelligence artificielle de ses thèmes habituels qui sont tout de même adjacents. Il y a beaucoup de profondeur et donne à voir ce que donnne une lecture économique précise des effets de l’automatisation et de l’informatisation.
  • 📕 lu la fin de Le scarabée dans la fourmillière, L’arc-en-ciel lointain, et Les vagues éteignent le vent.
    • Tout cela m’a permis de terminer l’énorme intégral du Cycle du midi des [frères Strougatski]. C’était pas une mince affaire. J’ai dû m’y reprendre à plusieurs fois avant de rentrer véritablement dedans. Je ne sais pas trop si cela vient d’un souci de traduction ou juste de l’évolution du style des auteurs.
  • 📺️ regardé les 2 premiers épisodes d’Avatar, l’adaptation de la série animée.
    • C’était étonnamment chouette d’autant plus que j’ai encore des visions de la première et dernière adaptation cinématographique. Je me demande par contre comment ils vont gérer la croissance réelle de l’acteur incarnant Aang.

chez les autres

avant

 
Read more...

from le numérique est un champ de bataille

Petit récapitulatif pour moi-même de la controverse qui agite la version francophone de Wikipédia et ses communautés. Bien que j’aimerai écrire plus longuement sur le sujet, je n’ai pas la bande passante nocturne pour le faire encore moins diurne. Je travaille de façon ouverte en espérant que les esprits refroidis retrouveront un brin de lucidité. Wikipédia est un projet important, chacun y contribue à sa manière, j’essaie de poser quelques bases pour éventuellement développer plus en détails certains points à l’avenir. Une note de synthèse en quelques sortes.

iels sont pertinent·e·s et écrivement mieux que moi

le sondage

Le 12 février 2024 des contributeur.ice.s de la version francophone de Wikipédia ouvrent un sondage titré « Mention du nom de naissance pour les personnes trans » pour prendre la température concernant les conventions éditoriales concernant la mention du dead-name des personnes transexuelles. La problématique est principalement les personnes dont la transition aurait eu lieu après une phase de notoriété. Cela fait suite à une tribune datant de 2022 dans l’Obs réunissant un nombre considérable de personnalités du monde culturel dénonçant le manque d’égard généralisé du site pour le respect de personnes.

Le sondage en question nécessite une lecture attentive d’une longue page et les modalités de participation ne sont pas simples à comprendre tant au niveau intellectuel qu’ergonomique. Il y a 6 questions et il faut aller éditer plusieurs champs textes dans un slalom d’avis plus ou moins digeste avec parfois une forme de violence écrite. La seule condition explicite est d’avoir au moins 50 contributions sur les pages d’article de Wikipédia et donc en ne comptant pas les pages de discussion ou les pages d’utilisateur·ice·s.

On peut aussi remarquer que la préparation du sondage n’a pas été vraiment fluide et que la question de sa publicité était déjà problématique. Une tentative précédente de sondage avait déjà eu lieu et mobilisé une discussion qui dura plus d’un an et demi pour finalement avorter.

Dans la terminologie de Wikipédia, les contributeur·ice·s distinguent un sondage qui est informatif et une prise de décision.

la controverse

La question intéressante pourrait être comment trouver des conventions techniques et rédactionnelles pour sortir concilier respect des personnes et encyclopédisme sans sacrifier aucun des deux ? Cette dernière notion est loin d’être figée et le degré zéro serait de se contenter d’être une succursale de l’état civil. C’est un moment important, car cela nécessite un vrai travail de concertation et de créativité. Cependant le débat n’est pas vraiment posé dans ce cadre, mais dans une attitude indélicate et feignante.

Sinkra: “Si vous avez un compte Wikipédia avec au moins 50…” – Eldritch Café

La controverse n’a d’ailleurs pas du tout lieu sur ces questions, mais sur la diffusion du sondage sur des réseaux sociaux, notamment le fediverse dans sa variante mastodon. Cela va créer un afflux, à vue de nez, d’une trentaine de votes alors qu’on peut compter plus de 300 participants au total.

Discussion Wikipédia:Sondage/Mention du nom de naissance pour les personnes trans — Wikipédia

Des personnes concerné.e.s par le sujet vont souligner dans la page de discussion du sondage leur malaise ainsi que la violence par maladresse de la démarche et des formulations. On peut considérer qu’il y a une forme de transphobie à ne pas inclure, comme dans « inclusif », proactivement des personnes sensibles à ces questions ou bien même à se sensibiliser soi-même ou collectivement avant d’entreprendre un sondage public. Demander de l’aide, c’est un savoir-être. À partir de ce moment, la page de discussion part dans tous les sens. On assiste surtout à une chambre d’écho d’un petit nombre de contributeur·ice·s que l’on pourrait qualifier de piliers de comptoir qui vont s’autoconvaincre qu’un signal d’alerte est une forme de déstabilisation frisant la cyberattaque par une puissance étrangère. Il y a ce genre de choses sur les Wikipedia, c’est un sujet sérieux, mais dans l’instant, c’est proprement surréaliste. La page discussion contient tous les éléments de langage permettant de s’autopersuader que le problème n’est pas le sondage, mais ceux qui le critiquent. C’est tout un florilège de mantras et de formules vide de sens comme « Wikipédia n’est pas un projet politique » ; il y a bien une page wikipedia sur le sujet mais elle est loin d’être aussi simpliste que cette formulation. Le but ici n’est pas non plus de faire un inventaire des biais de la communauté ayant le monopole de la parole.

Wikipédia:Bulletin des administrateurs/2024/Semaine 7 — Wikipédia

Le 19 février, 7 jours plus tard donc, une procédure de blocage est ouverte en ciblant plusieurs personnes ayant partagé le lien vers le sondage ou ayant participé aux discussions dans le « bulletin des administrateurs », la page de travail des administrateurs. Les administrateurs sont des contributeur·ice·s reconnu·e·s par les autres comme méritant des droits d’instances pour fluidifier la collaboration autour du projet. Cela, c’est la théorie. Dans les faits, il y a une visible dérive de certain·e·s vers un rôle judiciaire entre juge et flic.

Le 23 février, plusieurs personnes sont ainsi bannies bloquées de façon indéfinie. Parmi celles-ci se retrouve @Pandora@eldritch.cafe pour avoir fait valoir sa voix de concernée et chercher à défendre une meilleure inclusivité dans la consultation. @MarcBrillault@eldritch.cafe est également bloquée de façon indéfinie pour avoir alerté avec beaucoup de patience. Sur fond de rancune de longue date contre le projet Les sans pagEs, @Sinkra@eldritch.cafe se fera bloquer 3 jours. Un blocage signifie l’impossibilité d’écrire sur une page quelconque mettant ainsi fin de façon brutale à la discussion. Les votes comptent au maximum 23 participations. S'il y a un article journalistique à écrire, cela sera un très bon début d'aller recueillir leur témoignage.

Wikipédia:Sondage/Mention du nom de naissance pour les personnes trans/Tableau vote et nombre de contributions — Wikipédia

La situation est telle que des contributeur.ice.s ont eu la bonne idée (sarcasme) de faire liste des participant·e·s du sondage ayant moins de 1 000 votes et moins de 50 votes. La page de discussion du sondage s’étale également en palabre pour savoir si ces contributions doivent être depuis leur inscription, les deux dernières années ou en 2024. À un moment donné, les noms des comptes étaient indiqués avant un rétropédalage de bon sens. De la bonne surveillance.

quelques lectures intéressantes

  • Wikipédia:Règles et recommandations — Wikipédia. L’état d’esprit de contribution est largement plus flexible que ce que laisseraient penser les comportements d’une poignée d’individus. En parcourant les pages « méta » de Wikipedia sur Wikipedia, on retrouve un discours beaucoup plus nuancé et ouvert.
  • Wikipédia n’est pas : une bureaucratie. Tout cela me laissait avec une impression d’articulation entre une hiérarchie formalisée et informelle (le prestige du nombre de contributions par exemple). Encore une fois, je suis content de voir que le but est avant tout la collaboration, le travail ensemble, plutôt qu’une vision rigoriste de règles gravées dans le marbre. Bien entendu, il y a le texte et la réalité des pratiques.

les articles que je n’écrirai pas

  • Un état de l’art actualisé de la littérature académique sur le sujet ou au moins un feed des articles concernant les projets Wikipédia. Il y a par exemple, une section « recent research » dans The Signpost, le bulletin sur l’actualité du projet anglophone.
  • La manifestation du pouvoir et de l'autorité dans les partiques communautaires en ligne.
  • La majorité silencieuse des administrateur·ice·s de Wikipedia.
  • Wikipedia français ou francophone ? Dans les faits, il y a tout un travail d’élargir le contenu pour échapper à l’inertie de la masse française du réseau francophone. C’est loin d’être une évidence et cela apparaît dans [le bistrot], le principal espace de bavardage interne.
  • Bénévolat, travail gratuit et comportements dans les communautés web.
  • La notion d’espace public au regard des projets Wikipédia.
  • Est-ce que Wikipédia doit bénéficier d’une forme d’exception ?
  • Sagesse des foules, intelligence collective, auto-organisation, ces concepts qui traversent et motivent les communautés de Wikipedia.
  • Des outils communautaires pour mieux se comprendre. Réactiver mes travaux sur les analyses de textes et de réseaux autour de Wikipedia. Il y a des personnes comme @pac2@wikis.world qui fait déjà un travail considérable sur observable.
 
Lire la suite...

from weeknotes

Une semaine mélangeant travail et congés. Je suis parti en vadrouille dans la foulée de ce qui fait que ce billet est à la fois succinct et décousu. Je reprendrai quelques fils ouverts la semaine suivante.

qu’est-ce qui s’est passé ?

  • 3 jours de travail, puis 1 journée sans enfants qui a été écourtée pour commencer des vacances que j’attendais depuis quelques semaines.
  • le nom de domaine paris2024.lol était disponible.
  • terminé un carnet d’écriture quotidienne.
  • j'ai enfin arrêté mon abonnement spotify famille et recommencé à me faire une bibliothèque musicale. Soulseek fonctionne encore très bien.
  • j'ai speed runné un diorama qui trainait depuis un an et demi.

des joies

  • Au retour des grandes vacances, j’avais l’ambition de tenir un gaming journal sur les jeux vidéos et des sessions de jeu de rôle solo, mais je me suis rendu compte que je n’avais plus ou pas de pratique d’écriture quotidienne. Je me suis alors lancé dans le défi d’écrire au minimum 15 minutes et au maximum 1 page par jour dans un carnet de 192 pages. Un peu comme Forest Gump qui se met à courir là, c’était mon ressenti au début. J’ai tenu le rythme avec un écart pendant les vacances de Noël. J’ai encore quelques bons souvenirs de prendre le temps d’écrire ces pages en sortant du cinéma et de rentrer chez moi. Pendant assez longtemps, c’était de l’écriture automatique. Au bout d’un peu plus de 120 jours, les pages sont devenues plus structurées et j’avais quelques “prompts” en cas de manque d’inspiration ou de fatigue. Bref, il y a beaucoup de choses à dire de ce genre d’expérience. J’en tire un vrai plaisir et je pense que cela m’a aidé dans un tas de situations. Je continuerai dans un format plus réduit en nombre de pages pour également avoir plus d’espace pour une certaine passion pour la papeterie.

des peines

  • J’ai participé au sondage wikipedia qui s’est avéré être un magnifique dumpster fire. Je me suis même retrouvé pris à parti comme étant un “pantin”. C’est assez absurde et j’ai comme l’impression que le bon sens a été évacué depuis un certain temps au sein des bavards de la communauté. Tout cela a entrainé la production d’un tas de brouillon d’articles dont je ne sais pas trop quoi faire, mais qui m’ont permis de ne pas me lancer tête baissée dans une perte de temps sur le web ; cela dit cela fera une bonne série de sujets froids. Heureusement, j’ai pu avoir également, par le passé, des interactions avec des personnes qui étaient à mille lieues de cette ambiance. Je me rends compte au passage que les deux années à un projet de recherche autour de l’encyclopédie sont difficilement réactivables alors que j’avais à l’époque une grande liberté de moyen et de temps. Je m’étais complètement perdu dans une forme de performativité à parler pour prétendre. Le revers de l’autonomie. Cela dit j’ai des lectures qui me reviennent et si jamais il le fallait, je ne repartirais pas complément de zéro dans la mesure où j’ai quand même accumulé une connaissance pratique des matériaux à disposition, les réseaux, les textes, les communautés, etc. Reste quand même l’amertume que construire un web progressiste est un long chemin loin d’avoir été entamé. Cela fait aussi quelques semaines que j’avais dans l’idée d’être plus soutenu dans mes contributions, mais cela a bien douché ma motivation et m’amène à regarder avec un peu plus de lucidité l’objet en question.

lu, vu, joué

  • 📕 terminé L’inquiétude et Le petit dans Le cycle du midi des frères Strougatski
  • 📖 commencé et bien avancé dans Le scarabée dans la fourmilière dans Le cycle du midi
  • 📖 lu des bouts de Power and Progress de Daron Acemoğlu

avant, avant

 
Read more...

from weeknotes

Il y a des films qui vous transforment. Je ne sais pas si je me souviendrais de Past Lives dans quelques temps mais ce film aura bien retourné ma semaine. Je me rends compte en écrivant ce billet hebdomadaire.

qu’est-ce qui s’est passé d’intéressant ?

  • Grâce aux bons conseille de @cedricr@mapstodon.space, je suis passé récupéré des ouvrages en click and collect chez Shakespeare and co, ce qui a alimenté ma pile tsundoku et m’a valu une seconde commande au retour.
  • J’ai migré cette instance WriteFreely vers la v0.15.0 parue le week-end précédent. Cela s’est passé sans encombre. J’hésite à activer l’inscription aux nouveaux articles par email bien que cela ne soit pas trop ma pratique de lecture. Les newsletters dans les boîtes mail restent quelque chose d’important pour beaucoup de personnes.
  • J’ai vu Past Lives qui m’a bien travaillé intérieurement.
  • C’est le début de la nouvelle année lunaire.
  • J’ai récupéré mon vieux baladeur à cassette qui ne fonctionne malheureusement plus.

des joies

  • Les semaines précédentes, j’avais remis en route l’appareil photo qui ne cessait de rester dans ma poche ou mon sac. Cette semaine, j’ai finalement pris le temps de publier quelques photos en ligne. C’est un nouveau début plaisant.
  • J’évite plus ou moins fort de parler de mon travail ou de travail dans une démarche de faire en sorte que tout ce temps ne soit pas non plus de l’espace mentale. Cependant avec le travail d’écriture que je fais ici et ailleurs, j’ai l’impression que cela fluidifie énormément ma production écrite. Il y a un certain soin que j’apprends petit à petit à développer mes idées avec des mots et une forme de narration. Je sors de mes calculs, de mes systèmes d’idées et de mes pensées privées. Tout cela se manifeste par des retours positifs qui sont d’autant plus agréables dans la mesure où j’ai la sensation d’approcher une forme d’équilibre dynamique.

des peines

  • J’ai l’impression de me diluer dans les différentes possibilités. C’est un sentiment qui va et vient de façon chronique. Je réfléchissais au personnage de Nora dans Past Lives et son ambition poussée par la culture libérale de ses parents, et la dilution m’empêche souvent d’aller là où je pense vouloir aller. J’avais déjà une facilité à accumuler des hobbies et les objets qui vont avec ; sans aucun doute un mal très contemporain. Le covid et ses confinements ont fait exploser cette dynamique. Je me retrouve par exemple avec une étagère plein de matériel pour faire des maquettes et des gunpla, mais je ne sais pas si j’aurai à nouveau le temps de m’y remettre. À vrai dire, je me dis qu’il faut que je me débarrasse de tout cela d’une façon ou d’une autre, mais l’accumulation reste. Dans les bons, je pense à cette vidéo d’Adam Savage qui vend bien l’optimisme d’une démarche généraliste. Dire au revoir à toutes les personnes que je ne serai pas et toutes les proches qui vivent dans mes fictions intérieures est, en partie, triste. « Il y a ce qu’on perd, et ce que l’on trouve » comme dirait la mère de Nora. Il y a des tristesses qui ne sont pas des mauvaises choses.

en images

lu, vu ou joué

  • 📕 terminé L’île habitée dans l’intégral du cycle du midi d’Arkadi et Boris Strougatski
    • L’ascension réussie des 700 pages de The Unreal and the Real m’ont redonné assez de confiance pour me relancer pleinement dans la lecture de l’intégral du cycle du midi. Avant cela, j’avais l’intention d’en lire un morceau par-ci, par-là pour me ménager. J’avais aussi le compteur de livres lus selon l’ontologie de Goodreads qui me faisait un blocage complètement superflu. Je lirai ce livre jusqu’au bout et je compterai chaque roman comme un livre en soi. Les lectures précédentes de Le Guin sont également assez vivantes dans ma mémoire et j’apprécie beaucoup le décalage de leur univers par rapport aux canons de la SF. Il y a une vraie poésie et même une forme d’optimisme qui s’éloigne de l’utopisme technobéat.
  • 📕 terminé Blood in the Machine de Brian Merchant
    • Les ponts avec l’actualité sont importants, mais moins forts que ce que je pensais. Le détail historique est par contre fondamental. Cela m’a permis de remettre en cause mon usage du mot « luddite » comme une caractérisation positive d’une critique de l’automatisation. Je pense que c’est un terme à utiliser avec plus de subtilité. J’espère que des plumes effectives parleront de cet ouvrage et qu’il sera traduit pour avoir une discussion à son propos.
  • 📖 commencé Power and Progress de Daron Acemoglu
    • C’est le livre que j’avais prévu de lire, mais en faisant un détour par Power Games avant cela. Mais je n’avais pas encore mis de ce dernier dans ma liseuse alors j’ai commencé le livre d’Acemoglu pour voir et c’est tout bonnement passionnant. Je ne pensais pas que c’était une critique prenant les discours sur l’intelligence artificielle comme point de départ, mais c’est d’autant mieux.
  • 🎥 vu Past Lives de Celine Song
    • C’est un film émouvant, qui m’a bougé et me faire encore bougé. J’aimerais en dire beaucoup de choses, mais je suis encore en train de le digérer.
  • 📺 terminé Blue Eye Samurai avec le s01e08

les bons liens

chez les autres

un autre temps

 
Read more...

from weeknotes

Une autre semaine remplie de la banalité absurde de notre système social. Le Guin dit que l’important ce n’est pas de vivre de choses spectaculaires pour avoir quelque chose à raconter, mais simplement de cultiver sa vie intérieure. Ou quelque chose comme ça. Ces textes assez personnels s’inscrivent dans cette démarche de documenter notre époque depuis l’intérieur. Je vois aussi l'exercice comme une newsletter qui ne passe pas par l’email.

qu’est-ce qui s’est passé ?

  • j’ai eu le temps de mettre quelques nouvelles entrées sur jop2024.lol.
  • j’ai reçu un nouveau téléphone le jour où le constructeur a fermé ses portes.
  • la mise à jour de sécurité de mastodon m’a rapidement alarmé. J’ai fait la mise à jour qui a déclenché une série de petits problèmes résolus, et sans impact, mais qui m’a occupé plusieurs soirées.

des joies

  • Le gouvernement a lancé une campagne de communication autour des jeux olympiques et paralympiques, et leur conséquence pour les citoyens villes accueillant des épreuves ou des événements. Le nom du site web de cette communication est https://anticiperlesjeux.gouv.fr plutôt que de me lancer dans un grand projet qui ne verra jamais le jour, j’ai déterré mon vieux nom de domaine gouv.lol et mis une redirection sur le sous-domaine https://anticiperlesjeux.gouv.lol. Cela ne m’a pas empêché de cogiter tout seul sur ce que pourrait être une réponse pertinente, mais en attendant j’ai tout de même un sentiment de travail accompli parce que le résultat est déjà là sans que cela me coûte trop de temps. C’est important dans ce petit moment de guérilla où l’asymétrie de moyen est démesurée.
  • À la naissance du second enfant, j’ai acheté un téléphone Punk MP02 pour son esthétique, sa simplicité et son absence d’artefact Google malgré Android comme OS. Il y avait quelques usages qui me manquaient cependant dont ma banque qui force l’usage d’une app distribuée sur le duopole Apple App Store et Google Play Store. Signal et What’s App nécessitent également une version sur un smartphone pour activer la version desktop. J’avais tenté de simuler un terminal Android, mais je n’ai jamais réussi. J’avais donc toujours mon iPhone qui trainait quelque part et me servait par intermittence. J’ai fini par acheter un Cat S22 Flip, dont le fabricant a déposé le bilan le jour de la réception. Cela reste un téléphone Android avec du Google, mais j’ai pu facilement cacher ou supprimer ce qui ne m’allait pas. Je regarderai une autre fois pour le rendre complètement propre. En attendant, le clavier à l’ancienne me donne l’impression que j’ai un dumbphone et je vais enfin pouvoir refiler mon iPhone à quelqu’un de mon entourage qui en fera un meilleur usage. C’est la touche finale à ma sortie, personnelle, de l’écosystème et cela fait un bien fou.
  • J’avais commencé un brouillon d’article sur Taylor Swift avec une composition d’angles que je n’ai pas trouvés dans les médias dominants ou spécialisés. Le problème est qu’il y a des actualités autour de cette personnalité tous les deux jours, ce qui repousse la publication indéfiniment et transforme le brouillon en monstre de Frankenstein. Comparer mes notes, bien que privées, avec ce qui est publié me donne du baume au cœur et un feedback plutôt positif sur ma pratique informationnelle.
  • J’avais plein de projets pour soirée de samedi à domicile une fois que les enfants seraient couchés, mais je me suis endormi en berçant le plus petit. J’ai tenté sans forcer de « faire des choses », mais au final j’étais bien content d’éteindre mon exploitant intérieur et de me plonger dans la lecture douillette d’un livre.
  • Sur le chemin d’une séance de cinéma, j’en ai profité, n’étant attendu nulle part, pour marcher quelques dizaines de minutes. L’occasion de prendre des photos pour constater qu’on a les yeux bien ouverts. Cela ne donnera certainement pas de grandes réussites, mais c’est quand même un plaisir important du quotidien.

lu, vu, joué, écouté

  • écouté en boucle Plastic Love de Mariya Takeuchi et Stay With Me de Miki Matsubara ainsi que des playlists de City Pop
    • L’insouciance mélancolique des paroles qui d’une certaine me rappelle High Fidelity de Nick Hornby. C’est aussi un bon prolongement de mon voyage imaginaire au Japon de ces dernières semaines. J’ai aussi découvert qu’il y a un effet de l’algorithme de YouTube et les quelques commentaires que j’ai regardés me laissent croire qu’ils ont été écrits avec IA. J’aurai du mal à en recommander une.
  • 📕 terminé The Unreal and the Real d’Ursula Le Guin
    • J’ai beaucoup apprécié les indications à la fin pour les clubs de lecture. Curieusement, j’ai lu le second volume beaucoup plus vite que la première partie. Peut-être parce que ce sont plus des fables et je voyais mieux l’intention narrative ainsi que le cheminement de question de Le Guin. L’habillage historique du premier volume avait tendance à me distraire alors que les contours SF et fantastiques du second m’indiquent clairement qu’est-ce qui est de l’ordre du décor(atif) et de la morale. Retrouver l’univers du Hainish Cycle est un plaisir appréciable également.
  • 🎥 vu Argylle au MK2 Bibliothèque
    • L’implication de Taylor Swift dans une rumeur concernant de film m’avait intrigué et j’étais toujours dans le brouillon de mon propre article. Cela ne vaut franchement pas le détour. Il n’est diffusé que dans un seul Mk2. Je me suis endormi devant The King's Man le lendemain.
  • 📺️ regardé Blue Eye Samurai s01e07
    • On s’approche de la fin et c’est regrettable, je ne sais pas trop ce que je pourrai regarder pendant les pauses déjeuner où je suis seul à la maison en télétravail. Je n’arrive pas à lire en mangeant, mais j’apprécie aussi ne rien faire d’autre que prendre mon temps pour manger.
  • 📺️ regardé Pokémon Concierge
    • Le générique est une chanson de Mariya Takeuchi.
  • 📖 continué ma lente progression dans The Blood in the Machine de Brian Merchant
    • Maintenant que j’ai terminé le pavé de Le Guin, je vais me concentrer exclusivement sur ce livre qui reste bien trop intéressant pour perdre patience et passer à autre chose ou en le terminer en lecture rapide.

ma toile d’annotations

chez les autres

les années d'avant

 
Read more...

from weeknotes

Une semaine assez banale. Il y a toujours quelque chose à raconter et je prends du plaisir à écrire ces notes. Si vous voulez quelques nouvelles, c’est par ici.

quoi de neuf ?

  • je me suis inscrit au pass culture de la BnF pour avoir accès à europresse et pressreader.
  • je suis allé voir du côté de boom boom villette, qui remplacé Vill'Up à côté de la Cité des Sciences/Enfants,
  • et j’y ai pris quelques photos.

des joies

  • J’ai très bien avancé sur jop2024.lol dans ma lancée de la semaine dernière. Il reste encore quelques petites histoires qui sont restées en plan, mais j’ai une version que je peux maintenir au fil de l’eau. Il y a un pont à faire avec les JOP de Tokyo, mais aussi de quoi alimenter une base documentaire pour toutes les itérations. Pour préparer le terrain pour la couverture critique des JOP d’hiver de 2030 par exemple. Une autre prochaine possibilité qui traine dans mon esprit est un système de pronostic avec la génération d’un Brier score pour s’entrainer au forecasting ?
  • J’ai pris quelques clichés avec mon Ricoh GR en me souvenant presque immédiatement de l’intention de mes réglages et de mes usages. L’appareil est bien loin d’avoir la tactilité satisfaisante du X-Pro1, mais il est toujours dans ma poche, et j’ai réussi à l’en sortir. Je n’ai pas encore de processus pour sortir les images de l’appareil par contre. Cela peut attendre, je suis déjà content de réussir à prendre le temps de regarder autour de moi quand je marche, seul ou non, tout en retrouvant le fil de mes séries potentielles. Avec la destination, en vue, d’alimenter à nouveau mon compte pixelfed, j’ai bien l’impression de m’y remettre calmement.

des peines

  • Une petite fatigue s’installe. Je n’arrive pas à lire le matin quand je prends le métro. Je somnole au bord de l’assoupissement. J’ai posé quelques congés pendant les vacances scolaires. Ouf.
  • Je m’étais donné pour objectif de publier un article long sur https://write.apreslanu.it/tk toutes les deux semaines. En ratant l’échéance, je suis passé à autre chose bien que les brouillons continuent à s’accumuler. Les textes recommencent à s’écrire dans ma tête sans en sortir. Stratégiquement, ce n’est pas le moment de passer en 4/5 pour avoir du temps pour ce genre de projets perso, mais j’ai de l’espoir que cela soit une possibilité dans un avenir proche.

lu, vu, joué

  • 📖 fini la première partie de The Unreal and the Real
    • Le Guin s’amuse beaucoup a laissé au lecteur le choisir quelle partie est à propos du réel. La notion de réalisme concerne plus le décor qu’autre chose. Dans la première partie, elle emprunte beaucoup à l’imaginaire et le symbolisme des native americans. On y retrouve ses grandes histoires et permet d’observer son jeu d’écriture, comment elle choisit un genre ou un autre pour raconter. Cela m’a rappelé ses conseils d’écriture de Steering the Craft. Ces nouvelles permettent de la voir faire avec rapidité et concision.
  • 📖 poursuivi lentement, mais attentivement lecture de Blood in the Machine
    • Je n’ai pas eu beaucoup d’occasions de lire le matin et je prends beaucoup de notes. Ce livre continue d’être une lecture passionnante. Je pense que je me concentrerai dessus si je termine The Unreal and the Real avant.
  • 📺️ regardé Blue Eye Samurai s01e06
  • 🎥 vu L’innocence de Hirokazu Kore-Eda
    • Film très touchant. Je suis en admiration devant le jeu d’acteurs des enfants. Une bande-son de Ryuichi Sakamoto qui est aussi un hommage posthume. Je ne sais pas si j’arriverai à trouver qui me fera continuer à voyager au Japon. J’aime bien les ambiances hors de Tokyo, plus particulièrement dans l’arrière-pays. Ici, c’est une métropole qui ne dit pas son nom, mais qui est certainement reconnaissable.
  • 🎥 vu Léo, la fabuleuse histoire de Léonard de Vinci de Jim Capobianco et Pierre-Luc Granjon
    • Tombé par hasard sur l’avant-première avec l’équipe, dont Juliette Armanet qui prête sa voix à Marguerit de Navarre. Le film est gentil, c’était bien pour un enfant de 5 ans. Il ne montre pas grand-chose du talent de Léonard De Vinci en lui-même, c’est très invocatoire. Cela m’a donné envie de relire les bandes dessinées Léonard et de les faire découvrir au plus grand si cela n’a pas trop mal vieilli.
  • 🎙️ Prologue to Ursula K. Le Guin (Imaginary Worlds)
    • Un épisode de podcast très intéressant qui revient sur l’héritage, en bien et en mal, de la culture ainsi que du parcours de ses parents.
  • 🎧 écouté Philip Glass Solo disponible sur bandcamp.
    • Cela faisait un moment que je n’avais pas écouté Glass. En regardant vite fait, je remarque aussi qu’on peut trouver des cassettes originales à un prix raisonnable.

les quelques pages que j’ai annotées

chez les autres

les années qui passent

 
Lire la suite...

from le numérique est un champ de bataille

À la suite de deux articles de The Markup sur le scraping, j’en profite pour revenir sur ce morceau important du web et articuler quelques clés de lecture. Qu’est-ce c’est ? Pourquoi est-ce important ? Et quelques contextes d’usage avec leurs enjeux.

Il y a quelques approximations par esprit de concision. Pardon par avance.

Qu’est-ce que c’est ?

Le scraping est l’opération consistant à extraire systématiquement de l’information d’un ensemble de pages web (un site en particulier, une pelote de liens, etc.) pour constituer un jeu de données (les données, les changements dans ces données, etc.) qui pourra éventuellement servir à produire une nouvelle information (comparaison, vue macro, etc.). Une fois automatisée, cela permet de changer, l’échelle en quantité et en temporalité, des informations provenant du web. Cela en fait un élément important de l’écologie de la connaissance dans notre univers hypermédiatique.

Le scraping mobilise les tâches suivantes :

  • naviguer sur des pages web, c.-à-d. au format HTML,
  • extraire l’information de ces pages,
  • et de l’organiser sous la forme d’une base de données, un fichier ou des fichiers, bref, restructurer l’information différement.

Le degré zéro est de le faire soit même à la main. Il y a longtemps, il y avait même des extensions pour navigateurs, par exemple navicrawler du Medialab de Sciences Po, pour aider à cela. La plupart du temps, c’est un script dans un langage comme python qui permet d’automatiser la partie répétitive.

Pour abstraire et généraliser l’extraction d’information, il faut souvent une compétence de compréhension de la structure d’une page web, c.-à-d. savoir lire du HTML, et en comprendre la syntaxe. Bien heureusement, le web est une technologie fondamentalement ouverte et tous les navigateurs permettent d’afficher le code source d’une page en deux clics (clic droit, voir le code source, clic gauche). Si vous entendez parler d’« inspecter le code source », c’est cela, une manipulation qui permet de relier un élément visuel avec un morceau de langage technique décrivant cet élément. Le jeu est alors de trouver le motif permettant de rassembler tous les éléments semblables.

Certains éditeurs de site web cherchent à empêcher ce genre d’opération, il n’est alors pas rare d’utiliser à nouveau un script qui va simuler des séries d’actions humaines dans un navigateur web. Redonnant ainsi un sens au terme de user agent qui permettait d’identifier un navigateur comme un instrument d’agissement (ou d’agentivité) d’un utilisateur.

Pourquoi est-ce important ?

Le scraping et sa continuité de pratiques sont importants, car dans le paradigme marketing actuel de l’intelligence artificielle, ce qui est automatisable a une bonne probabilité d’être recyclé comme un service payant avec un travail qui est surtout de la conception d’interface utilisateur, mais comme le design ne paie plus on parle de « robot » et d’« intelligence artificielle ». Browse.ai est un exemple de ce genre de maquillage. D’ailleurs, tout cela pourrait être fait avec du travail humain en exploitant un service comme Mechanical Turk d’Amazon et cela resterait du scraping. La différence notable est la responsabilité de l’usage de technologie et la volonté de fermer les yeux, ou non, sur les conditions d’extraction et d’exploitation du travail. Dans ce contexte, la notion de compétence est également importante, car, bien que technique, savoir lire du HTML est une connaissance nécessaire et normalement relativement facile d’accès. On n’est pas dans des affres de complexité et un minimum de pédagogie fait l’affaire. La promesse du no-code de l’intelligence artificielle est une barrière à cela et empêche la résolution du moindre problème ainsi que l’identification d’erreurs. C’est une dépendance directe au bon vouloir d’une entreprise/d’un service en fonction des orientations managériales et du marché. Dit autrement, le scraping est un bon cas pour ouvrir les différentes problématiques sociales invisibilisées dans le paradigme dans lequel nous sommes plongés depuis quelques années et accélérer par le succès commercial de OpenAI.

L’autre point important est la complexification des technologies web. La professionnalisation des métiers du web et l’économie numérique alimentant un besoin de produire de plus en plus de pages amènent à un amoncellement de nouvelles solutions pour résoudre des problèmes sauf que chaque solution vient avec ses propres problèmes. Pour mettre une page web en ligne, on est bien loin du glisser-déposer d’un fichier vers le FTP fourni gratuitement avec son accès à Internet. Souvent, pas toujours, un site web est plus une surcouche sur une API, un point d’accès programmatique, qui permet de générer des pages et d’avoir une gestion plus dynamique de son contenu que le modèle standard de la page web. Par exemple, plutôt que de faire une page différente par personne côté serveur, on va demander au navigateur d’aller récupérer des informations en parallèle et le laisser modifier la page à un endroit qui sera indiqué par avance. Schématiquement. Une solution de repli pour l’extraction d’information est alors d’aller la chercher dans l’API. On s’éloigne alors petit à petit du scraping et de ce que percoit normalement un navigateur et donc du contexte de lecture ainsi que les différentes transformations possibles. L’information récupérée de cette façon est souvent déjà structurée et ainsi plus propre.

Quels sont les enjeux ?

commerciaux

Commençons par les choses qui fâchent. Le scraping a une fonction importante dans l’économie numérique. Les premiers comparateurs de prix utilisaient du scraping pour alimenter leurs contenus avant l’avènement du hangar global. Marc Zuckerberg a scrapé les trombinoscopes, les facebooks, de sa fac pour en faire une compétition assez malsaine et à la mode à l’époque. Les startups sont friandes de données personnelles laissées à l’air libre pour alimenter des bases de données prospectives. Laisser son email en clair sur une page web, c’est s’assurer de retrouver sa boite inondée de publicités. Avoir un profil public github, la plateforme de Microsoft pour publier du code, c’est aussi la garantie de se faire prospecter de façon régulière à propos de nouveaux projets crypto.

À ce titre, la CNIL est sur le coup et rappelle que c’est interdit. Par contre, aller piller les autres boîtes, c’est une autre histoire. Cousin proche du scraping, il y a un crawling qui indexe le contenu des pages pour les indexer dans un moteur de recherche. La différence, c’est peut-être que le crawling est anticipé, et optimisé, par les éditeurs de site web. Ça s’appelle du SEO, ce n’est pas beau à voir et c’est une tout autre histoire.

Dans une autre mesure, la possibilité de scraper le web est un dommage collatéral de la volonté des acteurs du web commercial à extraire une valeur économique de l’attention des internautes. Afin de pouvoir assurer l’exposition à des publicités, Google cherche ainsi à contrôler la lecture d’une page web avec tout un tas de complications dont l’excuse est l’intégrité de ce qui est déclenché. C’est assez fallacieux et c’est un problème qui se mord la queue dans la mesure où le principal risque est les programmes malveillants qui se propagent par l’intermédiaire du réseau des bannières publicitaires. C’est une bataille du web en cours et le soutien, par l’usage, de Firefox est vital.

recherche

Côté recherche, il y a diverses problématiques allant de la conservation à l’analyse du langage naturel ou bien l’analyse des réseaux sociaux.

La plus importante est l’archivage du web et sa conservation. De la même façon que les crawlers commerciaux, l’enjeu est de conserver de façon intacte le maximum de choses possibles. Cela concerne des projets comme l’emblématique archive.org et l’archivage du web de la BnF et de l’INA.

Une autre problématique est l’analyse des controverses et le champ précédent des digital methods qui utilisent les matériaux comme un matériau pour construire des cartographies. C’est beaucoup plus que cela, mais il y a des livres très bien sur le sujet comme Controversy Mapping de Venturini et Munk.

journalisme

https://themarkup.org/hello-world/2023/12/16/how-elon-musk-is-trying-to-make-web-scraping-dangerous-again

https://themarkup.org/news/2020/12/03/why-web-scraping-is-vital-to-democracy

The Markup est un média US dont la thématique est la technologie. N’en faisant pas seulement un sujet, les journalistes de cette rédaction mobilisent régulièrement des méthodologies d’extraction d’information qu’il serait laborieux de faire manuellement. À ce titre, ils soulignent que le scraping du web est important d’un point de vue démocratique et central dans certaines de leurs enquêtes. Cela dérange assez les gros acteurs pour que cela se termine devant la justice avec de gros enjeux de régulation.

La question que je me pose alors est le lien entre pratique du scraping dans les rédactions françaises et la faiblesse du journalisme de données, en tant que champ, en France. Si vous êtes journaliste et que vous scrapez le web pour vos articles, cela m’intéresse d’en discuter dans le cadre d’une étude au long cours sur vos pratiques.

société civile

La transparence et l’accès de l’information sont également importants pour la société civile et l’existence d’un écosystème citoyen qui ne soient pas dans une confrontation constante avec la sphère marchande et la sphère administrative.

Laisser la possibilité de construire de l’information publique et de nouveaux services, comme vite ma dose, est un signe de santé démocratique, car il est alors possible de construire des communs et, enfin, orienter des technologies vers plus d’inclusion, de solidarité et de compréhension des collectifs.

L’association UFC-Que Choisir construit ainsi une cartographie des drives à partir d’un scraping des sites des différentes enseignes. À partir de là, il fournit un indicateur de coût du panier moyen selon les profils de ménage. Avec un peu de travail, il est possible de scraper à nouveau ces pages pour les transformer en données tabulaires permettant des analyses alternatives et de nouvelles mises en récit.

conclusion

Le scraping est symbolique de la possibilité de prendre du recul, d’avoir une vue d’ensemble, à propos du web et de ce qui y circule. Certainement pas une pratique quotidienne pour l’internaute moyen, c’est un indicateur de la frontière entre ce qui est ouvert ou ne l’est pas sur le web. À ce titre, sa pratique permet de mesurer la surface du web comme espace public. Une trajectoire vers moins de contenus qui seraient disponibles au regard des internautes par cet intermédiaire est indicateur d’une opacité de l’information. Les grandes entreprises technologiques, et les gouvernements, en parallèle, bénéficient d’une grande transparence sur nos données individuelles. Comme dirait Cory Doctorow à propos de l’interopérabilité, le scraping est une condition nécessaire, mais pas suffisante pour un futur désirable où Internet reste omniprésent. Autrement dit, Internet ne peut pas être une technologie sociale si le web ne reste pas ouvert et s’il n’y a pas la possibilité de construire une écologie de la connaissance où le contrôle technique ne serait pas du côté des citoyens.

Du côté de la production de contenus, de pages et de sites web, il est ainsi important d’avoir cette intention du web comme commun et espace public. La prolifération des applications pour smartphones (à 99,9 % réservées aux jardins/enclos d’Apple et de Google) est ainsi un grand pas vers la clôture du web et par extension de l’information comme moteur de la démocratie.

type : #analyse sujets : #openweb #scraping

 
Lire la suite...

from le numérique est un champ de bataille

Substack est une plateforme mettant en relation des auteurs et des publics. L'intérêt du site est la mise à disposition d'un paywall, c.-à-d. la gestion d'un accès à des contenus conditionnés par un abonnement mensuel ou annuel. Substack prenant une commission sur chacun des abonnements. C'est un site relativement méconnu en France, hormis quelques niches adjacentes à la culture américaine où Substack est un peu plus populaire dues à la présence importante de la culture californienne parmi les élites. Depuis quelques jours, le site se retrouve très justement critiqué pour son soutien à des auteurs d'extrême droite et pour certains ouvertement et littéralement nazis.

https://www.theatlantic.com/ideas/archive/2023/11/substack-extremism-nazi-white-supremacy-newsletters/676156/

Quelques semaines auparavant, un article de The Atlantic revenait sur la présence de nazis sur la plateforme Substack. La défense des fondateurs de l'entreprise repose sur une vision néo-libérale de la liberté d'expression. Un laissez-faire maximaliste où tout se vaut et le marché des idées fera le tri. On est en 2023 et ce n'est pas plus une prophétie que de dire que cette idée d'autorégulation des idées est tout bonnement une fable avec des conséquences importantes.

https://substack.com/@hamish/note/c-45811343

Deux lettres ouvertes plus tard, la direction de Substack répond enfin à la controverse. Ils réitèrent sur une critique de la censure. C'est un point assez hypocrite. Leurs conditions d'utilisations comportent des critères assez clairs (). De plus, ils ont déjà choisi d'exclure certains contenus. Être ouvertement nazi et tenir des propos racistes est ok tant que c'est poli et pas “haineux”. En ne cherchant pas très vigoureusement, il est facile de trouver un substack avec la charte graphique du parti nazi (rouge, blanc, noir, Fraktur, croix gammées, drapeaux, etc.).

Une des conditions est par exemple de ne pas accepter de productions qui sont par ailleurs bannies de leur solution de micropaiement, Stripe. Or, il se trouve que certains auteurs sont bannis de Stripe pour leurs propos racistes, mais se retrouvent accueillis chez Substack avec une solution de contournement et une autre prestataire de transaction que Stripe.

La question de la microtransaction est le cœur de la plateforme. L'entreprise fait la promesse d'une rencontre d’une activité d'écriture, d’un lectorat et d’une rémunération plus ou moins conséquente. Ainsi au-delà de la simple tolérance, en contribuant à l'exposition d'auteurs fascistes, Substack leur donne une audience décuplée par l'effet de réseau, les personnes qui viennent sur substack pour d'autres raisons, mais surtout par la mise en avant de ces auteurs en les invitant à des moments éditoriaux privilégiés comme au principal podcast dédié au site, The Active Voice, sans aucune prévention ni contre-mesure.

Dans une certaine mesure, Substack est dans les pas de Medium. Ces deux entreprises ont longtemps cherché à séduire des auteurs provenant du monde journalistique et leur fournissant salaire et travail de support (éditeur, producteur de podcast). Medium cherche encore son modèle économique après de nombreuses tentatives et de changements, “l'entreprise pivote” dans le jargon de l'économie numérique, en laissant de côté des journalistes qu'elle a embauchés pour voir avant de changer d'avis. Leur modèle est actuellement un abonnement unique et une vague redistribution en fonction de l'audience. Les contenus produits le sont souvent gratuitement et se retrouvent derrière une page d'abonnement obligatoire, un paywall. Substack fait le pari d'une rémunération individualisée en fonction du nombre d'abonnements et une taxe de 10% générant un bel effet de longue traine. C'est le degré zéro dû capitalisme de plateforme. C'est aussi une logique individualiste qui met les en compétition les auteurs entre eux, le budget des lecteurs n'étant pas infini, il faut bien choisir quels contenus privilégiés, on va avoir accès. Chacun paie aussi pour sa newsletter et pour chaque auteur. C'est souvent entre 5 et 15 euros par mois, ce qui est assez voisin du tarif des médias traditionnels pour un journal entier. Il n'y a pas de partage économique et au mieux un partage d'audience à travers un système de connivence. C'est aussi une atomisation des pratiques éditoriales, tout est attaché à un nom propre, singulier et rares sont les productions collectives. En l'absence d'une quelconque forme de redistribution équitable, c'est un appauvrissement général, la concentration des revenus économiques dans une très petite fraction des producteurs de contenus, et une belle rente pour Substack. Le modèle économique est déjà bien éprouvé sauf qu'ici, on parle d'être alimenté par de l'argent sale et de financer des personnes exécrables.

Au départ, Substack est une plateforme pour faire des newsletters, c.-à-d. des textes qui seront lus dans une boite email. La tendance générale étant à transformer ces lieux de correspondance en poubelle à publicité, à notifications et artefacts de démarches administratives, trop de newsletters amènent à une saturation de l'attention qui est déjà bien malmené. En plus, on mesure beaucoup de choses dans une newsletter que sur un site ou une application. C'est pour cela que le site est moins en moins à propos de newsletters et de plus en plus à propos de discours très vagues (“The subscription network for independent writers and creators”). Le problème est que c'est, à nouveau, une entreprise qui éloigne les publics d'un web ouvert, celui où la page HTML est la finalité et non pas juste une coquille vide transportant tout un tas de technologies non interopérables, looking at you Single Page Application. D'ailleurs, même s'il s'agissait d'email, il est impossible de rentrer facilement en contact avec les auteurs qu'on aimerait soutenir dans leur démarche de changement d'espace de publication. Il y a bien les commentaires mais cela revient à peu près à attraper quelqu'un par le col de la chemise alors qu'on aimerait juste avoir une discussion cordiale avec quelqu'un à qui on donne déjà de l'argent.

Le protocole Web Monetization est la réponse ouverte à la problématique de la rémunération du travail de production culturelle. Avant tout une solution technique, elle ne touche pas du tout à la problématique sociale. D'abord c'est une solution avec une forte connotation crypto, il faut attacher un portefeuille électronique, un wallet, pour faire et recevoir des donations. Ensuite, elle suit un modèle idéologique basé sur l'individu et l'identité. Par exemple write.as est la version cloud de writefreely, un logiciel permettant à tout un chacun d'héberger une ferme de blog, pour parler comme dans le web des années 2000, et propulsant ce site. Write.as implémente justement web monetization mais sans effet de réseau ou de collectif, c'est une drôle de décoration qui ne nourrira personne et ne soutiendra aucune production.

En fait rien ne remplacera le travail collectif. Les premiers à l'avoir compris sont les médias dont le cœur est une rédaction composée de journalistes. La production est mutualisée et la rémunération est partagée sous forme de salaires. C'est une vision idéalisée et schématique. Il y a souvent quelque part des actionnaires, de la publicité, mais aussi l'État comme perfusion économique sous forme des aides à la presse. Est-ce qu'on peut imaginer d'autres formes d'organisation sociotechnique pour la production et la diffusion d'objets écrits ? À commencer par la fiction, la poésie, des écritures plus personnelles, et non pas individualistes, et pourquoi pas, en fait, du journalisme pour sortir des contraintes économiques et de la pression de l'actualité. Faire des collectifs et des communautés autonomes, et arrêter une nouvelle plateformisation d'une pratique qui pourrait quand même être sympathique. De façon connexe, on peut penser au collectif de créateurs de jeux vidéos Sokpop qui fait un jeu par mois contre un abonnement de 3 euros. Cela leur permet de s'affranchir des codes de productions du milieu et d'explorer créativement de nouveaux imaginaires. Substack n'est pas la première plateforme a exploiter l'espace séparant une écriture et sa lecture, elle ne sera pas la dernière non plus. Mais est-ce que cela ne serait pas le moment de commencer à chercher de nouveaux modèles ? Notre époque en a besoin.

type : #analyse sujets : #moderation #substack #plateforme #politique

 
Lire la suite...