Weeknote #35

Temperature des oceans

Le Financial Times a visualisé la température des océans sur les 365 derniers jours.

Oceans marked 365 straight days of record-breaking global sea surface temperatures this week, fuelling concerns among international scientists that climate change could push marine ecosystems beyond a tipping point.

L'article contient à la fois une carte de chaleur des océans et une visualisation impressionnante de la température moyenne au cours de l'année.

The Common Corpus

Pierre-Carl Langlais, dont j'ai déjà parlé plusieurs fois dans mes weeknotes, vient de publier avec d'autres un corpus de 500 milliards de mots sans droits d'auteur pour pouvoir entraîner des LLM.

C'est un énorme accomplissement et ça montre qu'on n'est pas obligé d'utiliser CommonCrawl ou Oscar pour constituer de gros corpus.

Contrary to what most large AI companies claim, the release of Common Corpus aims to show it is possible to train Large Language Model on fully open and reproducible corpus, without using copyright content from Common Crawl and other more dubious sources.

Répertoires privés sur Github

If your repo has ever been public there's a chance it was archived by https://www.softwareheritage.org/ and ended up in The Stack training data: https://huggingface.co/spaces/bigcode/in-the-stack

Pour savoir quels répertoires ont été publics un jour, Simon Willison a développé un petit notebook Observable : https://observablehq.com/@simonw/github-public-repo-history

En parallèle, on peut regarder si nos répertoires sont inclus dans le dataset de BigCode : https://huggingface.co/spaces/bigcode/in-the-stack

Le Monde et OpenAI

Je n'ai pas vu beaucoup de réactions à l'annonce du contrat entre Le Monde et OpenAI et je trouve ça inquiétant. Ça devrait susciter plus de réactions et d'inquiétudes.

Pour Arrêt sur Images, Pauline Bock souligne que ça n'est sans doute pas une bonne affaire pour la profession.

les observateur·ices du secteur des médias connaissent bien cette situation, que l'on vous racontait en février dans une série sur les 20 ans de Facebook : lorsque les Gafam, premiers géants du numérique, ont raflé l'audience des médias en ligne, la question se posait déjà. Fallait-il, ou non, passer des marchés avec Google, Facebook et cie ? Le journaliste spécialiste du sujet Julien Le Bot expliquait à ASI que faire confiance à Facebook a été “la plus grande erreur” des médias. Et l'IA pourrait bien être le prochain eldorado vers lequel les médias vont se précipiter pour, au final, s'entre-tuer.

Elle s'interroge aussi sur l'effet sur la qualité du journal.

Les journalistes du Monde seront-ils aussi fier·es que leur travail nourrisse ChatGPT qu'ils et elles ne le sont à écrire pour le journal français considéré comme “la référence” ?

Sur X, Alexander Doria souligne que Le Monde est une entreprise subventionnée et que ça n'est pas anodin.

Aussi je suis désolé mais le Monde n’est pas une entreprise lambda mais bénéficie de subventions publiques françaises. Est-il normal de brader ce contenu à une multinationale américaine à visée monopolistique ?

En vrac

PAC – @pac@mastodon.social

S'abonner via le Fediverse (@pac@write.apreslanu.it) ou via flux rss (https://write.apreslanu.it/pac/feed/)