sebington

Learn Data with Mark

Je me souviens d’un article sur Eddie Van Halen dans la presse musicale spécialisée au début des années 80 qui commençait ainsi : “Edward Van Halen est un petit mec passionnant”. Je dirais la même chose aujourd’hui de Mark Needham et de sa chaîne Youtube Learn Data With Mark dont les vidéos, véritables pépites extrêmement bien conçues et à haute teneur informative, mériteraient beaucoup plus de visibilité.

Mark est sans nul doute un développeur chevronné doublé d’un technicien multimédia hors pair quand il s’agit de diffuser son travail. Les sujets traités et une foultitude de détails en attestent. Pour ses vidéos il a choisi un format très court, environ 5 minutes. Mark démontre qu’en préparant le scénario avec soin, on peut donner beaucoup d’information utile en peu de temps. Tout le contraire des youtubeurs qui se répandent en autocomplaisance ou qui répètent 50 fois la même chose dans leurs vidéos interminables.

Je soupçonne Mark Needham d’être un adepte de l’approche Less is More. Je le sens aussi assez perfectionniste. Un soin extrême a été apporté à l’éclairage, à la sobriété du fond noir et à la présentation des extraits de code, dont l’affichage et le défilement sont très maîtrisés. Je crois avoir deviné qu’il utilise entre autres asciinema, un outil en ligne de commande qui enregistre tout ce qui s’affiche dans une fenêtre de terminal. Mark peut ensuite le restituer lors de l’enregistrement de la vidéo. Ce dispositif fait en sorte que le code affiché colle parfaitement aux commentaires. De plus Mark semble utiliser une sorte de télécommande (que l’on aperçoit dans sa main droite) pour lire ou arrêter la diffusion du script préenregistré.

Mark affectionne le shell IPython, qui lui permet d’exécuter le code pas à pas, ce qui favorise le côté didactique et pédagogique de ses tutoriels. Ses sujets de prédilection, au départ centrés sur l’analyse de données avec Pandas, DuckDB, Apache Parquet ou Apache Kafka ont peu à peu incorporé les avancées en IA de ces dernières années avec des sujets sur les LLM multi-modaux, ASR, Hugging Face, RAG, OpenAI, Qdrant, Llama.cpp, Ollama, Vector Search, etc. Sa chaîne YouTube est récente, la première vidéo a été postée le 18 août 2022, quelques mois seulement avant la sortie de ChatGPT.

Mark commence à intégrer l’IA et les LLM dans ses vidéos à partir de juillet 2023. Très vite, il explique comment faire tourner des LLM open source en local sur sa machine, avec des frameworks (notamment llama.cpp) qui permettent une inférence raisonablement véloce sur des machines grand public (même sans GPU). Ses tutoriels semblent être le reflet de cas concrets issus de vraies problématiques de travail, pas des démos gratuites “pour la gloire”.

Il parle notamment de méthodes permettant de contraindre les LLM, ces grands bavards, à donner des réponses structurées à partir de données qui ne le sont pas toujours. Au fil des vidéos, on le voit adopter des outils annexes qui permettent aux développeurs de travailler plus efficacement, comme par exemple Poetry ou, plus récemment, uv. Tous les codes présentés sont disponibles dans son Github ou sur son blog. Il essaie le plus possible de répondre aux questions des internautes.

En conclusion, si comme moi vous vous intéressez à la programmation en python et aux formidables possibilités offertes par l’IA, je recommande vivement la chaîne de Mark Needham, informative et inspirante.