LoĂŻck BOURDOIS bio photo

LoĂŻck BOURDOIS

Data Scientist working at the Bordeaux Population Health Research Centre of INSERM University of Bordeaux.

Avant-propos d’Elvis

Bienvenue au onziĂšme numĂ©ro de la lettre d’information consacrĂ©e au NLP. \

Quelques mises à jour sur la lettre d’information sur le NLP et sur dair.ai : \

  • Nous avons publiĂ© un jeu de donnĂ©es qui peuvent ĂȘtre utilisĂ©es pour la recherche d’émotions basĂ©e sur des textes. Le rĂ©pertoire comprend un notebook) qui montre comment fine-tuner les modĂšles BERT prĂ©-entraĂźnĂ©s pour la tĂąche de classification des Ă©motions. Plus rĂ©cemment, un modĂšle a Ă©tĂ© fine-tuneĂ© sur notre jeu de donnĂ©es et hĂ©bergĂ© sur HuggingFace, permettant une intĂ©gration simple Ă  une pipeline de NLP.

  • Nous avons rĂ©cemment tenu notre toute premiĂšre sĂ©ance de lecture de d’articles. Plus de 124 personnes se sont inscrites et une grande partie de ce groupe a participĂ© Ă  l’évĂ©nement Ă  distance. La premiĂšre discussion a portĂ© sur le document du T5. Nous organisons une deuxiĂšme session oĂč nous aurons une discussion approfondie sur le document. Pour en savoir plus sur les prochains Ă©vĂ©nements, rejoignez notre groupe Meetup, ou participez Ă  la discussion dans notre groupe Slack.

Publications 📙

OpenAI’s Jukebox


Le dernier travail dĂ©voilĂ© par OpenAI s’appelle Jukebox et est essentiellement une architecture de rĂ©seau neuronal entraĂźnĂ© pour gĂ©nĂ©rer de la musique (Ă  partir de zĂ©ro) dans divers genres et styles artistiques. Le modĂšle, basĂ© sur une approche de quantification appelĂ©e VQ-VAE, est alimentĂ© par le genre, l’artiste et les paroles et produit un nouvel Ă©chantillon audio. L’idĂ©e est de traiter et de compresser de longues entrĂ©es audio brutes via un auto-encodeur Ă  plusieurs niveaux et de rĂ©duire la dimensionnalitĂ© tout en prĂ©servant les informations musicales essentielles. Par la suite, des transformers sont utilisĂ©s pour gĂ©nĂ©rer des codes qui sont ensuite reconstruits en audio brut via le dĂ©codeur VQ-VAE. Plus de dĂ©tails sur ce travail est disponible sur le blog d’OpenAI ou dans l’article complet.



HybridQA : A Dataset of Multi-Hop Question Answering over


Jusqu’à prĂ©sent, la plupart des jeux de donnĂ©es rĂ©pondant aux questions portent sur des informations homogĂšnes. HybridQA est un jeu de donnĂ©es de rĂ©ponse aux questions Ă  grande Ă©chelle destinĂ© Ă  encourager la recherche et les mĂ©thodes qui nĂ©cessitent un raisonnement sur des informations hĂ©tĂ©rogĂšnes. L’ensemble de donnĂ©es se compose d’un tableau WikipĂ©dia structurĂ© et d’informations non structurĂ©es sous la forme d’entitĂ©s se liant Ă  des corpus de forme libre. Les auteurs introduisent Ă©galement deux baselines permettant de souligner les avantages de travailler avec des informations hĂ©tĂ©rogĂšnes par rapport Ă  l’utilisation d’informations homogĂšnes. Cependant, ils soulignent que les rĂ©sultats sont loin derriĂšre la performance humaine et que cela nĂ©cessite des systĂšmes d’assurance qualitĂ© qui peuvent mieux raisonner sur des informations hĂ©tĂ©rogĂšnes.


Source


Un chatbot open-source de pointe


Facebook AI a construit et a mis en open source Blender, un modĂšle basĂ© sur l’IA qu’ils appellent le plus grand chatbot Ă  domaine ouvert. Suite au succĂšs de Meena (un rĂ©cent systĂšme d’IA conversationnelle proposĂ© par Google), ils ont proposĂ© un modĂšle qui mĂ©lange les compĂ©tences conversationnelles comme l’empathie et la personnalitĂ© afin d’amĂ©liorer la qualitĂ© de la conversation gĂ©nĂ©rĂ©e. Le modĂšle a Ă©tĂ© entraĂźnĂ© Ă  l’aide d’un modĂšle basĂ© sur un transformer (jusqu’à 9,4 milliards de paramĂštres) sur environ 1,5 milliard d’échantillons d’entraĂźnement. Il a ensuite Ă©tĂ© fine-tunĂ© Ă  l’aide d’un jeu de donnĂ©es (Blended Skill Talk) qui vise Ă  fournir les traits souhaitables identifiĂ©s qui pourraient amĂ©liorer les capacitĂ©s conversationnelles du modĂšle. Les auteurs affirment que le modĂšle est capable de gĂ©nĂ©rer des rĂ©ponses que les Ă©valuateurs humains ont jugĂ©es plus humaines que celles gĂ©nĂ©rĂ©es par Meena.


TLDR : rĂ©sumĂ© extrĂȘme d’articles scientifiques


Ce document propose une approche, y compris un jeu de donnĂ©es (SCITLDR), pour la nouvelle tĂąche de gĂ©nĂ©ration de TLDR d’articles scientifiques. TLDR Ă©tant les initiales de « too long ; didn’t read » en anglais. Ce sigle est utilisĂ© pour indiquer que ce qui suit est un rĂ©sumĂ© du texte trop long. Dans ce travail, les TLDR sont dĂ©finis comme une alternative et un rĂ©sumĂ© compact de l’article scientifique. Les TLDR, comme le suggĂšrent les auteurs, peuvent servir de moyen de comprendre rapidement le sujet d’un article et Ă©ventuellement aider le lecteur Ă  dĂ©cider s’il veut continuer Ă  lire l’article. Pour la tĂąche finale, un modĂšle basĂ© sur BART avec un fine-tuning multitĂąche (incluant la gĂ©nĂ©ration de titres et la gĂ©nĂ©ration de TLDR) a Ă©tĂ© utilisĂ©.


Cachola et al. (2020)


WT5 ?! Entraßnement des modÚles de texte à texte pour expliquer leurs prévisions


Un nouveau travail appelĂ© WT5 (abrĂ©viation de “Why, T5 ?”) fine-tune un modĂšle T5 de Google pour produire des explications aux prĂ©visions qu’il fait. Cela peut aider Ă  mieux comprendre pourquoi un modĂšle fait certaines prĂ©dictions. Le modĂšle est alimentĂ© par des exemples avec des explications cibles et des labels cibles. Le texte d’entrĂ©e, qui comprend un prĂ©fixe de tĂąche (par exemple, sentiment) et le texte rĂ©el peuvent Ă©galement ĂȘtre prĂ©cĂ©dĂ©s d’une Ă©tiquette “explain” (voir l’exemple dans la figure ci-dessous). Cela permet un apprentissage semi-supervisĂ© oĂč des donnĂ©es entiĂšrement Ă©tiquetĂ©es sont fournies au modĂšle et oĂč seuls des exemples limitĂ©s ont les balises d’explication. Les auteurs font Ă©tat de rĂ©sultats quantitatifs et qualitatifs dĂ©montrant que leur approche permet d’obtenir des rĂ©sultats de pointe sur les ensembles de donnĂ©es d’explicabilitĂ©, y compris la capacitĂ© Ă  obtenir de bons rĂ©sultats dans les donnĂ©es hors domaine. Ce travail prĂ©sente un modĂšle de base intĂ©ressant qui peut ĂȘtre utilisĂ© pour mieux comprendre les prĂ©dictions des modĂšles basĂ©s sur le texte mais, comme le soulignent les auteurs, l’approche n’est qu’une amĂ©lioration superficielle de l’interprĂ©tabilitĂ© et qu’il est possible de l’amĂ©liorer.


Narang et al. (2020)

Outils et jeux de donnĂ©es ⚙

NVIDIA’s Medical Imaging Framework


MONAI est un framework d’IA en imagerie mĂ©dicale destinĂ© Ă  soutenir le dĂ©veloppement scientifique dans le domaine des soins de santĂ©. Comme indiquĂ© dans les notes de publication, MONAI vise Ă  fournir une bibliothĂšque conviviale et optimisĂ©e pour le traitement des donnĂ©es relatives aux soins de santĂ©. Comme d’autres bibliothĂšques, elle fournit Ă©galement des outils de traitement et de transformation des donnĂ©es spĂ©cifiques Ă  un domaine, des modĂšles de rĂ©seaux neuronaux couramment utilisĂ©s dans l’espace, y compris l’accĂšs Ă  des mĂ©thodes d’évaluation et la possibilitĂ© de reproduire les rĂ©sultats.


Un Ă©mulateur Python pour Game Boy


PyBoy est un outil construit en Python capable de gĂ©rer une interface Game Boy. Il comprend aussi une enveloppe expĂ©rimentale pour entraĂźner un agent basĂ© sur l’IA qui interagit avec le jeu.



Jupyter Notebooks en PDF


Avez-vous dĂ©jĂ  voulu convertir vos notebooks en format PDF ? Cette extension de Jupyter Ă©crite par Tim Head vous permet de produire des PDF Ă  partir de vos ordinateurs portables avec le moins d’exigences possible en termes de plugins et permet de joindre les ordinateurs portables au PDF pour la reproductibilitĂ©.


Sur la mise en place de systĂšmes d’IA conversationnelle plus rĂ©alistes


La librairie Transformers comprend maintenant DialoGPT. DialoGPT est un modĂšle de gĂ©nĂ©ration de rĂ©ponse conversationnelle neuronale Ă  grande Ă©chelle proposĂ© par Microsoft. Il diffĂšre des modĂšles prĂ©cĂ©dents qui dĂ©pendent de donnĂ©es textuelles gĂ©nĂ©rales telles que WikipĂ©dia et les articles de presse, car il utilise des quantitĂ©s massives de conversations extraites des commentaires de Reddit. DialoGPT est basĂ© sur le modĂšle de langage autorĂ©gressif basĂ© sur le GPT et vise Ă  fournir un prĂ©-entraĂźnement Ă  grande Ă©chelle pour la gĂ©nĂ©ration de rĂ©ponses et de permettre ainsi une IA conversationnelle plus reprĂ©sentative de l’interaction humaine.



TorchServe et [TorchElastic for Kubernetes], nouvelles librairies PyTorch pour servir et entraĂźner des modĂšles Ă  l’échelle


TorchServe est une librairie open-source qui permet aux dĂ©veloppeurs d’entraĂźner leurs modĂšles tout en visant Ă  rĂ©duire les frictions dans le processus. L’outil est construit sur PyTorch et permet aux dĂ©veloppeurs de dĂ©ployer leurs modĂšles en tant que travaux en utilisant AWS. Torchserve est conçu comme la maniĂšre canonique de servir les modĂšles entraĂźnĂ©s en fournissant des fonctionnalitĂ©s telles que le dĂ©ploiement sĂ©curisĂ©, des API d’infĂ©rence, les mesures en temps rĂ©el du service d’infĂ©rence, et une gestion facile des modĂšles.


MLSUM : Le corpus multilingue de résumés


Pour encourager et renforcer la recherche multilingue en NLP, des chercheurs de ReciTAL et du CNRS ont rĂ©cemment proposĂ© un corpus de rĂ©sumĂ©s multilingues. L’ensemble de donnĂ©es a Ă©tĂ© obtenu Ă  partir de journaux et contient environ 1,5 million d’articles en français, allemand, espagnol, russe et turc.


Made with ML


Au cas oĂč vous l’auriez manquĂ©, Goku Mohandas a construit un site web appelĂ© « Made with ML » qui vise Ă  fournir un outil pour dĂ©couvrir des projets ML pertinents et intĂ©ressants. Il s’agit d’une plateforme qui permet aux crĂ©ateurs de partager leurs projets avec la communautĂ©. Une rĂ©cente mise Ă  jour du site web comprend une section qui fournit des sujets soigneusement sĂ©lectionnĂ©s qui peuvent aider les utilisateurs Ă  trouver rapidement des projets pertinents.


Articles et Blog ✍

Quelles sont les nouveautés pour les Transformers lors de la conférence ICLR 2020 ?


L’une des plus importantes confĂ©rences sur l’apprentissage automatique, l’ICLR, a dĂ» se tenir virtuellement cette annĂ©e en raison des restrictions de voyage imposĂ©es par les pays du monde entier. Voici quelques articles prĂ©sentĂ©s lors de cette confĂ©rence.


Cet [article] (https://towardsdatascience.com/whats-new-for-transformers-at-the-iclr-2020-conference-4285a4294792) rĂ©sume certains des travaux relatifs aux Transformers qui comprennent des rĂ©visions architecturales (par exemple ALBERT, Reformer et Transformer-XH), de nouvelles procĂ©dures d’apprentissage (par exemple ELECTRA et Pretrained Encyclopedia) et l’amĂ©lioration d’autres domaines tels que la recherche Ă  grande Ă©chelle, la gĂ©nĂ©ration de texte et les reprĂ©sentations visuelles et linguistiques. Un document fournit une analyse dĂ©taillĂ©e dĂ©crivant les aspects communs des couches d’auto-attention et convolutionnelles, avec des rĂ©sultats intĂ©ressants suggĂ©rant que les architectures de Transformers sont une gĂ©nĂ©ralisation potentielle des CNN.


Si vous souhaitez en savoir plus sur d’autres travaux publiĂ©s dans le cadre de la CIRL cette annĂ©e, vous pouvez consulter le site Papers with Code website.


Enfin, l’ICLR vient de mettre en libre accĂšs toutes les confĂ©rences.


AI Economist : AmĂ©liorer l’égalitĂ© et la productivitĂ© grĂące Ă  des politiques fiscales axĂ©es sur l’IA


Un groupe de chercheurs a proposĂ© un framework d’apprentissage par renforcement (AI Economist) qui vise Ă  apprendre les politiques fiscales dynamiques uniquement par la simulation et les solutions basĂ©es sur des donnĂ©es. Certaines des amĂ©liorations obtenues par l’AI Economist montrent des rĂ©sultats et des calendriers prometteurs qui pourraient dĂ©boucher sur un cadre susceptible d’amĂ©liorer les rĂ©sultats sociaux et l’état des inĂ©galitĂ©s Ă©conomiques.



Sur l’apport de capacitĂ©s de raisonnement de bon sens aux systĂšmes d’IA


L’une des capacitĂ©s qui font dĂ©faut dans de nombreux systĂšmes d’IA actuels est le raisonnement de bon sens. Cet article prĂ©sente un bref historique de ce problĂšme et explique comment les chercheurs commencent Ă  progresser dans ce domaine. Un bon nombre des efforts rĂ©cents comprennent la crĂ©ation de bases de connaissances pour entraĂźner un rĂ©seau neuronal (en particulier des modĂšles de langage) afin d’apprendre plus rapidement et plus efficacement sur le monde. Cela peut ĂȘtre considĂ©rĂ© comme un effort pour combiner le raisonnement symbolique avec les rĂ©seaux de neurones afin de traiter les problĂšmes de couverture et de bruitage des modĂšles.


COMET — Bosselut et al. (2019)


Un examen des principaux critÚres de référence du NLP


Qu’est-ce que le NLP peut faire de mieux que les humains et oĂč y a-t-il encore des possibilitĂ©s d’amĂ©lioration ? Dans un rĂ©cent billet de blog, Manuel Tonneau examine les performances du modĂšle par rapport au benchmark GLUE, en identifiant les tĂąches oĂč les systĂšmes de NLP excellent dĂ©jĂ  et celles oĂč les humains ont encore une longueur d’avance. Les rĂ©fĂ©rences SuperGLUE et XTREME sont Ă©galement prĂ©sentĂ©es comme une initiative visant Ă  placer la barre plus haut et Ă  motiver davantage la recherche sur de nouvelles tĂąches et de nouveaux langages.


SuperGLUE benchmark


Serveur d’infĂ©rence Triton (TensorRT) pour les modĂšles de Transformers


Dans ce billet de blog les auteurs utilisent le serveur d’infĂ©rence Triton (TensorRT) de NVIDIA pour hĂ©berger les modĂšles et expĂ©rimenter avec diffĂ©rentes configurations afin de fournir des rĂ©sultats comparables entre les modĂšles desservis par TensorFlow et PyTorch. Le rapport comprend les rĂ©sultats obtenus sur les diffĂ©rents aspects du modĂšle de service, tels que la latence avec concurrence, le dĂ©bit avec concurrence, et d’autres configurations impliquant la taille des batchs et la longueur de la sĂ©quence. De nombreux aspects du service de modĂšle sont manquants dans le rapport mais les auteurs sont intĂ©ressĂ©s par des tests avec le versionnement de modĂšle et diffĂ©rentes tĂąches telles que la dĂ©tection d’objets. Ces guides fournissent les meilleures pratiques et techniques d’évaluation des modĂšles qui sont utiles aux personnes qui mettent leurs modĂšles en production.


Latence et dĂ©bit pour diffĂ©rents modĂšles  — source


Un guide en Keras pour les couches récurrentes


Cet article d’Amit Chaudhary fournit une explication visuelle des couches rĂ©currentes disponibles dans Keras et de l’effet de divers arguments sur l’entrĂ©e et la sortie. Cela vise Ă  fournir une meilleure comprĂ©hension de la façon d’interagir avec les couches RNN de Keras lors de la prĂ©paration et du traitement des donnĂ©es. Un tutoriel utile pour les dĂ©butants intĂ©ressĂ©s par le langage de modĂ©lisation avec les modĂšles RNN.


Education 🎓

Livre d’apprentissage approfondi pour le cloud, le mobile et les pĂ©riphĂ©riques


Si vous ĂȘtes intĂ©ressĂ© par l’utilisation de vos modĂšles d’apprentissage approfondi dans le cloud, les tĂ©lĂ©phones mobiles et les pĂ©riphĂ©riques, voici un livre Ă©crit par Anirudh Koul, Siddha Ganju et Meher Kasam. Le livre s’intitule “Practical Deep Learning Book for Cloud, Mobile & Edge” et traite de sujets allant du fine-tuning et du dĂ©ploiement de vos modĂšles de vision par ordinateur Ă  une introduction de plus de 40 Ă©tudes de cas de l’industrie, en passant par l’utilisation de l’apprentissage par transfert pour entraĂźner rapidement les modĂšles.



Cours de ML

  • Stanford a mis Ă  disposition un ensemble de vidĂ©os du cours de ML enseignĂ© par Andrew Ng. Ce cours fournit un contenu qui pourrait ĂȘtre utile aux Ă©tudiants qui se lancent dans le monde de l’apprentissage automatique.
  • Alors que nous mettons en production des systĂšmes de ML et de NLP pour une utilisation dans le monde rĂ©el, il devient crucial de construire des systĂšmes plus fiables et prĂ©servant la vie privĂ©e. Ce cours couvre les sujets de l’apprentissage machine fiable.
  • Thomas Wolf a enregistrĂ© une vidĂ©o qui explique les tendances rĂ©centes et les sujets futurs de l’apprentissage par transfert pour le NLP.


Cours sur les GAN


Cette confĂ©rence vidĂ©o de Pieter Abbeel donne un aperçu complet des GAN qui sont utilisĂ©s aujourd’hui pour toutes sortes d’applications crĂ©atives, de la production d’images rĂ©alistes Ă  la peinture numĂ©rique. Cette confĂ©rence fait partie du cours Deep Unsupervised Learning actuellement dispensĂ© Ă  l’universitĂ© de Berkley. Voir le plan de la confĂ©rence ci-dessous.



Calcul diffĂ©rentiel pour l’apprentissage approfondi


AurĂ©lien Geron partage un notebook qui vise Ă  introduire les concepts de base du calcul diffĂ©rentiel tels que les dĂ©rivĂ©es, les dĂ©rivĂ©es partielles et les gradients. Ces sujets sont tous importants dans le domaine de l’apprentissage profond et AurĂ©lien GĂ©ron rĂ©sume les concepts ainsi que les mises en Ɠuvre, y compris des visualisations faciles Ă  comprendre pour guider l’apprenant. Il recommande Ă©galement de consulter un autre notebook sur l’autodiffĂ©renciation.


Mentions spĂ©ciales ⭐

  • Andrej Karpathy partage certains des dĂ©veloppements rĂ©cents chez Tesla afin d’aboutir Ă  une conduite autonome complĂšte. Les sujets abordĂ©s comprennent la modĂ©lisation des HydraNets, les moteurs de donnĂ©es, les mesures d’évaluation et la maniĂšre d’effectuer efficacement des infĂ©rences sur ces modĂšles de rĂ©seaux neuronaux Ă  grande Ă©chelle.
  • Il s’agit d’un dĂ©pĂŽt prĂ©parĂ© par MLT contenant une liste d’outils interactifs pour l’apprentissage automatique, l’apprentissage approfondi et les mathĂ©matiques.
  • Un rĂ©cent document vise Ă  fournir un aperçu concis des coĂ»ts associĂ©s Ă  l’entraĂźnement de grands modĂšles de NLP et la maniĂšre de calculer ces coĂ»ts.
  • Springer a mis Ă  disposition gratuitement des centaines de livres dont les titres vont des mathĂ©matiques Ă  l’apprentissage approfondi. Cet article rĂ©sume certains des livres relatifs Ă  l’apprentissage machine qui peuvent ĂȘtre tĂ©lĂ©chargĂ©s gratuitement.
  • Kra-Mania est une application simple de question-rĂ©ponse construite avec Haystack en utilisant un jeu de donnĂ©es d’assurance qualitĂ© ouvert construit Ă  partir de l’exposition Seinfeld. Ce tutoriel montre Ă  quel point il est facile de construire des pipelines d’assurance qualitĂ© avec la librairie. Et ce lien vous emmĂšne Ă  l’application de dĂ©monstration.
  • L’explicabilitĂ© est le processus par lequel les chercheurs visent Ă  mieux comprendre les rĂ©seaux neuronaux profonds. Ce document fournit un “guide de terrain” sur l’explicabilitĂ© de l’apprentissage profond pour les non-initiĂ©s.
  • Voici une petite enquĂȘte dĂ©crivant les travaux rĂ©cents sur l’augmentation des donnĂ©es, qui est devenue un domaine d’étude populaire en ML et en NLP.
  • Dans la newsletter prĂ©cĂ©dente, nous avons prĂ©sentĂ© Longformer, une variante du Transformer qui amĂ©liore les performances de diverses tĂąches de NLP, en particulier pour les documents longs. Dans cette vidĂ©o, Yannic Kilcher explique la nouveautĂ© proposĂ©e dans ce travail.

Vous pouvez retrouver la précédente newsletter ici


Si vous avez des jeux de données, des projets, des articles de blog, des tutoriels ou des documents que vous souhaitez partager dans la prochaine édition de la newletter, vous pouvez utiliser ce formulaire.


Abonnez-vous pour recevoir les prochains numéros dans votre boßte mail.