September 2nd, 2020

Modèles NLP avec BERT

RSS icon RSS Category: H2O Driverless AI, NLP

H2O Driverless AI 1.9 vient de sortir, et je vous propose une série d’articles sur les dernières fonctionnalités innovantes de cette solution d’Automated Machine Learning, en commençant par l’implémentation de BERT pour les tâches NLP

BERT, ou “Bidirectional Encoder Representations from Transformers” est considéré aujourd’hui comme l’état de l’art sur une série de tâches de traitement du langage naturel.

Nos experts NLP Sudalai Rajkumar (SRK)Maximilian Jeblick et Trushant Kalyanpur ont travaillé dur pour implémenter BERT dans la dernière version de DriverlessAI, ce qui permet aux data scientists d’utiliser les techniques NLP à l’état de l’art, avec une variété de modèles et de transformers BERT, directement ‘out-of-the-box’.

Sur cet exemple, ‘airline sentiment’, jeu de données Kaggle bien connu où il s’agit de déterminer le sentiment d’un tweet, négatif, neutre ou positif, les résultats parlent d’eux-mêmes : en utilisant les techniques TF-IDF, puis en utilisant les transformers natifs TensorFlow, et enfin en utilisant BERT, le score ‘logloss’ sur le jeu de test passe de 0.6093 à 0.4066 (plus le score est bas, plus précis est le modèle)

Notons la disponibilité de plusieurs modèles BERT, dont ‘DistilBERT’, plus léger et plus rapide et presque aussi performant, ou encore le modèle ‘camemBERT’ (si si !), pré-entrainé sur un corpus en français.

BERT vient compléter le scope de DriverlessAI en termes de NLP, qui utilisait déjà nativement TensorFlow et des modèles pré-entrainés pour extraire des features numériques à partir des données texte.

Et comme toujours avec DriverlessAI, les utilisateurs peuvent pousser les modèles en production simplement en utilisant les Mojo C++ ou Python, générés par la plateforme.

Pour plus d’informations sur le NLP avec Driverless AI, je vous invite à suivre ce webinar avec SRK, Trushant Kalyanpur et Maximilian Jeblick

About the Author

Badr Chentouf

Leave a Reply

+
10 Consejos para Convertirte en un Científico de Datos Exitoso

En este mundo que no deja de cambiar y sorprendernos, como científicos de datos debemos

January 19, 2023 - by Favio Vázquez
+
Explaining models built in H2O-3 — Part 1

Machine Learning explainability refers to understanding and interpreting the decisions and predictions made by a

December 22, 2022 - by Parul Pandey
+
H2O.ai at NeurIPS 2022

H2O.ai is proud to participate in the 36th Conference on Neural Information Processing Systems (NeurIPS)

December 6, 2022 - by Marcos V. Conde
+
A Brief Overview of AI Governance for Responsible Machine Learning Systems

Our paper “A Brief Overview of AI Governance for Responsible Machine Learning Systems” was recently

November 30, 2022 - by Navdeep Gill, Abhishek Mathur and Marcos V. Conde
+
H2O World Dallas Customer Talks

After three long years of not having an #H2OWorld, we finally held our first one

November 24, 2022 - by Vinod Iyengar
+
New in Wave 0.24.0

Another Wave release has arrived with quite a few exciting new features. Let's quickly go

November 21, 2022 - by Martin Turoci

Request a Demo

Explore how to Make, Operate and Innovate with the H2O AI Cloud today

Learn More