Sortie de Apache Spark 3.0

Par:
admin

lun, 22/06/2020 - 16:47

Alors que cette année marque le 10ème anniversaire d'Apache Spark en tant que projet open source, l'équipe annonce la disponibilité d'Apache Spark 3.0.

Pour l'occasion, l'équipe du projet souligne, non sans fierté : depuis sa sortie initiale en 2010, Spark est devenu l'un des projets open source les plus actifs. De nos jours, Spark est le moteur unifié de facto pour le traitement des mégadonnées, la science des données, l'apprentissage automatique et l'analyse des données

Voici, selon l'équipe de Spark, les points forts de cette mouture 3.0 : exécution adaptative des requêtes, élagage de partition dynamique, conformité ANSI SQL, améliorations significatives des API pandas, nouvelle interface utilisateur pour le streaming structuré, accélération jusqu'à 40 fois pour l'appel des fonctions définies par l'utilisateur en langage R, planificateur sensible aux accélérateurs, et documentation de référence SQL.

Un planificateur sensible aux accélérateurs, cela signifie concrètement que le gestionnaire de clusters est capable de détecter la présence des accélérateurs GPU et de les utiliser. Spark 3.0 est ainsi capable de pousser les tâches nécessitant de l'accélération GPU sur les machines qui en disposent.

Selon les benchmarks réalisés par les responsables du projet, Spark 3.0 est deux fois plus rapide que Spark 2.4.

Python est désormais le langage le plus utilisé sur Spark. PySpark a plus de 5 millions de téléchargements mensuels sur PyPI, le Python Package Index. C'est pourquoi cette version s'attache à améliorer ses fonctionnalités et sa convivialité, notamment la refonte de l'API pandas UDF avec des conseils de type Python, de nouveaux types UDF pandas et davantage de gestion des erreurs Pythonic.

Spark 3.0 peut être téléchargé depuis son site officiel.