Apache Spark 4.0 : la bêta est disponible

Par:
francoistonic

mar, 22/10/2024 - 10:42

Spark est un des frameworks orientés données les plus populaires du marché. La bêta de la v4 est disponible depuis fin septembre. Cette version promet beaucoup d'évolutions :

- Spark Connect : c'est une des fonctions majeures de la v4. Il s'agit d'un nouveau protocole client-serveur pour se connecter à Spark depuis son application. Il sera moins adhérent que le précédent et surtout plus léger. Connect pèse 1,5 Mo contre 355 pour PySpark. Il supporte les langages majeurs du marché et s'intègre facilement aux IDE

- ANSI SQL Mode par défaut. Il sera possible de faire du SQL standard et les exécuter. 

- Variant Data Type : nouveau type de données pour améliorer les performances quand on utilise des données semi-structurées en passant par des requêtes

- Collation Support : simplifier la comparaison de chaînes de données à travers différents langages et support de la sensibilité à la casse

- Amélioration sur SQL UDF et UDTF

- support de Delta Lake 4.0

- nouvelle API Python pour se connecter aux sources de données