GitHub - ippontech/spark-live-coding

On dispose d'un fichier CSV, selon le modèle suivant :

On souhaite construire 3 CSV de la façon suivante :

Où :

Écrire un programme Spark respectant les contraintes suivantes :

Dans agg_ratings, les couples utilisateur/produit sont uniques.
Les userIdAsInteger (tout comme les productIdAsInteger) sont des entiers consécutifs, le premier indice étant 0.
Une pénalité multiplicative de 0.95 est appliquée au rating pour chaque jour d'écart avec le timestamp maximal de input.csv.
On ne souhaite conserver que les ratings > 0.01.

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
README.md		README.md

Provide feedback