KickStarter : Prédiction du succès d’une campagne de financement participatif

Présentation du projet
Le projet consiste en la mise en place d’un système de classification des projets qui ont réussi/échoué sur la plateforme participatif KickStarter, et prédire le succès d’une campagne de financement participatif afin de :
- Guider les créateurs à réussir la mise en place de leur compagne de projet
- Guider les créateurs dans la prise de décision sur le lancement d’une compagne sur KickStarter en fonction du sujet de leur projet
Source des données
Les données proviennent du site WebRobots, elles représentent les projets lancés sur la plateforme Kickstarter depuis Avril 2009, et crawlés par un robot tous les mois depuis mars 2016.
Ressources utilisés
- Python Version : 3.8.5
- Librairies:
- pandas,
- numpy,
- sklearn,
- matplotlib,
- seaborn,
- time,
- urllib,
- bs4 : BeautifulSoup
Fichiers du projet
Notebook Jupyter
- 01_Analyse_exploratoire.ipynb - Etape 1 : Analyse exploratoire des données
- 02_Processing.ipynb : Etape 2 - Processing des données
- 03_WebScraping.ipynb : Etape 3 - Enrichissement du projet avec du WebScraping
- 04_Analyse_statistique_Data_Viz.ipynb : Etape 4 - Analyse statistique et Data Visualisation
- 05_Machine_learning.ipynb : Etape 5 - Machine Learning
Fichiers Python
- kickstarter.py : Contient les fonctions suivantes :
- Data_update()
- Data_processing()
- Data_webscraping
Fichiers csv
- coup_de_coeur.csv : résultat du webscraping .
- Les fichiers csv stockés dans le dossier
kickstarter_files
représente les dataset bruts tel que téléchargés depuis le site WebRobots et dézippés
Résultats obtenus
Modèles de Régression
-
Logistic Regression :
- Score : 0.561
-
SVM :
- Score : 0.556
-
Decision Tree :
- Score : 0.760
-
Random Forest :
- Score : 0.826
Meilleur score de regression obtenu : 0.826 avec un modèle Random Forest
Analyse de sentiments
Pour la partie analyse de sentiments, malheureusement nous ne disposons pas de ressources matériels suffisantes pour faire tourner les algorithmes d’encodages des données CountVectorizer
, LabelEncoder
et OneHotEncoder
sur notre dataset.
Voir le projet complet sur GitHub