Cette offre n’est plus disponible.

[Stage] Junior data scientist

Stage(5 à 8 mois)
Paris
Salaire : 1,3K à 1,4K € par mois
Début : 30 avril 2019
Télétravail occasionnel
Expérience : < 6 mois
Éducation : Bac +5 / Master

Explain
Explain

Cette offre vous tente ?

Questions et réponses sur l'offre

Le poste

Descriptif du poste

eXplain cherche un datascientist stagiaire pour un stage de pré-embauche.

Vous serez intégré aux équipes R&D et datascience travaillant sur Goodwill, notre produit de compréhension de l’opinion publique au niveau local. Goodwill est un produit d’analyse et d’aide à la décision automatisée dont la valeur dépend des données intégrées et des algorithmes utilisés.

eXplain a constitué une base unique, composée de 25 millions de documents d’archive de la presse locale et d’un million de documents administratifs émis par les collectivités locales et les administrations publiques. Le rôle de l’équipe data est d’exploiter cette donnée pour répondre aux besoins de nos utilisateurs (entreprises qui travaillent avec les collectivités et les populations à une échelle locale) qui sont par exemple : identifier les principaux influenceurs et leurs prises de position sur des thèmes variés, prédire la favorabilité d’une ville vis-à-vis de l’énergie éolienne, anticiper les risques d’acceptabilité pour des projets d’infrastructure ou anticiper les appels d’offres des collectivités.

Pour accomplir ces objectifs, nous mettons en oeuvre des techniques de NLP et de Machine Learning à l’état de l’art par exemple :

  • topic modelling supervisé et non supervisé
  • NER avec des exigence de performance élevée et pour des types d’entités originaux (entreprises, associations…)
  • le résumé automatique de texte
  • la constitution et la désambiguïsation d’une base de connaissances

Chez eXplain, vous aurez l’opportunité de :

  • travailler sur des datasets volumineux et originaux et des problématiques uniques ;
  • appliquer des techniques à l’état de l’art en datascience et en AI ;
  • mettre en production ces techniques dans un produit avec des vrais utilisateurs ;
  • apprendre les bonnes pratiques de développement en contexte professionnel ;
  • proposer des idées de R&D et avoir de l’impact dans une phase où les sujets sont encore ouverts ;
  • être intégré dans une squad pluridisciplinaire, incluant un product owner, des développeurs back et front et d’autres data-scientists.
  • Vous rejoindrez une équipe de 9 datascientists (5 PhDs, 3 ENSAE, 1 MVA) et vous serez encadré par un data-scientist senior.
    eXplain a déjà accueilli à plusieurs reprises avec succès des stagiaires en data science et saura vous proposer le coaching et les responsabilités qui vous feront progresser. L’objectif du stage est de déboucher sur une embauche.
  • Vous pourrez trouver une illustration du type de problématiques que nous traitons ici https://medium.com/le-blog-explain/text-classification-on-local-newspapers-articles-e4f85bdc379d.

Environnement technique

Outils

  • Python : utilisation des packages pandas, numpy, sklearn, fastai
  • Base de données SQL et Elastic Search
  • Implémentation de pipeline de traitement sur AWS Lambda
  • Utilisation de Git et application des best practices de développement logiciel (tests unitaires, programmation orientée objet…)

NLP

  • Utilisation de Spacy, gensim et NLTK
  • Constitution de datasets avec de l’active learning (Prodigy)
  • Algorithmes de vectorisation de textes (word2vec, TF-IDF), reconnaissance d’entités nommées, text summarization et classification de textes

Profil recherché

Prérequis

  • Etudiant ou jeune diplômé d’une grande école ou d’une université de premier plan (master de datascience, stat…)
  • Goût pour le prototypage rapide et l’implémentation jusqu’à la production
  • Intérêt pour les bonnes pratiques d’implémentation et de développement logiciel
  • Niveau intermédiaire ou avancé en Python
  • Intérêt pour le NLP (pas d’expérience du domaine requise)
  • Goût pour la réflexion produit
  • Intérêt pour les sujets de société
  • La langue de travail est le français

Apprécié

  • Mise en œuvre du NLP dans des projets
  • Niveau avancé en Python et en implémentation

Déroulement des entretiens

  1. Entretien d’introduction (45 min)
  2. Test technique à réaliser à la maison (environ 2h)
  3. Entretien technique avec le CSO et le lead data scientist (2h): debrief test technique et cas d’usage
  4. Entretien avec un fondateur (1h): motivation, présentation du poste et de la société

Envie d’en savoir plus ?

D’autres offres vous correspondent !

Ces entreprises recrutent aussi au poste de “Données/Business Intelligence”.

Voir toutes les offres