Découvrir le métier de Data Scientist : missions, études, salaires et défis
Data Scientist Salaire
Environ 40k€ brut/an en début de carrière, hors primes et variable.
Data Scientist Formation
École d’ingénieur en stats/data science, maths appliquées ou informatique, plus spécialisation.
Data Scientist c’est quoi
Analyse et traite des données pour répondre aux besoins métiers, crée des modèles prédictifs.
Notes du podcast et liens utiles :
Notre invité : Amandine Tran – Profil LinkedIn
Interview faite par : Bertrand Jonquois – Profil LinkedIn
La transcription de l’interview d’Amandine Tran, Data Scientist
Bertrand
Merci beaucoup, Amandine, d’avoir accepté l’invitation du Gagne Pain. Tu es Data Scientist chez SNCF Connect & Tech. On va avoir l’occasion d’expliquer ça dans le détail, mais avant, peux-tu te décrire en quelques mots ?
Amandine
Oui, j’ai 24 ans. J’ai effectué mon bac en 2015 dans ma ville d’origine, Lyon. À la suite de mon bac, j’ai fait une classe préparatoire qui mêle les lettres, les sciences sociales et les mathématiques. Alors, j’ai décidé de plutôt m’orienter vers des études en mathématiques appliquées.
Bertrand
As-tu hésité à un moment ?
Amandine
Oui, j’ai réellement hésité entre les deux domaines.
Bertrand
Et, maintenant, tu n’hésites plus, ce sont les maths ?
Amandine
C’est ça. Vraiment, j’ai découvert en classe préparatoire que j’étais davantage « appétente » aux maths.
Bertrand
D’accord. Après, tu as fait une école spécialisée dans la data science ?
Amandine
Oui, c’est ça. J’ai fait une première partie de mes études à l’ENSAI en statistiques, puis en data science à l’ENSAE à Paris.
Bertrand
D’accord, peux-tu nous expliquer quel a été ton parcours professionnel ? Tes stages, tes expériences professionnelles avant SNCF Connect & Tech ?
Amandine
Les stages, je les ai surtout effectués dans le cadre de mon cursus en école d’ingénieur à l’ENSAE. J’ai effectué un premier stage chez Orange où mes missions, c’étaient celles d’un data scientist auprès des équipes marketing. Et un second stage, à la Banque de France où mes missions étaient plus comme chargée d’études statistiques, d’analyser les comportements des citoyens.
Bertrand
Merci Amandine. Est ce que maintenant, tu peux nous présenter l’entreprise dans laquelle tu travailles actuellement ?
Amandine
Oui, je travaille aujourd’hui chez SNCF Connect & Tech, qui est une filiale privée de SNCF Voyager. C’est aujourd’hui l’un des leaders du numérique et du e-commerce dans le secteur des mobilités.
Bertrand
Il y a deux activités, tu me disais, en préparant cette interview ?
Amandine
Oui, on a une première activité de e-commerce et une seconde activité qui est plutôt tech.
Bertrand
Si on parle de la première activité : qu’est ce qui se passe au niveau du e-commerce chez SNCF Connect & Tech ?
Amandine
Oui, nous sommes principalement connus pour notre application. Le service SNCF Connect, qui vous permet notamment d’acheter des billets de train, mais également de gérer vos mobilités du quotidien via le rechargement de votre passe Navigo.
Bertrand
D’accord. Tu me citais quelques chiffres qui m’ont impressionné, des chiffres qui étaient en équivalent aux Stades de France. Peux-tu préciser ça ?
Amandine
C’est ça. En 2022, on a vendu à peu près 190 millions de billets. Ça équivaut à plus de six stades de France complets vendus par jour.
Bertrand
Énorme. La deuxième activité est une activité tech. Pourrais-tu nous expliquer ce que ça veut dire ?
Amandine
Oui, bien sûr. On fournit aussi des services, des produits numériques pour le groupe SNCF. Ça va passer surtout par les services d’affichage en gare ou bien des logiciels d’éco-conduite pour les conducteurs de train.
Bertrand
D’accord, c’est très, très clair. Maintenant, j’aimerais bien que tu rentres un peu plus dans tes missions. Quelles sont les missions d’une data scientist chez SNCF Connect & Tech ? Est ce que tu peux nous expliquer ça et nous expliquer d’abord comment on traduit ton métier ?
Amandine
Oui. Data scientist, on peut le traduire en français littéralement par « scientifique de la donnée ».
Amandine
J’ai principalement trois missions. La première, c’est de recueillir les besoins de nos clients, en l’occurrence, plutôt des clients internes. La deuxième mission, c’est d’explorer, de traiter la donnée pour apporter des solutions. La troisième, c’est d’acculturer l’entreprise à la data science, qui est encore un domaine assez nouveau.
Bertrand
Si on vient sur chacune de ces missions, recueillir les besoins, ça veut dire quoi et quels besoins ?
Amandine
C’est-à-dire qu’on va soit aller au contact des équipes métiers, soit elles viennent à notre contact pour nous exprimer leurs besoins. Par exemple, on aurait besoin d’identifier les clients qui seraient davantage appétants à la première classe pour promouvoir cette première classe en train.
Bertrand
Ok, donc on va aller chercher dans les données tout ce qu’on peut savoir sur ceux qui utilisent la première classe ?
Amandine
Tout à fait ça.
Bertrand
Alors après, il y a la deuxième mission qui est de recueillir les informations, les datas. Ça veut dire quoi ? Comment ça se passe ?
Amandine
Autrement dit, pour répondre aux besoins du client, on a besoin de savoir quelles sont les données qui sont à disposition. A-t-on besoin de les collecter nous-mêmes ou sont-elles déjà disponibles ? Ensuite, on va effectuer des traitements, des analyses pour apporter des solutions aux clients.
Bertrand
Donc maintenant, on va fouiller dans tout l’espace de SNCF Connect & Tech pour trouver les données qui nous intéressent et les collecter. Et, c’est là qu’on va utiliser des outils un peu spécifiques ?
Amandine
Oui, tout à fait.
Bertrand
Une troisième mission me semble également très intéressante, c’est acculturer l’entreprise, expliquer à l’intérieur de l’entreprise quel est ton métier, à quoi ça sert ? Comment ça se passe ? Tu organises des réunions ?
Amandine
Oui, ça va passer tout d’abord par des formations internes organisées par l’équipe Data Science pour présenter à différents types de publics ce qu’est la data science, comment ça fonctionne. Ensuite, on va aussi organiser des sessions de présentation, participer aux présentations de différentes directions pour pouvoir partager nos réalisations.
Bertrand
Dans les réponses que tu avais faites en préparant cette interview, tu avais aussi parlé de machine learning. Explique-t-on aussi le machine learning pendant ces réunions ? On doit expliquer comment ça fonctionne, ça ?
Amandine
Ça dépend si on rentre dans les détails, mais on est obligé au moins d’expliquer les principes fondamentaux du machine learning. C’est-à-dire que le machine learning, ça se base tout d’abord sur les données et c’est la machine qui va apprendre à partir des données certains comportements.
Bertrand
D’accord. Merci beaucoup. Amandine, pourrais-tu nous dire pourquoi tu as choisi ce métier de data scientist ?
Amandine
Oui, j’ai choisi ce métier parce que, tout d’abord, j’aime beaucoup les mathématiques, mais en particulier, j’apprécie les mathématiques appliquées. Autrement dit l’utilisation des maths dans des cas concrets. Le métier de data scientist, c’était l’occasion d’appliquer ces mathématiques pour divers types de secteurs.
Bertrand
L’idée, c’était que d’abord, tu avais une appétence pour les maths, que tu aimais ça. Mais qu’en plus, il fallait que cela soit concret ? C’est le cas, dans ton métier, ça rend des services concrets dans les entreprises ?
Amandine
C’est ça.
Bertrand
Amandine, est-ce que tu pourrais nous dire quelles sont les trois principales compétences requises pour ce job de data scientist ?
Amandine
Oui. Tout d’abord, je pense qu’il faut avoir une certaine appétence pour les mathématiques et en particulier les statistiques. Ensuite, je pense qu’il est intéressant de savoir faire preuve de curiosité. C’est un domaine qui est assez récent dans les entreprises et en constante évolution. Enfin, je pense qu’il faut aussi avoir une certaine maîtrise du code informatique, par exemple la programmation en Python qu’on fait très régulièrement.
Bertrand
Si on revient rapidement sur les points que tu évoques. Posséder une appétence pour les maths, on l’a compris, les maths, les stats… Mais être curieux, ça m’intéresse plus. Ça veut dire quoi ? Il faut parfois fouiller, il y a un petit côté mineur, il faut aller chercher au fond des choses ?
Amandine
Oui, tout à fait. Parce que tout d’abord, c’est un métier assez récent dans les entreprises, donc il y a constamment de nouveaux outils qui apparaissent et il est intéressant d’essayer de les explorer. Pour un projet, il est aussi intéressant de se renseigner : quels sont les outils qui existent, quels sont les types de modèles qui existent pour pouvoir répondre aux besoins.
Bertrand
D’accord, en conséquence il y a une évolution constante et il faut rester curieux de tout ce qui se passe autour de ton métier ?
Amandine
C’est ça.
Bertrand
Ok. La dernière chose, c’est évidemment le code. Tu as parlé de Python, mais on peut discuter des autres codes qui sont vraiment importants pour les data scientists ?
Amandine
Ça va dépendre des entreprises. Beaucoup d’entreprises utilisent Python, mais d’autres langages aussi sont utilisés comme R par exemple.
Bertrand
D’accord. J’ai vu le language SAS aussi sur ton CV. C’est important ?
Bertrand
C’est un langage qui était très utilisé auparavant, mais qui tend un peu à disparaître au profit de R ou de Python.
Bertrand
Donc, il faut principalement maîtriser R et python.
Amandine
Oui, c’est ça.
Bertrand
Amandine, quelle est la tâche quotidienne dans ton métier de Data Scientist qui te plaît le plus et celle qui te plaît le moins ?
Amandine
La tâche qui me plaît le plus, c’est le fait d’explorer la donnée lorsqu’on commence un nouveau projet. Faire les premières analyses sur cette nouvelle donnée.
Bertrand
Ça, c’est un côté un peu Indiana Jones. On va chercher un peu partout les infos, les données, celles qui vont être utiles pour le travail que tu as à faire ?
Amandine
C’est ça. On va identifier quels sont les champs à utiliser pour notre projet. A-t-on besoin de chercher des données ailleurs ? C’est toujours très enrichissant.
Bertrand
Et la tâche qui te plaît le moins maintenant ?
Amandine
Dans le machine learning, il y a toujours une part d’incertitude. C’est le fait de ne pas toujours avoir le résultat attendu.
Bertrand
Tu avais dit, quand on avait préparé cette interview, qu’il y avait des failles. Qu’est-ce qu’une faille ? C’est un moment où ça marche mal ou ça ne marche pas comme on voudrait ?
Amandine
C’est ça, c’est lorsque, par exemple, en calculant les performances théoriques de notre modèle, on s’aperçoit que notre modèle présente des performances qui ne sont pas celles attendues. Par conséquent, je dois aller encore chercher et itérer.
Bertrand
Ok, Amandine. Attention, QGP, la Question Gagne-Pain. Combien ça gagne, une Data Scientist ?
Amandine
Un junior à la sortie de l’école, généralement, on va être aux alentours de 40 K€ bruts par an, hors primes et hors variable.
Bertrand
D’accord. Si on parle des primes et des variables, ça veut dire quoi ? C’est incentivé sur quoi ?
Amandine
Dans notre prime variable, il y a une part déterminée en fonction de la réalisation de certains objectifs fixés et qui dépendent du poste.
Bertrand
Ok. Ainsi, tu as une incentive personnelle sur des choses que tu réalises personnellement ?
Amandine
C’est ça, oui.
Bertrand
Changerais-tu quelque chose dans ton parcours ? Et si oui quoi ?
Amandine
Oui. Je pense qu’en complément de ma formation d’ingénieur, j’aurais ajouté une formation plus en gestion de projet. C’est toujours très utile lorsqu’on mène un projet de Data Science d’avoir cette double compétence.
Bertrand
Quand tu dis « gestion de projet », ça veut dire comment on encadre le projet, comment on planifie les réunions, comment on organise les réponses pour ce projet ?
Amandine
Oui, c’est tout à fait ça.
Bertrand
La communauté du Gagne-Pain nous interroge régulièrement sur l’utilisation de l’anglais. Est-ce important, l’anglais, dans le métier de Data Scientist ?
Amandine
Je dirais qu’il est très utile d’avoir un anglais professionnel. Pour ma part, je n’utilise pas l’anglais dans mes communications au quotidien. Cependant, je vais souvent utiliser l’anglais pour me documenter sur de nouveaux packages, pour lire des articles sur la data science. Là, on aura quasiment toujours une documentation en anglais.
Bertrand
Amandine, quelles sont les bonnes formations pour faire ce métier de Data Scientist ?
Amandine
Oui. Pour ma part, j’ai effectué une école d’ingénieurs spécialisée en statistiques, mais il y a d’autres façons d’arriver au métier de data scientist. Par exemple, en passant par une école d’ingénieurs généralistes, mais en ayant, pourquoi pas, une spécialisation en dernière année en data science. D’autres personnes viennent d’autres types de formations, notamment les mathématiques appliquées, l’informatique, l’économie, et peuvent avoir mené des projets de data science.
Bertrand
Ok, c’est assez ouvert pour les différentes formations que ceux qui nous écoutent peuvent préparer ?
Amandine
Oui.
Bertrand
Et toi, Amandine, continues-tu à te former régulièrement ?
Amandine
Oui, tout à fait. Tout d’abord, comme data scientist, dans notre quotidien, on va être amené à faire de la veille documentaire, c’est-à-dire se renseigner sur les derniers outils sortis ou sur les nouveaux modèles. Ensuite, l’entreprise nous propose aussi des formations. La dernière que j’ai faite, c’est une formation sur Tensorflow, qui est un outil de deep learning.
Bertrand
Peux-tu nous donner l’explication de deep learning ? C’est quoi le deep learning par rapport au machine learning dont on parlait tout à l’heure ?
Amandine
Le deep learning, c’est en fait une sous-catégorie du machine learning. Et, ce qui caractérise le deep learning, c’est le fait d’utiliser ce qu’on appelle des « réseaux de neurones » qui sont un type assez complexe de modèles.
Bertrand
C’est encore plus compliqué que le machine learning ?
Amandine
C’est ça.
Bertrand
Est-ce qu’il y a également des certifications professionnelles utiles pour faire ce métier ?
Amandine
Pour ma part, je n’ai pas effectué de certification. Cependant, il en existe beaucoup et je pense qu’il est utile d’avoir des certifications dans le domaine du cloud, par exemple Google Cloud ou AWS
Bertrand
D’accord. Peux-tu nous dire pourquoi le cloud, c’est aussi intimement lié au métier de Data scientist ?
Amandine
Oui, c’est parce qu’aujourd’hui, de plus en plus, on va être amené à manipuler de très, très grandes quantités de données. Et on ne peut pas toujours tout stocker dans notre ordinateur ou même sur des serveurs physiques en entreprise. C’est pour ça qu’on utilise le cloud.
Bertrand
Il faut beaucoup de place pour mettre toute cette information et la seule solution, c’est de la mettre dans les nuages (cloud) ?
Amandine
Oui, c’est ça, beaucoup de données.
Bertrand
Quand on dit « beaucoup de place », en préparant l’interview, tu as parlé de millions de lignes, est-ce correct ? On est dans ces ordres de grandeur ?
Amandine
Oui, ça va dépendre des entreprises, mais chez SNCF Connect & Tech, on est dans cet ordre là.
Bertrand
Amandine, est ce que tu peux nous dire quelles sont les principales ressources disponibles sur Internet pour se former à ton métier ?
Amandine
Sur Internet, on va avoir beaucoup de blogs spécialisés. Par exemple, un blog qui s’appelle Towards Data Science. Ensuite, on peut aussi retrouver des tutoriels de machine learning fournis gratuitement par Google.
Bertrand
D’accord. Ensuite, tu as parlé aussi d’un outil avec des possibilités de jouer avec les données ?
Amandine
Oui, ça s’appelle Kaggle Et sur ce site, on va pouvoir retrouver beaucoup de jeux de données sur lesquels s’entraîner.
Bertrand
Ok. Merci. Est ce que tu peux maintenant nous dire quelle est la journée type d’une Data Scientist ?
Amandine
Ça va varier selon les profils, mais dans mon cas, on va commencer en début de matinée par surveiller nos produits en production. Ensuite, on va poursuivre sur le projet qui est en cours. Les tâches peuvent être assez diverses.
Bertrand
Dans tes tâches, comme on l’a déjà précisé, il y avait une partie veille. Cela représente beaucoup de temps dans ta journée de faire un peu de veille ?
Amandine
Oui, on va consacrer une petite partie de la semaine à la veille, à peu près 10 à 20% de notre temps de travail.
Bertrand
Est-ce que, d’ailleurs, une data scientist reçoit beaucoup d’e-mails? Tu fais beaucoup de réunions et de présentations ?
Amandine
Beaucoup d’e-mails, pas tellement, mais on peut être amené à faire pas mal de réunions également à présenter nos projets et nos réalisations auprès de diverses directions.
Bertrand
D’accord. Cela rejoint un peu ce que tu évoquais avec l’acculturation tout à l’heure ? Il y a des réunions aussi pour présenter ton métier ?
Amandine
C’est ça.
Bertrand
Ok. Est ce que tu peux nous expliquer aussi le mode de vie ? On pose souvent cette question pour savoir s’il y a du télétravail, l’organisation d’une journée, combien de temps durent les rendez-vous à l’extérieur ?Peux-tu nous parler un peu de ce mode de vie d’une Data Scientist ?
Amandine
Chez SNCF Connect & Tech, on peut faire du télétravail. C’est au choix. Dans mon cas, c’est trois jours de télétravail par semaine. Sinon, sur les horaires, c’est plutôt des horaires assez classiques de bureau. On commence aux alentours de 9h00 et on termine vers 18h00, mais cela varie selon les journées.
Bertrand
Question rendez vous, tu disais que c’était surtout des rendez vous internes ?
Amandine
C’est ça.
Bertrand
Ça veut dire que c’est pas des rendez vous où t’as besoin de te déplacer à l’autre bout de la France ?
Amandine
Non, pas des rendez-vous dans mon cas. Je n’ai pas besoin de faire ce type de rendez-vous.
Bertrand
Pour le télétravail, je me posais une question concernant l’utilisation du cloud dont on parlait tout à l’heure. Il faut quand même une bonne connexion Internet pour pouvoir correctement travailler ou on peut s’en passer ?
Amandine
Alors, on a besoin d’une connexion Internet assez satisfaisante. On préfère tout de même avoir de la fibre. C’est tout de même mieux pour travailler, mais pas besoin d’avoir une machine de guerre pour ça.
Bertrand
Amandine, y a-t-il une différence entre le métier de data scientist que tu fais aujourd’hui chez SNCF Connect & Tech et celui que tu imaginais ?
Amandine
Oui. La première différence se fait entre la pratique à l’école où l’on va traiter généralement une table de données, voire deux, faire des petits croisements. Et la pratique en entreprise, surtout chez SNCF Connect & Tech, on va se retrouver avec des millions de lignes, une multitude de sources de données différentes qu’il va falloir croiser.
Bertrand
C’est le volume de données sur lequel tu travailles qui fait la différence ?
Amandine
Oui, tout à fait.
Bertrand
Il y avait aussi l’utilisation des modèles construits que tu avais évoqués quand on a préparé cette interview ?
Amandine
Oui, c’est le fait que lors de mes études, quand je menais des projets, les modèles qu’on créait, on n’en faisait rien, puisque c’était dans le cadre d’un exercice. Alors qu’en entreprise, lorsqu’on a des performances théoriques qui nous semblent satisfaisantes, on va chercher à mettre en production ces modèles au service, par exemple, de l’application SNCF Connect.
Bertrand
D’accord, donc ça rejoint ce que tu disais tout à l’heure sur ton plaisir de faire des mathématiques qui servent à quelque chose ?
Amandine
Oui. C’est ça.
Bertrand
Ok, excellent. Pour ceux qui nous écoutent, est ce que tu pourrais nous dire quels sont les conseils que tu donnerais pour ceux qui hésiteraient à se lancer dans le métier de data scientist ?
Amandine
Oui, je conseillerais tout d’abord d’essayer de se renseigner via des ressources disponibles sur Internet, sur des blogs. Lorsqu’on a un peu mis les mains dans le domaine de la data science, s’entrainer, par exemple, sur Kaggle, comme je l’évoquais tout à l’heure.
Bertrand
D’accord, en même temps comprendre et essayer de faire ?
Amandine
Essayer de faire, oui, tout à fait.
Bertrand
Est ce que tu as également des conseils pour ceux qui nous écoutent sur un sujet un peu plus culturel par rapport à ton métier ? Peut-on comprendre le métier de Data Scientist grâce à des films, des séries, des livres, des podcasts ?
Amandine
Oui, il y a une chaîne YouTube que j’ai découverte récemment qui s’appelle Crash Course. C’est une chaîne de vulgarisation scientifique qui a notamment plusieurs vidéos sur la data science et permet de vraiment découvrir différents aspects de la data science.
Bertrand
Il y a un film aussi, je crois ?
Amandine
C’est un incontournable, donc je vais quand même l’évoquer. C’est Imitation Game, qui est un biopic sur Alan Turing considéré comme le père du machine learning.
Bertrand
Excellent. Ensuite, une série aussi ?
Amandine
Oui. Récemment, j’ai regardé la série coréenne, Start-up Si vous adorez les dramas coréens, n’hésitez pas. Ça raconte l’histoire de trois entrepreneurs qui vont essayer de créer leur start-up et ils vont développer des produits d’intelligence artificielle comme un produit de reconnaissance d’image pour les aveugles.
Bertrand
Excellent. Emeline, dans l’épisode 57, a posé cette question : « Pouvez-vous interroger ceux que vous rencontrez dans le podcast sur cette question ? Quel sens donnes-tu à ton métier ?
Amandine
Dans mon métier, c’est vraiment l’opportunité d’utiliser les mathématiques, non pas de façon théorique, mais de façon concrète pour des cas utiles à notre société.
Bertrand
« Que cela serve à quelque chose ». C’est un peu le leitmotiv que l’on entend depuis le début de cette interview ?
Bertrand
C’est ça.
Bertrand
Dernière chose, si ceux qui nous écoutent veulent te contacter, comment ils peuvent faire ?
Amandine
J’ai un profil LinkedIn, ici Donc contactez-moi sur cette plateforme.
Bertrand
Amandine, merci beaucoup.
Amandine
Merci Bertrand.
