Épisode 59 : Amandine Tran , Data Scientist chez SNCF connect & tech.
Dans cet épisode, nous avons le plaisir de recevoir Amandine, qui nous présente son métier en tant que Data Scientist chez SNCF Connect and Tech. Amandine nous raconte aujourd’hui son parcours, comment elle en est arrivée jusqu’ici, et quel sont les points forts de son travail.
Merci à Amandine, pour sa participation et nous espérons que l’écoute vous plaira ! Si vous aimez l’épisode, mettez-nous 5 petites ⭐️⭐️⭐️⭐️⭐️ pour nous encourager.
Vous travaillez dans le digital et vous souhaitez faire connaître votre métier, partagez votre expérience ?
N’hésitez pas à nous contacter pour nous proposer votre profil pour une prochaine interview en nous contactant via l’adresse legagnepain @gmail.com
« J’ai principalement trois missions. La première, c’est de recueillir les besoins de nos clients, en l’occurrence plutôt des clients internes. La deuxième mission, c’est d’explorer, de traiter la donnée pour apporter des solutions. Et la troisième, c’est d’acculturer l’entreprise à la data science »
Amandine Tran , Data Scientist
Notes du podcast et liens utiles :
Notre invité : Amandine Tran – Profil LinkedIn
Interview faite par : Bertrand Jonquois – Profil LinkedIn
La retranscription de l’épisode 59 :
Bertrand
Bonjour Amandine.
Amandine
Bonjour Bertrand.
Bertrand
Merci beaucoup, Amandine, d’avoir accepté l’invitation du Gagne Pain. Tu es Data Scientist chez SNCF Connect & Tech. On va avoir l’occasion d’expliquer ça dans le détail, mais avant, est-ce ce que tu peux te décrire en quelques mots ?
Amandine
Oui. Tout d’abord, j’ai 24 ans. J’ai effectué mon bac en 2015 dans ma ville d’origine, Lyon. À la suite de mon bac, j’ai fait une classe préparatoire qui mêle les lettres, les sciences sociales et les mathématiques. J’ai finalement décidé de plutôt m’orienter vers des études en mathématiques appliquées.
Bertrand
Tu as hésité à un moment ?
Amandine
C’est ça. J’ai beaucoup hésité entre les deux domaines.
Bertrand
Et maintenant, tu n’hésites plus, ce sont les maths ?
Amandine
C’est ça. Vraiment, j’ai découvert en classe préparatoire que j’étais davantage « appétante » aux maths.
Bertrand
D’accord. Après, tu as fait une école spécialisée dans la data science ?
Amandine
Oui, c’est ça. J’ai fait une première partie de mes études à l’ENSAI en statistiques, puis en data science à l’ENSAE qui est située à Paris.
Bertrand
D’accord. Est ce que tu peux également nous expliquer quel a été ton parcours professionnel ? En clair, quels ont été les stages, les expériences professionnelles que tu as eues avant celles de SNCF Connect & Tech ?
Amandine
Les stages, je les ai surtout effectués dans le cadre de mon cursus en école d’ingénieur à l’ENSAE. J’ai effectué un premier stage chez Orange où mes missions, c’étaient celles d’un data scientist auprès des équipes marketing. Et un second stage, cette fois-ci ci, à la Banque de France où là, mes missions étaient plus en tant que chargée d’études statistiques, d’analyser les comportements des citoyens.
Bertrand
Merci Amandine. Est ce que maintenant, tu peux nous présenter l’entreprise dans laquelle tu travailles actuellement ?
Amandine
Oui, je travaille aujourd’hui chez SNCF Connect & Tech, qui est une filiale privée de SNCF Voyager. C’est aujourd’hui l’un des leaders du numérique et du e commerce dans le secteur des mobilités.
Bertrand
Il y a deux activités, tu me disais, en préparant cette interview ?
Amandine
Oui, on a une première activité de e commerce et une seconde activité qui est plutôt tech.
Bertrand
Si on parle de la première activité : qu’est ce qui se passe au niveau du e commerce chez SNCF Connect & Tech ?
Amandine
Oui, on est principalement connus pour l’application, le service SNCF Connect, qui est une application qui vous permet, notamment, d’acheter des billets de train, mais pas que, aussi gérer vos mobilités du quotidien via le rechargement de votre passe Navigo.
Bertrand
D’accord. Tu me citais quelques chiffres qui m’ont impressionné, qui étaient des chiffres qui étaient en équivalent aux Stades de France. Est ce que tu peux préciser ça ?
Amandine
C’est ça. En 2022, on a vendu à peu près 190 millions de billets. Ça équivaut à plus de six Stades de France complétés vendus par jour.
Bertrand
Énorme. Il y a une deuxième activité qui est une activité tech cette fois. Est ce que tu peux également nous expliquer ce que ça veut dire ?
Amandine
Oui, bien sûr. On fournit aussi des services, des produits numériques pour le groupe SNCF. Ça va passer notamment par les services d’affichage en gare ou bien des logiciels d’éco conduite pour les conducteurs de train.
Bertrand
D’accord, c’est très, très clair. Maintenant, j’aimerais bien que tu rentres un peu plus dans tes missions. Quelles sont les missions d’une data scientist chez SNCF Connect & Tech ? Est ce que tu peux nous expliquer ça et nous expliquer d’abord comment on traduit ton métier ?
Amandine
Oui. Data scientist, on peut le traduire en français littéralement par « scientifique de la donnée ».
Amandine
J’ai principalement trois missions. La première, c’est de recueillir les besoins de nos clients, en l’occurrence plutôt des clients internes. La deuxième mission, c’est d’explorer, de traiter la donnée pour apporter des solutions. Et la troisième, c’est d’acculturer l’entreprise à la data science, qui est encore un domaine assez nouveau.
Bertrand
Si on vient sur chacune de ces missions, recueillir les besoins, ça veut dire quoi et quels besoins ?
Amandine
C’est à dire qu’on va soit aller au contact des équipes métiers, soit c’est elles qui viennent à notre contact pour nous exprimer leurs besoins. Par exemple, on aurait besoin d’identifier les clients qui seraient plus appétants à la première classe pour promouvoir cette première classe en train.
Bertrand
Ok, donc on va aller chercher dans les données tout ce qu’on peut savoir sur ceux qui utilisent la première classe.
Amandine
Tout à fait ça.
Bertrand
Alors après, il y a la deuxième mission qui est « Revenons recueillir les informations, les datas. » Ça, ça veut dire quoi ? Comment ça se passe ?
Amandine
C’est à dire que pour répondre aux besoins du client, on a besoin de savoir quelles sont les données qui sont à disposition. Est ce qu’on a besoin de les collecter nous même ou est ce qu’elles sont déjà disponibles ? Et on va ensuite effectuer des traitements, des analyses pour apporter des solutions aux clients.
Bertrand
Donc là, on va fouiller dans tout l’espace de SNCF Connect & Tech pour trouver les données qui nous intéressent et les collecter. Et c’est là qu’on va utiliser des outils un peu spécifiques.
Amandine
Oui, tout à fait.
Bertrand
Il y a une troisième mission qui me semble également très intéressante, c’est acculturer l’entreprise, expliquer à l’intérieur de l’entreprise quel est ton métier, à quoi ça sert ? Comment ça se passe ça ? C’est des réunions ? Comment on fait ça ?
Amandine
Oui, ça va passer tout d’abord par des formations internes qui sont organisées par l’équipe Data Science pour présenter à différents types de publics qu’est ce que la data science, comment ça fonctionne. Ensuite, on va aussi organiser des sessions de présentation, participer aux présentations de différentes directions pour pouvoir partager nos réalisations.
Bertrand
Dans les réponses que tu avais fait en préparant cette interview, tu avais aussi parlé de machine learning. Est ce qu’on explique aussi le machine learning quand on va à ces réunions ? On est obligé d’expliquer comment ça fonctionne, ça ?
Amandine
Ça dépend à quel point on va rentrer dans les détails, mais on est obligé au moins d’expliquer les principes fondamentaux du machine learning, c’est à dire que le machine learning, ça se base tout d’abord sur les données et c’est la machine qui va apprendre à partir des données certains comportements.
Bertrand
D’accord. Merci beaucoup. Amandine, est ce que tu pourrais nous dire pourquoi tu as choisi ce métier de data scientist ?
Amandine
Oui, j’ai choisi ce métier parce que tout d’abord, j’aimais beaucoup les mathématiques, mais en particulier, j’aimais les mathématiques appliquées, c’est à dire l’utilisation des maths dans des cas concrets. Le métier de data scientist, c’était l’occasion d’appliquer ces mathématiques pour divers types de secteurs.
Bertrand
L’idée, c’était que d’abord, tu avais une appétence pour les maths, que tu aimais ça, mais qu’en plus, il fallait que ça soit concret. C’est le cas. Dans ton métier, ça rend des services concrets dans les entreprises.
Amandine
C’est ça.
Bertrand
Amandine, est ce que tu pourrais nous dire quelles sont les trois principales compétences requises pour ce job de data scientist ?
Amandine
Oui. Tout d’abord, je pense qu’il faut avoir une certaine appétence pour les mathématiques et en particulier les statistiques. Ensuite, je pense qu’il est intéressant de savoir faire preuve de curiosité parce que c’est quand même un domaine qui est assez récent dans les entreprises et en constante évolution. Enfin, je pense qu’il faut aussi avoir une certaine maîtrise du code informatique, par exemple la programmation en python qu’on fait très régulièrement.
Bertrand
Si on revient rapidement sur les points que tu évoques, avoir une appétence pour les maths, on l’a compris, les maths, les stats. Être curieux, ça, ça m’intéresse plus. Ça veut dire quoi ? Il faut parfois fouiller, il y a un petit côté mineur, il faut aller chercher au fond des choses.
Amandine
Oui, tout à fait. Parce que tout d’abord, c’est un métier assez récent dans les entreprises, donc il y a constamment des nouveaux outils qui apparaissent et c’est intéressant d’essayer de les explorer. Pour un projet, c’est aussi intéressant de se renseigner : quels sont les outils qui existent, quels sont les types de modèles qui existent pour pouvoir répondre aux besoins.
Bertrand
D’accord, donc il y a une évolution constante et donc il faut rester curieux à tout ce qui se passe autour de ce métier.
Amandine
C’est ça.
Bertrand
Ok. La dernière chose, c’est évidemment le code. Tu as parlé de python, mais on peut parler de quels autres codes sont vraiment des codes importants pour les data scientists ?
Amandine
Ça va dépendre des entreprises. Beaucoup d’entreprises utilisent python, mais d’autres langages aussi sont utilisés comme R
Bertrand
Par exemple. D’accord. J’ai vu SAS aussi sur ton CV.
Amandine
C’est un langage qui était très utilisé auparavant, mais qui tend un peu à disparaître au profit de R ou de Python.
Bertrand
Donc, il faut principalement maîtriser R et python.
Amandine
Oui, c’est ça.
Bertrand
Amandine, quelle est la tâche quotidienne dans ton métier de data scientist qui te plaît le plus et celle qui te plaît le moins ?
Amandine
La tâche qui me plaît le plus, c’est le fait d’explorer la donnée lorsqu’on commence un nouveau projet et faire les premières analyses sur cette nouvelle donnée.
Bertrand
Ça, c’est un côté un peu Indiana Jones. On va chercher un peu partout les infos, les données, celles qui vont être utiles pour le travail que tu as à faire.
Amandine
C’est ça.
Bertrand
On va identifier quels sont les champs qu’on va pouvoir utiliser pour notre projet. Est ce qu’on a besoin de chercher de la donnée un peu ailleurs ?
Amandine
C’est toujours très enrichissant.
Bertrand
Et la tâche qui te plaît le moins maintenant ?
Amandine
Dans le machine learning, il y a toujours une part d’incertitude. C’est le fait de ne pas toujours avoir le résultat attendu.
Bertrand
Tu avais dit quand on avait préparé cette interview, il y a des failles. C’est quoi une faille ? C’est un moment où ça ne marche pas bien ou ça ne marche pas comme on voudrait ?
Amandine
C’est ça. C’est lorsque, par exemple, en calculant les performances théoriques de notre modèle, on se rend compte que notre modèle présente des performances qui ne sont pas celles attendues. Et donc, il faut aller encore chercher et itérer.
Bertrand
Ok, Amandine. Attention, QGP, la question ne Gagne Pain. Combien ça gagne, une data scientist ?
Amandine
Un junior à la sortie de l’école, généralement, on va être aux alentours de 40 000 brutes par an, hors primes et hors variable.
Bertrand
D’accord. Et alors, si on parle des primes et des variables, ça veut dire quoi ? C’est incentivé sur quoi ? Comment on peut être incentivé en tant que data scientist ?
Amandine
Dans notre prime variable, il y a une part qui est déterminée en fonction de la réalisation de certains objectifs qui sont fixés et qui dépendent des postes.
Bertrand
D’accord. Ok. Et tu as une incentive personnelle sur des choses que toi, tu réalises personnellement ?
Amandine
C’est ça, oui.
Bertrand
Est ce que tu changerais quelque chose dans ton parcours ? Est ce qu’il oui ou quoi ?
Amandine
Oui. Je pense qu’ en complément de ma formation d’ingénieur, j’aurais ajouté une formation plus en gestion de projet parce que c’est toujours très utile lorsqu’on mène un projet de data science, d’avoir cette double compétence.
Bertrand
D’accord. Quand on dit « gestion de projet », ça veut dire comment on gère le projet, comment on planifie les réunions, comment on organise les réponses qu’on doit faire sur ce projet ? C’est ça que ça veut dire ?
Amandine
Oui, c’est tout à fait ça.
Bertrand
Ok. La communauté du gaine pas nous interroge également régulièrement sur l’utilisation de l’anglais. Est ce que c’est important, l’anglais, dans le métier de data scientist que tu fais aujourd’hui ?
Amandine
Je dirais que c’est très utile d’avoir un anglais professionnel. Pour ma part, je n’utilise pas l’anglais dans mes communications au quotidien, mais en revanche, je vais beaucoup utiliser l’anglais pour me documenter sur des nouveaux packages, pour lire des articles sur la data science. Là, on aura quasiment toujours une documentation en anglais.
Bertrand
Amandine, est ce que tu peux nous dire quelles sont les bonnes formations pour faire ce métier de data scientist ?
Amandine
Oui. Pour ma part, j’ai effectué une école d’ingénieurs spécialisée en statistiques, mais il y a d’autres façons d’arriver au métier de data scientist. Par exemple, en passant par une école d’ingénieurs généralistes, mais en ayant pourquoi pas une spécialisation en dernière année en data science. D’autres personnes viennent d’autres types de formations, par exemple les mathématiques appliquées, l’informatique, l’économie et peuvent avoir mené des projets de data science.
Bertrand
Ok, donc c’est assez ouvert pour les différentes formations que ceux qui nous écoutent peuvent préparer.
Amandine
Oui.
Bertrand
Et toi, Amandine, est ce que tu continues à te former régulièrement ?
Amandine
Oui, tout à fait. Tout d’abord, en tant que data scientist, dans notre quotidien, on va être amené à faire de la veille documentaire, c’est à dire se renseigner sur les derniers outils qui sont sortis, sur les nouveaux modèles. Et l’entreprise nous propose aussi des formations. La dernière que j’ai faite, c’est une formation sur Tensorflow, qui est un outil de deep learning.
Bertrand
D’accord. On mettra les liens vers Tensorflow dans les commentaires du podcast, mais est ce que tu peux nous dire l’explication de deep learning ? C’est quoi le deep learning par rapport à machine learning dont on parlait tout à l’heure ?
Amandine
Le deep learning, c’est en fait une sous catégorie du machine learning. Et ce qui caractérise le deep learning, c’est le fait d’utiliser ce qu’on appelle des réseaux de neurones qui sont un type assez complexe de modèles.
Bertrand
C’est encore plus compliqué que le machine learning.
Amandine
C’est ça.
Bertrand
Est ce qu’il y a également des certifications professionnelles qui sont utiles pour faire ce métier ?
Amandine
Pour ma part, je n’ai pas effectué de certification, mais il en existe beaucoup et je pense qu’ une qui serait utile serait une certification dans le domaine du cloud, par exemple Google Cloud ou AWS
Bertrand
D’accord. Est ce que tu peux nous dire pourquoi le cloud, c’est aussi intimement lié au métier de data scientist ?
Amandine
Oui, c’est parce qu’aujourd’hui, de plus en plus, on va être amené à manipuler de très, très grandes quantités de données et on ne peut pas toujours tout stocker dans notre ordinateur ou même sur des serveurs physiques en entreprise. C’est pour ça qu’on utilise le cloud.
Bertrand
Il faut beaucoup de place pour mettre toutes ces cette information et la seule solution, c’est de le mettre dans les nuages.
Amandine
C’est ça, beaucoup.
Bertrand
Quand on dit « beaucoup de place », en préparant l’interview, tu as parlé de millions de lignes, c’est ça ? On est dans ces ordres de grandeur ?
Amandine
Oui, ça va dépendre des entreprises, mais chez SNCF Connect & Tech, on est dans cet ordre là.
Bertrand
Amandine, est ce que tu peux nous dire quelles sont les principales ressources disponibles sur Internet pour se former à ton métier ?
Amandine
Sur Internet, on va avoir beaucoup de blogs spécialisés. Par exemple, un blog qui s’appelle towards data science
Bertrand
D’accord.
Amandine
Et on peut aussi retrouver des tutoriels, par exemple des tutoriels de machine learning qui sont fournis gratuitement par Google.
Bertrand
D’accord. Et tu as parlé aussi d’un outil avec des possibilités de jouer avec les données ?
Amandine
Oui, c’est ça. Ça s’appelle Kaggle et sur ce site, on va pouvoir retrouver beaucoup de jeux de données sur lesquels s’entraîner.
Bertrand
Ok. Merci. On mettra les liens vers tous les sites que tu as cités dans les commentaires du podcast. Est ce que tu peux maintenant nous dire quelle est la journée type d’une data scientist ?
Amandine
Ça va varier selon les profils, mais dans mon cas, on va tout d’abord commencer en début de matinée par surveiller nos produits qui sont en production. Et ensuite, on va poursuivre sur le projet qui est en cours. Les tâches peuvent être assez diverses et variées.
Bertrand
Tu parlais aussi que dans tes tâches, comme on l’a déjà précisé, il y avait une partie veille, donc ça ça pèse aussi dans ta journée classique de faire un peu de veille ?
Amandine
Oui, on va consacrer une petite partie de la semaine à de la veille, à peu près 10, 20% de notre temps de travail.
Bertrand
Est ce que d’ailleurs, data scientist reçoit beaucoup d’e-mails, ça fait beaucoup de réunions et des présentations aussi ?
Amandine
Beaucoup d’e mails, pas tellement, mais on peut être amené à faire beaucoup de réunions et aussi à présenter nos projets et nos réalisations auprès de diverses directions.
Bertrand
D’accord. Ça rejoint un peu ce que tu évoquais avec l’acculturation tout à l’heure. Il y a des réunions aussi pour présenter ton métier.
Amandine
C’est ça.
Bertrand
Ok. Est ce que tu peux nous expliquer aussi le mode de vie ? On pose souvent cette question pour savoir un peu le télétravail, l’organisation d’une journée dans le temps, combien de temps durent les rendez-vous que tu peux avoir à faire à l’extérieur. Est ce que tu peux nous parler un peu de ce mode de vie d’une data scientist ?
Amandine
Chez SNCF Connect& Tech, on a la possibilité de faire du télétravail. C’est au choix. Dans mon cas, c’est trois jours de télétravail par semaine. Sinon, sur les horaires, c’est plutôt des horaires assez classiques de bureau. On commence aux alentours de 9h00 et on termine vers 18h00, mais ça varie selon les journées.
Bertrand
Question rendez vous, tu disais que c’était surtout des rendez vous internes ?
Amandine
C’est ça.
Bertrand
Ça veut dire que c’est pas des rendez vous où t’as besoin de te déplacer à l’autre bout de la France ?
Amandine
Non, c’est pas des rendez vous dans mon cas, je n’ai pas besoin de faire ce type de rendez vous.
Bertrand
Pour le télétravail, je me posais une question concernant l’utilisation du cloud dont on parlait tout à l’heure. Il faut quand même une sérieuse connexion Internet pour pouvoir correctement travailler ou on peut s’en passer ?
Amandine
On a besoin d’une connexion Internet assez satisfaisante. On préfère tout de même avoir de la fibre. C’est quand même mieux pour travailler, mais pas besoin d’avoir une machine de guerre pour ça.
Bertrand
Amandine, y a-t-il une différence entre le métier qu’il y ait de data scientist que tu fais aujourd’hui chez SNCF Connect & Tech et celui que tu imaginais ?
Amandine
Oui. La première différence se fait entre la pratique à l’école où l’on va traiter généralement une table de données, voire deux, faire des petits croisements et la pratique en entreprise, surtout chez SNCF Connect & Tech, on va se retrouver avec des millions de lignes, une multitude de sources de données différentes qu’il va falloir croiser.
Bertrand
C’est la taille des données, des volumes de données sur lesquels tu travailles qui fait une grosse différence.
Amandine
Oui, tout à fait.
Bertrand
Il y avait aussi l’utilisation des modèles construits que tu avais évoqués quand on a préparé cette interview.
Amandine
Oui, c’est le fait que lors de mes études, quand je menais des projets, finalement, les modèles qu’on créait, on n’en faisait rien derrière puisque c’était dans le cadre d’un exercice. Alors qu’en entreprise, lorsqu’on a des performances théoriques qui nous semblent satisfaisantes, on va chercher à mettre en production ces modèles au service, par exemple, de l’application SNCF Connect.
Bertrand
D’accord, donc ça rejoint ce que tu disais tout à l’heure sur ton plaisir de faire des mathématiques qui servent à quelque chose.
Amandine
Oui. C’est ça.
Bertrand
Ok, excellent. Pour ceux qui nous écoutent, est ce que tu pourrais nous dire quels sont les conseils que tu donnerais pour ceux qui hésiteraient à se lancer dans le métier de data scientist ?
Amandine
Oui, je conseillerais tout d’abord d’essayer de se renseigner via des ressources disponibles sur Internet, sur des blogs. Lorsqu’on a un peu mis les mains dans le domaine de la data science, essayer de s’entrainer, par exemple, sur Kaggle, comme je l’évoquais tout à l’heure.
Bertrand
D’accord, donc à la fois essayer de comprendre et puis après essayer de faire.
Amandine
Essayer de faire, oui, tout à fait. Ok.
Bertrand
Est ce que tu as également des conseils pour ceux qui nous écoutent sur un sujet un peu plus culturel par rapport à ton métier ? Qu’est ce qu’on peut comprendre du métier de data scientist grâce à des films, des séries, des livres, des podcasts ? Je sais que tu as déjà choisi quelque chose pour aider nos auditeurs.
Amandine
Oui, il y a une chaîne YouTube que j’ai découvert il y a récemment qui s’appelle Crash Course. C’est une chaîne de vulgarisation scientifique qui a notamment plusieurs vidéos sur la data science et permet de vraiment découvrir différents aspects de la data science.
Bertrand
Il y a un film aussi, je crois.
Amandine
C’est un incontournable, donc je vais quand même l’évoquer. C’est Imitation Game, qui est un biopic sur Alan Turing, considéré comme le père du machine learning.
Bertrand
Excellent. Et une série aussi.
Amandine
Oui. Récemment, j’ai regardé la série coréenne, Start-up. Si vous adorez les dramas coréens, n’hésitez pas. Ça raconte l’histoire de trois entrepreneurs qui vont essayer de créer leur start-up et ils vont notamment développer des produits d’intelligence artificielle comme un produit de reconnaissance d’image pour les aveugles.
Bertrand
Excellent. On mettra les liens aussi vers tout ce que tu viens de nous présenter dans les commentaires du podcast. Emeline, dans l’épisode 57, a posé cette question : « Est-ce que vous pouvez interroger ceux que vous rencontrez dans le podcast sur cette question ? Quel sens tu donnes à ton métier ?
Amandine
dans mon métier, c’est vraiment l’opportunité d’utiliser les mathématiques, non pas de façon théorique, mais de façon concrète pour des cas utiles à notre société.
Bertrand
Que ça serve à quelque chose. C’est un peu le leitmotiv qu’on entend dans ta voix depuis le début de cette interview. C’est ça. Dernière chose, si ceux qui nous écoutent veulent te contacter, comment ils peuvent faire ?
Amandine
J’ai un profil LinkedIn, Donc n’hésitez pas à me contacter sur cette plateforme.
Bertrand
Amandine, merci beaucoup.
Amandine
Merci.