Les différents rôles de Data Analyst
#2 Ou pourquoi je n'ai pas besoin des mêmes compétences que mon copain Data Analyst Fraude
Salut à tous!
Bienvenue à la deuxième édition de Sunday Select Star, la newsletter qui a pour l’ambition de vous aider à progresser dans la Data Analytics.
Tout d’abord, merci pour tous vos messages et vos réactions suite à la première édition.
Vos encouragements me donnent énormément de motivation pour continuer. 🚀
Dans cette édition, je vous propose:
Un tip SQL pratique pour créer un histogramme de distribution.
Un panorama des rôles de Data Analysts en France pour mieux comprendre où vous pourriez vous situer.
📊 Créer un histogramme de distribution en SQL
Quand j’explore des données avec SQL, je regarde souvent des statistiques descriptives comme la moyenne, le min, le max, et la médiane.
Cependant, pour comprendre plus en détail une variable continue, rien ne vaut une bonne visualisation.
Les histogrammes sont parfaits pour cela : ils montrent les caractéristiques générales de la distribution. Vous pouvez repérer les pics, et de voir si la distribution est symétrique ou pas.
Créer un histogramme avec Python, c’est une ligne de code.
Mais la plupart des Data Analysts utilisent SQL avec des interfaces de bases de données comme Snowflake, Redshift, ou Bigquery.
Passer de SQL à Python n’est pas pratique.
Voici comment le faire en quelques étapes simples en SQL:
Étape 1 : Utiliser FLOOR
pour créer des bins.
Imaginons une table sales
avec une colonne sales_amount
dont des valeurs sont de 0 à 10.
On veut créer un histogramme avec 10 bins, la taille de chaque bin est de 1.
On utilise FLOOR pour créer des bins, et on fait le décompte du nombre de valeurs par bin.
Étape 2 : Utiliser GENERATE_SERIES
pour gérer les bins manquants.
Avec l’output de l’étape 1, on remarque que les bins 5 et 6 n’ont aucune valeur associée.
On corrige cela avec GENERATE_SERIES
:
Étape 3 : Combiner les résultats des étapes 1 et 2
90% du boulot a été fait. Il suffit de combiner les deux étapes précédentes avec un LEFT JOIN.
Voici ce que j’ai obtenu dans Bigquery
Stylé, n’est-ce pas?
A noter que:
GENERATE_SERIES
n’est disponible que dans PostgreSQL. L’équivalent dans Snowflake et Bigquery sont:Snowflake:
SELECT seq1() AS bucket FROM TABLE(generator(rowcount => 10))
Bigquery:
SELECT bucket FROM UNNEST(GENERATE_ARRAY(0,9)) AS bucket
Les outils comme Metabase et Snowflake (avec WIDTH_BUCKET) permettent de créer des histogrammes, mais ils ne gèrent pas automatiquement les bins sans valeur, comme 5 et 6 dans l’exemple ci-dessus. Ce tip, lui, permet de générer les histogrammes dans n’importe quel cas!
👩💻 Un tour d’horizon des rôles de Data Analysts en France
90% des personnes avec qui je discute ne cherchent de nouvelles opportunités d'emploi que lorsqu'elles rencontrent des difficultés sur leur lieu de travail actuel.
Mais pourquoi attendre d'être dans le besoin pour chercher quelque chose qui vous correspond vraiment?
La Data reste un secteur porteur, mais les rôles se précisent.
Les entreprises affinent leurs attentes et comprennent mieux leurs besoins. Connaître les différents rôles dans la Data Analytics, permettra de bien orienter votre choix lors de votre prochain "grand saut".
Je vais vous partager les résultats de ma “veille” du marché dans une version assez condensée.
Ce partage vise à couvrir autant de types de Data Analyst que possible sur le marché français, afin de vous donner une idée du paysage de l'emploi.
Il sera utile pour :
Les Data Analysts confirmés souhaitant réorienter leur carrière.
Les débutants cherchant à choisir le chemin qui leur convient.
Nous savons tous que les Data Analysts couvrent deux aspects dans le même rôle: la technique et le business
Du côté business, ils doivent avoir la connaissance du métier (marketing, finance, produit…). Sur le plan technique, il est indispensable de maîtriser la manipulation des données (collecte, nettoyage et analyse). Sans oublier la data visualisation et le data storytelling.
Cependant, selon le domaine et la taille de l'entreprise, vos compétences requises varient considérablement.
Un Data Quality Analyst doit connaître la data remediation. Alors qu’un Web Analyst est un expert en plan de tracking et GTM.
Un Business Intelligence Analyst n’a besoin que des concepts de base en stats, alors qu’un Data Analyst dans l’Assurance doit bien maîtriser des distributions spécifiques comme celle de Poisson.
Voici un aperçu des rôles les plus courants :
Business Intelligence Analyst
Ces pros de la Data se spécialisent dans les solutions de Business Intelligence à destination des stakeholders internes ou aux clients. C'est un rôle qu'on trouve dans les grandes comme dans les petites entreprises, et notamment dans les boîtes de consulting.
Ils définissent des architectures de solutions BI, ils assurent l’exactitude et la cohérence des données dans divers rapports et dashboards.
Ils participent au développement des modèles de données et de schémas pour répondre aux besoins de reporting.
En terme de compétences requises:
Maîtrise solide des outils BI: Tableau, Power BI, Qlik
Maîtrise de SQL et, idéalement, de Python pour manipuler et transformer les données.
Très peu voire 0 de requis en stats.
Quality Data Analyst
Aujourd’hui les entreprises ont une forte demande en intégration de données, ce qui est traduit sur le marché par l’essor des offres en Data Engineering.
Les Quality Data Analysts font partie intégrante de ce processus, généralement dans les grands groupes en cours d'intégration des données.
On les trouve dans des secteurs comme: banque, assurance, retail…
Ils travaillent en étroite collaboration avec les Data Engineers pour assurer la l’exactitude et la disponibilité des données.
Ils utilisent des dashboards et des alertes pour contrôler régulièrement la qualité des données. Pour résoudre des problèmes de qualité, ils effectuent des remédiations.
En terme de compétences requises:
SQL et parfois Python pour manipuler des grands datasets.
Connaissance de base des outils de dataviz.
Très souvent, connaissance des outils de Data Management et de data catalog.
Très peu voire 0 de requis en stats.
Data Analyst/ Analytics Engineer
Ce rôle hybride combine les compétences de Data Analyst et d'Analytics Engineer.
Ils analysent les grands datasets pour en extraire des informations utiles.
En même temps, ils optimisent les modèles qui produisent des données prêtes pour l’analytique.
En terme de compétences requises:
SQL avancé, dbt et un outil de data viz.
Compréhension de la modélisation des données.
Parfois Python pour la transformation
Web/ Digital Data Analyst
Les Web/Digital Data Analysts travaillent en étroite collaboration avec les équipes marketing et sont impliqués dans les entreprises ayant une forte culture digitale, comme l'e-commerce, les sites d’annonces, les médias ou encore les boîtes de consulting digital.
Ils analysent les audiences et les campagnes de marketing. Créer et maintenir les plans de marquage sur les sites/ app sont un must.
Compétences requises:
Connaissance des outils d'analyse web comme Google Analytics, Piano Analytics, Content Square, GTM.
Maîtrise d'outils de visualisation de données de base à intermédiaire, très souvent c’est Looker Studio.
Excel et Google Sheets sont nécessaires, parfois SQL et très rarement Python.
Connaissance de base des tests d’hypothèse si les A/B tests sont demandés.
Product/ Growth Data Analyst
Ces pros se trouvent généralement dans les boîtes technologiques et SAAS.
Ce type de rôle devient de plus en plus courant dans les petites et moyennes entreprises.
Ils analysent les comportement des clients, suivent les métriques d’engagement et de performance.
Ils travaillent sur l’acquisition et la rétention des clients dans le but ultime d’améliorer leur expérience avec le produit et le chiffre d’affaire.
Ils font très souvent des A/B tests et participent au cycle de développement du produit: de product discovery à l’analyse d’impact après le lancement.
Ils travaillent souvent en mode squad avec les PMs, UX/UI designers, Data Engineers et Developers.
Compétences requises :
Maîtrise des outils de Product Analytics comme Amplitude, Mixpanel, Google Analytics, Heap.
SQL, Python et visualisation de données.
Parfois connaissances avancées en statistiques : tests d'hypothèses, inférence causale, quasi-expérimentation.
Il existe également d'autres rôles spécifiques à un domaine comme HR Data Analyst, Finance Data Analyst, Healthcare Data Analyst…
Si j’essaie de modéliser ces rôles sur la chaîne de valeur de données, ça ressemble à ceci:
Conclusion
Comme vous pouvez le voir, bien qu'il y ait beaucoup de points communs entre ces rôles, ils peuvent être assez différents. La Data Analytics est un domaine assez vaste, et il est impossible de tout maîtriser.
Cependant, comme il y a des chevauchements, on peut exploiter les terrains communs pour passer d'un rôle à l'autre.
Par exemple, j'ai commencé comme Data Analyst avec un focus dans l'analyse web et des revenus publicitaires. Cela m'a permis d'acquérir des connaissances en acquisition d’audience et d’avoir une culture digitale. Ensuite, je suis passée à Growth Analyst, où je travaillais sur l'acquisition et la rétention client dans le B2C. Puis, je suis devenue Product Data Analyst, me concentrant principalement sur la construction des fonctionnalités de produits et l'optimisation de l'expérience utilisateur.
Quand les spécialisations ne sont pas encore hyper claires, cela nous offre des opportunités pour tenter un rôle, puis un autre. Pour ces raisons, je suis convaincue que le métier de Data Analyst est le plus prometteur pour les années à venir.
Voilà, c’est tout pour aujourd’hui.
Si vous avez apprécié ces partages, un petit coeur, ça fait toujours plaisir!
Dites moi ce que vous pensez de cette édition en répondant à ce sondage ou en laissant un commentaire.
A la prochaine fois!