Mission principale
Le/la Data Engineer orienté(e) IA/Machine Learning a pour mission de concevoir, construire et maintenir des pipelines de données robustes, scalables et efficaces, permettant l’entraînement, la validation et le déploiement de modèles d’IA. Il/elle garantit la qualité, la disponibilité et la transformation des données à grande échelle pour répondre aux besoins des équipes de data science et de ML.
Responsabilités principales
Conception et gestion des pipelines de données
- Développer des ETL/ELT performants pour ingérer, nettoyer, transformer et agrégrer des données structurées et non structurées.
- Intégrer des sources de données variées : bases de données, APIs, streams (Kafka), data lakes, etc.
- Assurer la scalabilité et la fiabilité des pipelines en production.
Support aux équipes IA / ML
- Collaborer étroitement avec les data scientists et ML engineers pour comprendre leurs besoins en données.
- Préparer et fournir des jeux de données adaptés à l’entraînement et à l’évaluation des modèles.
- Mettre en place des processus de feature engineering reproductibles.
Infrastructure Data & Cloud
- Utiliser des technologies Big Data : Spark, Kafka, Airflow, dbt, etc.
- Travailler dans des environnements cloud : AWS (S3, Glue, Redshift), GCP (BigQuery, Dataflow), Azure (Data Factory, Synapse).
- Automatiser le déploiement de pipelines via CI/CD et outils DevOps.
Qualité et gouvernance des données
- Implémenter des contrôles de qualité et de conformité (GDPR, etc.).
- Documenter les métadonnées et assurer la traçabilité des données.
- Optimiser les coûts et les performances des infrastructures data.
Profil recherché
Formation et expérience
- Bac+5 en informatique, data engineering, statistiques ou domaine équivalent.
- Minimum 3 ans d’expérience en data engineering, idéalement dans un contexte IA/ML.
- Expérience avec les écosystèmes Big Data et Cloud.
Compétences techniquesBig Data / StreamingCloud & InfraLangagesOutils / OrchestrationApache SparkAWS / GCP / AzurePython (PySpark)Apache AirflowKafka / RabbitMQDocker / KubernetesSQL avancédbt (data build tool)Hadoop / HDFSTerraform / CI/CDScala (optionnel)MLflow / Kubeflow
Soft skills
- Forte aptitude à résoudre des problèmes complexes.
- Curiosité technique et veille active sur les outils data et IA.
- Excellente communication avec les équipes techniques et métier.
- Rigueur, autonomie et sens des responsabilités.
Type d'emploi : CDI
Rémunération : 50 101,50€ à 60 929,76€ par an
Question(s) de présélection:
- Pouvez-vous expliquer en quelques lignes votre expérience en Intelligence artificielle ?
Expérience:
- data Engineer orienté(e) IA/Machine Learning: 3 ans (Requis)
Lieu du poste : Télétravail hybride (34070 Montpellier)