Artefact recrute un(e)

Thèse CIFRE: Méthodes d’automatisation pour l’assortiment de produits en magasins

CDI • France

Cette offre est lié au département R&d

Mots clés:
Machine Learning

Proposition de sujet de thèse: Création et amélioration de méthodes d’automatisation pour l’assortiment de produits en magasins

 

Présentation d’Artefact:

Artefact est une société internationale de services autour de la data, spécialisée dans le conseil en transformation data, dont la mission est de transformer la donnée  en délivrant des résultats tangibles sur l’ensemble de la chaîne de valeur des entreprises.  

L’approche unique d’Artefact, qui fait le pont entre la donnée et le business, permet à nos clients d’atteindre leurs objectifs business de façon dédiée et efficace(e)Nos 800 employés allient leurs compétences pluridisciplinaires au profit  de l’innovation business des entreprises(e)Nos technologies de pointe en Intelligence Artificielle, nos méthodes agiles  garantissent le succès des projets IA de nos clients, de la conception au déploiement, jusqu’à la formation et  l’accompagnement au changement. 

Depuis plusieurs années, nous développons des solutions pour la chaîne logistique de grands acteurs du monde de la distribution, tels que Carrefour, Fortenova, L’Oréal ou encore Danone.

Contexte de la thèse & objectifs :

Un supermarché propose environ 20000 produits, tandis que la centrale d’achat d’un distributeur référence plus de 150000 articles(e)Les distributeurs doivent donc sélectionner les produits à vendre dans chaque magasin(e)Avant l’utilisation des données massives, cette sélection s’effectuait manuellement, avec des assortiments-type, basés sur l’expérience métier au niveau du magasin ou du distributeur(e)Cette approche historique n’exploite pas les nombreuses données disponibles, à commencer par les paniers de produits que les clients achètent, riches en information de préférences et complémentarité entre les produits.

Le problème général est de proposer un assortiment optimal, c'est-à-dire un ensemble de produits à mettre en rayon qui maximise un objectif pré-défini: l’espérance du revenu final, la marge moyenne ou bien le volume des ventes hebdomadaires(e)Cet objectif dépend de la stratégie du groupe ou des catégories des produits(e)Un tel problème peut généralement être considéré comme deux étapes successives(e)La première est d’estimer l’utilité des produits dans un assortiment donné, en modélisant les phénomènes de substitution et de cannibalisation entre produits, comme de préférences des clients(e)La littérature considère souvent cette utilité comme connue, ce qui n’est pas le cas de tous les distributeurs, et qui est imprécise dans les autres cas, car basé sur une expertise métier du distributeur et revendeur qui s’avère subjective et difficilement à jour des tendances(e)La seconde étape est de proposer un ensemble de produits optimal étant donné cette utilité de chaque produit(e)Cette optimisation doit donc modéliser le revenu attendu d’un assortiment, ce qui correspond à l’ensemble des achats de paniers des clients dans ce scénario de produits.

Ces problématiques sont par ailleurs contraintes par l’environnement métier(e)Il existe notamment des pénuries de produits, de la saisonnalité de la consommation, ainsi qu’un impact des campagnes de promotion ou de l’inflation sur le comportement des clients(e)De façon similaire, il existe des contraintes “business” qui imposent de mettre en avant certains produits, et qui est une donnée métier directement dictée par les gérants de catégories et magasins(e)Tous ces facteurs doivent être idéalement pris en compte, que ce soit à travers une contrainte de l’optimisation ou par une fonction objectif adaptée(e)Ces impacts sont notamment à considérer dans l’estimation de l’utilité des produits (car ils impactent le comportement du consommateur) ou bien lors de l’optimisation de l’assortiment(e)En parallèle, on veut permettre à l’utilisateur final de facilement apporter des modifications à la volée, que ce soit pour une raison citée ci-dessus ou pour refléter une conviction métier.

L’objectif de cette thèse est double: À la fois permettre la découverte et l’amélioration de méthodes statistiques ou de machine learning pour être utilisées et déployées par Artefact, tout en s’assurant que ces dernières puissent efficacement répondre aux contraintes de nos clients, que ce soit en terme de déploiement, de grands volumes de données, ou en terme de problématiques fonctionnelles citées plus haut(e)A ce titre, Artefact mettra à disposition de la personne doctorante un ensemble de jeux de données réelles issues de systèmes de ventes par magasins, couvrant plusieurs années et dans une granularité au niveau des achats unitaires, avec l’accord de nos clients.

Problématiques scientifiques:

Le doctorant aura pour première mission d’étudier l’état de l’art des approches et modèles existants, en contact avec nos équipes techniques qui ont travaillé sur cette thématique ainsi qu’avec une revue exhaustive de la littérature(e)Le sujet se trouve en connexion avec le Machine learning et la Recherche Opérationnelle.

Une première problématique sera que le modèle puisse explorer efficacement le champ des possibles, qui est théoriquement en n!, en trouvant un juste équilibre afin de ne pas trop simplifier la résolution(e)Cette modélisation devra prendre en compte un maximum d’aspects et contraintes du problème et dans une proportion estimable via les données (sans explosion du nombre de paramètres)(e)Concrètement, un enjeu sera notamment d’inclure les phénomènes connexes tels que la saisonnalité, les effets de promotion et de prix des produits.

Un second défi sera de modéliser de façon pertinente la représentation latente des produits(e)Ces représentations sont par exemple au cœur des embeddings de mots dans les réseaux de neurones, ou des produits recommandés via collaborative filtering(e)Cette représentation serait calculée automatiquement par le modèle, et possiblement enrichie grâce à des features explicites (prix, taille, couleur)(e)Cette représentation peut entrer en compte dans le calcul d’utilité du produit, mais aussi dans un calcul de proximité afin de modéliser les possibles effets de substitution ou cannibalisation.

Ce sujet comprend aussi la difficulté de “cold start” avec les lancements de produits(e)En effet, les approches de la littérature s’appuient sur les transactions passées pour estimer l’utilité, or il y a régulièrement des lancements de produits, avec notamment de nouvelles marques(e)Si des variations de produits existants seraient bien modélisées en mettant à jour leurs features et leur représentation latente, le risque est de mal généraliser pour de nouveaux produits disruptifs(e)Une piste serait d’exploiter les données de magasins similaires dans le cas d’un produit déjà lancé ailleurs, ou d’avoir une approche spécifique post lancement qui extrapole les premières données de vente(e)Un sujet connexe sera d’exploiter au mieux la hiérarchie des magasins, qui sont assignés à des catégories (taille, urbain, …) et localisations.

Le doctorant sera aussi responsable de définir les métriques d’évaluation et protocoles de validation en conditions réelles(e)Les premières devront inclure des considérations métier de la grande distribution, ainsi que des statistiques qui reflètent la qualité des assortiments recommandés, et sont calculables virtuellement pour une première évaluation quantitative de la solution(e)Le protocole de validation devra lui être suffisamment réaliste à mettre en œuvre dans la pratique, comme par exemple un A/B testing dans peu de magasins, mais devra aussi être fiable et non biaisé afin de juger rapidement de la pertinence des suggestions de la solution.

Enfin, une difficulté de ces modèles est la rapidité de calcul, en d’autres termes que la solution soit scalable(e)Ce point rejoint la question de l’exploration de l’espace des possibles, mais aussi sur l’apprentissage en temps contraint sur l’ensemble des données, qui regroupent les transactions uniques, de chaque client sur plusieurs années(e)Enfin, le cas idéal serait qu’un utilisateur final de l’outil puisse régulièrement changer ou ajouter de nouveaux critères à inclure (prix, promotion, nouveau produit, …) ce qui doit pouvoir se calculer en un temps acceptable.

Références bibliographiques:

Gao, P., Ma, Y., Chen, N., Gallego, G., Li, A., Rusmevichientong, P., & Topaloglu, H(e)(2021)(e)Assortment optimization and pricing under the multinomial logit model with impatient customers: Sequential recommendation and selection(e)Operations research, 69(5), 1509-1532.

Jagabathula, S(e)(2014)(e)Assortment optimization under general choice(e)Available at SSRN 2512831.

Rusmevichientong, P., Shen, Z(e)J(e)M., & Shmoys, D(e)B(e)(2010)(e)Dynamic assortment optimization with a multinomial logit choice model and capacity constraint(e)Operations research, 58(6), 1666-1680.

Aouad, A., Levi, R., & Segev, D(e)(2018)(e)Greedy-like algorithms for dynamic assortment planning under multinomial logit preferences(e)Operations Research, 66(5), 1321-1345.

Dzyabura, D., & Jagabathula, S(e)(2018)(e)Offline assortment optimization in the presence of an online channel(e)Management Science, 64(6), 2767-2786.

Tulabandhula, T., Sinha, D., & Karra, S(e)(2022)(e)Optimizing revenue while showing relevant assortments at scale(e)European Journal of Operational Research, 300(2), 561-570.

Aouad, A., Feldman, J., Segev, D., & Zhang, D(e)(2019)(e)The Click-Based MNL Model: A Novel Framework for Modeling Click Data in Assortment Optimization(e)Available at SSRN 3340620.

Farias, V(e)F., Jagabathula, S., & Shah, D(e)(2017)(e)Building optimized and hyperlocal product assortments: A nonparametric choice approach(e)Available at SSRN 2905381.

Aouad, Ali, and Antoine Désir(e)"Representing random utility choice models with neural networks." arXiv preprint arXiv:2207.12877 (2022).

En recherche d'un nouveau poste?

Thèse CIFRE: Méthodes d’automatisation pour l’assortiment de produits en magasins chez Artefact vous plait? Nous avons des dizaines d’offres similaires sur notre site. Interessé(e)? Entrez votre email et l’on vous enverra les meilleures offres par email quotidiennement.