• 23 ressources ont été trouvées. Voici les résultats 1 à 10
Tri :   Date Editeur Auteur Titre

Formalisation et étude de problématiques de scoring en risque de crédit : inférence de rejet, discrétisation de variables et interactions, arbres de régression logistique

/ Ehrhardt Adrien / Université Lille1 - Sciences et Technologies / 30-09-2019
Voir le résumé | Accéder à la ressource
Voir le résumé
Cette thèse se place dans le cadre des modèles d’apprentissage automatique de classification binaire. Le cas d’application est le scoring de risque de crédit. En particulier, les méthodes proposées ainsi que les approches existantes sont illustrées par des données réelles de Crédit Agricole Consumer Finance, acteur majeur en Europe du crédit à la consommation, à l’origine de cette thèse grâce à un financement CIFRE. Premièrement, on s’intéresse à la problématique dite de “réintégration des refusés”. L’objectif est de tirer parti des informations collectées sur les clients refusés, donc par définition sans étiquette connue, quant à leur remboursement de crédit. L’enjeu a été de reformuler cette problématique industrielle classique dans un cadre rigoureux, celui de la modélisation pour données manquantes. Cette approche a permis de donner tout d’abord un nouvel éclairage aux méthodes standards de réintégration, et ensuite de conclure qu’aucune d’entre elles n’était réellement à recommander tant que leur modélisation, lacunaire en l’état, interdisait l’emploi de méthodes de choix de modèles statistiques. Une autre problématique industrielle classique correspond à la discrétisation des variables continues et le regroupement des modalités de variables catégorielles avant toute étape de modélisation. La motivation sous-jacente correspond à des raisons à la fois pratiques (interprétabilité) et théoriques (performance de prédiction). Pour effectuer ces quantifications, des heuristiques, souvent manuelles et chronophages, sont cependant utilisées. Nous avons alors reformulé cette pratique courante de perte d’information comme un problème de modélisation à variables latentes, revenant ainsi à une sélection de modèle. Par ailleurs, la combinatoire associée à cet espace de modèles nous a conduit à proposer des stratégies d’exploration, soit basées sur un réseau de neurone avec un gradient stochastique, soit basées sur un algorithme de type EM stochastique. Comme extension du problème précédent, il est également courant d’introduire des interactions entre variables afin, comme toujours, d’améliorer la performance prédictive des modèles. La pratique classiquement répandue est de nouveau manuelle et chronophage, avec des risques accrus étant donnée la surcouche combinatoire que cela engendre. Nous avons alors proposé un algorithme de Metropolis-Hastings permettant de rechercher les meilleures interactions de façon quasi-automatique tout en garantissant de bonnes performances grâce à ses propriétés de convergence standards. La dernière problématique abordée vise de nouveau à formaliser une pratique répandue, consistant à définir le système d’acceptation non pas comme un unique score mais plutôt comme un arbre de scores. Chaque branche de l’arbre est alors relatif à un segment de population particulier. Pour lever la sous-optimalité des méthodes classiques utilisées dans les entreprises, nous proposons une approche globale optimisant le système d’acceptation dans son ensemble. Les résultats empiriques qui en découlent sont particulièrement prometteurs, illustrant ainsi la flexibilité d’un mélange de modélisation paramétrique et non paramétrique. Enfin, nous anticipons sur les futurs verrous qui vont apparaître en Credit Scoring et qui sont pour beaucoup liés la grande dimension (en termes de prédicteurs). En effet, l’industrie financière investit actuellement dans le stockage de données massives et non structurées, dont la prochaine utilisation dans les règles de prédiction devra s’appuyer sur un minimum de garanties théoriques pour espérer atteindre les espoirs de performance prédictive qui ont présidé à cette collecte.

Vision-based calibration, position control and force sensing for soft robots

/ Zhang Zhongkai / Université Lille1 - Sciences et Technologies / 10-01-2019
Voir le résumé | Accéder à la ressource
Voir le résumé
La modélisation de robots souples est extrêmement difficile, à cause notamment du nombre théoriquement infini des degrés de liberté. Cette difficulté est accentuée lorsque les robots ont des configurations complexes. Ce problème de modélisation entraîne de nouveaux défis pour la calibration et la conception des commandes des robots, mais également de nouvelles opportunités avec de nouvelles stratégies de détection de force possibles. Cette thèse a pour objectif de proposer des solutions nouvelles et générales utilisant la modélisation et la vision. La thèse présente dans un premier temps un modèle cinématique à temps discret pour les robots souples reposant sur la méthode des éléments finis (FEM) en temps réel. Ensuite, une méthode de calibration basée sur la vision du système de capteur-robot et des actionneurs est étudiée. Deux contrôleurs de position en boucle fermée sont conçus. En outre, pour traiter le problème de la perte d'image, une stratégie de commande commutable est proposée en combinant à la fois le contrôleur à boucle ouverte et le contrôleur à boucle fermée. Deux méthodes (avec et sans marqueur(s)) de détection de force externe pour les robots déformables sont proposées. L'approche est basée sur la fusion de mesures basées sur la vision et le modèle par FEM. En utilisant les deux méthodes, il est possible d'estimer non seulement les intensités, mais également l'emplacement des forces externes. Enfin, nous proposons une application concrète : un robot cathéter dont la flexion à l'extrémité est piloté par des câbles. Le robot est contrôlé par une stratégie de contrôle découplée qui permet de contrôler l’insertion et la flexion indépendamment, tout en se basant sur un modèle FEM.

Clinical laboratory optimization

/ Faramarzi Oghani Sohrab / Université Lille1 - Sciences et Technologies / 17-12-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
Cette thèse porte sur l'optimisation de la conception et des décisions opérationnelles des laboratoires d'analyses médicales. Dans cette thèse, un outil d'aide à la décision comprenant des modèles mathématiques, un algorithme heuristique et un modèle de simulation personnalisé est développé pour aider les décideurs à résoudre les principaux problèmes stratégiques, tactiques et opérationnels en conception et gestion des opérations des laboratoires d'analyses médicales. Dans cette thèse, la sélection des machines et la disposition des instruments sont étudiées en tant que principaux problèmes stratégiques, le problème de configuration des analyseurs en tant que problème tactique et l’affectation, l’aliquotage et l'ordonnancement en tant que principaux problèmes opérationnels. Un modèle de simulation personnalisé et flexible est développé dans FlexSim pour étudier le laboratoire d'analyse médicale conçu à l'aide des résultats de modèles mathématiques et d'un algorithme de layout développés. Le modèle de simulation aide le concepteur à construire et à analyser un laboratoire complet en tenant compte de toutes les principales caractéristiques du système. Cet attribut de simulation permet d'analyser le comportement du système et de déterminer si le système conçu est efficace. Pour vérifier la validité du cadre proposé, les données extraites d’un cas réel sont utilisées. Les résultats de sortie scellent l'applicabilité et l'efficacité du cadre proposé ainsi que la compétence des techniques proposées pour traiter chaque problème d'optimisation. À notre connaissance, cette thèse est l’une des principales études sur l’optimisation des laboratoires d'analyses médicales.

Flexible framework for elasticity in cloud computing

/ Al-Dhuraibi Yahya / Université Lille1 - Sciences et Technologies / 10-12-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
Le Cloud computing a gagné beaucoup de popularité et a reçu beaucoup d'attention des deux mondes, industriel et académique, puisque cela les libère de la charge et le coût de la gestion de centres de données locaux. Toutefois, le principal facteur motivant l'utilisation du Cloud est sa capacité de fournir des ressources en fonction des besoins du client. Ce concept est appelé l’élasticité. Adapter les applications Cloud lors de leur exécution en fonction des variations de la demande est un grand défi. En outre, l'élasticité de Cloud est diverse et hétérogène car elle englobe différentes approches, stratégies, objectifs, etc. Nous sommes intéressés à étudier: Comment résoudre le problème de sur/sous-approvisionnement? Comment garantir la disponibilité des ressources et surmonter les problèmes d'hétérogénéité et de granularité des ressources? Comment standardiser, unifier les solutions d'élasticité et de modéliser sa diversité à un haut niveau d'abstraction? Dans cette thèse, trois majeures contributions ont été proposées: Tout d’abord, un état de l’art à jour de l’élasticité du Cloud ; cet état de l’art passe en revue les différents travaux relatifs à l’élasticité des machines virtuelles et des conteneurs. Deuxièmement, ElasticDocker, une approche permettant de gérer l’élasticité des conteneurs, notamment l’élasticité verticale, la migration et l’élasticité combinée. Troisièmement, MoDEMO, un nouveau cadre de gestion d'élasticité unifié, basé sur un standard, dirigé par les modèles, hautement extensible et reconfigurable, supportant plusieurs stratégies, différents types d’élasticité, différentes techniques de virtualisation et plusieurs fournisseurs de Cloud.

Collecte et remontée multi-sauts de données issues de lecteurs RFID pour la surveillance d'infrastructures urbaines

/ Mbacke Abdoul Aziz / Université Lille1 - Sciences et Technologies / 18-10-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
La forte urbanisation dont le monde est témoin exige une meilleure gestion des villes. Cette gestion améliorée passe par la surveillance et la maintenance des équipements et infrastructures urbaines afin d'assurer plus de sécurité et bien-être aux habitants. Un rôle clé a donc été confié aux TIC à travers les concepts de l'IoT et des Villes Intelligentes. Cette thèse se positionne dans ce contexte et propose l'Identification par Radio Fréquence (RFID) en complément des techniques déjà utilisées. L'adoption de la RFID à grande échelle pour les centres urbains nécessite cependant de résoudre deux principaux problèmes : les collisions de lecture et la collecte et remontée des données. A travers les travaux menés dans cette thèse, nous avons d'abord cherché à identifier les solutions déjà proposées dans la littérature pour réduire les collisions. Sur la base de cette étude, nous avons proposé deux algorithmes distribués d'anticollision de lecture DEFAR et CORA. Ils permettent d'assurer un débit de lecture important en maintenant un taux de collisions et une latence de couverture faible comparés aux solutions de la littérature. Par la suite, nous avons proposé DACAR, un algorithme distribué de collecte des données issues des lecteurs RFID de manière multi-sauts. Il s'adapte en fonction du protocole d'anticollision utilisé et de la position des lecteurs déployés pour fournir un ratio de délivrance des paquets fiable et un faible délai de bout-en-bout. Une version améliorée est ultérieurement proposée pour la priorisation des données et offrir des chemins différents plus appropriés à l'aide d'une combinaison de différents paramètres grâce à la logique floue.

Ubiquitous networks for Smart Grids

/ Nassar Jad / Université Lille1 - Sciences et Technologies / 12-10-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
Les Smart Grids visent à transformer le réseau électrique actuel en un réseau "plus intelligent" où la production énergétique est décentralisée et automatisée, facilitant l'intégration des sources d'énergie renouvelables. Cette évolution est rendue possible grâce à l'utilisation d'un réseau de communication pour les multiples échanges de données hétérogènes des Smart Grids. L'objectif de cette thèse est de proposer un paradigme de communication efficace en termes de qualité de service pour les Smart Grids basé sur les réseaux de capteurs. Dans un premier temps, on s’intéresse au protocole standard RPL. Nous proposons une évolution de celui-ci à travers une nouvelle fonction objectif. Celle-ci tire parti de l’hétérogénéité matérielle des nœuds et des liens pour introduire la qualité de service. Cela permet à RPL de satisfaire les multiples et différentes exigences en termes de fiabilité, de latence et de priorité dans l'acheminement des données. Nos résultats montrent que notre approche permet bien la différentiation du trafic tout en réduisant la latence du routage et en économisant l'énergie. Nous proposons également d'améliorer l'utilisation du réseau de capteurs en y introduisant l’auto-organisation et la réduction des données. Le but est alors de prédire la valeur des données mesurées plutôt que de les transmettre. Une autre approche explorée est d'agréger les différents messages transitant sur le réseau tout en considérant leurs différentes exigences de qualité de service. Ces deux approches permettent ainsi de réduire la consommation d'énergie tout en respectant les exigences des différentes applications des Smart Grids.

Support à la rénovation d'une architecture logicielle patrimoniale : un cas réel chez Thales Land and Air Systems

/ Govin Brice / Université Lille1 - Sciences et Technologies / 26-06-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
Les entreprises accordent énormément d'importance à identifier des démarches automatisées et réplicables pour résoudre leurs problèmes. Ce constat s'applique aussi au démarche de rénovation d'architecture logicielle. Au sein d'une grande entreprise, nous avons intégré l'équipe chargée de réaliser la rénovation de l'architecture d'un logiciel. Nous avons étudié la démarche informelle suivie par cette équipe afin d'en proposer une généralisation et des outils facilitant son automatisation et sa réplication à d'autres projets. La plupart des solutions proposées dans la littérature ne peuvent s'appliquer à ce projet, du fait de leur caractère manuel, de leurs contraintes particulières ou de leur manque d'application sur des cas réels. Toutefois, nous avons identifié que le Reflexion Model, la recherche d’information et le regroupement statistique peuvent s'y appliquer. Nous avons alors proposé une nouvelle démarche structurée qui se base sur une adaptation du Reflexion Model et sur la démarche réalisée par l'entreprise. Notre démarche utilise cinq critères permettant l'allocation du code source existant à l'architecture du logiciel rénové. Nous avons montré que l'application de nos critères d'allocation donne des résultats satisfaisants au contraire de la recherche d’information et du regroupement. Enfin, pour répondre au besoin d'automatisation, nous avons défini ce que nous appelons des opérateurs. Ils se basent sur les activités que nous avons identifiées dans le travail des ingénieurs de l’entreprise. Nous avons montré que ces opérateurs permettraient de répliquer entièrement notre démarche structurée autorisant ainsi son application efficace sur d'autres projets.

Characterizing edges in signed and vector-valued graphs

/ Le Fahler Géraud / Université Lille1 - Sciences et Technologies / 16-04-2018
Voir le résumé | Accéder à la ressource
Voir le résumé
Nous proposons des méthodes pour caractériser efficacement les arêtes au sein de réseaux complexes. Dans les graphes simples, les nœuds sont liés par une sémantique unique, tels deux utilisateurs amis dans un réseau social. De plus, ces arêtes sont guidées par la similarité entre les nœuds (homophilie). Ainsi, les membres deviennent amis à cause de caractéristiques communes. En revanche, les réseaux complexes sont des graphes où chaque arête possède une sémantique parmi k possibles. Ces arêtes sont de plus basées à la fois sur une homophilie et une hétérophilie partielle. Cette information supplémentaire permet une analyse plus fine de graphes issus d’applications réelles. Cependant, elle peut être coûteuse à acquérir, ou même être indisponible. Nous abordons donc le problème d’inférer la sémantique des arêtes. Nous considérons d'abord les graphes dont les arêtes ont deux sémantiques opposées, et où seul une fraction des étiquettes est visibles. Ces «graphes signés» sont une façon élégante de représenter des interactions polarisées. Nous proposons deux biais d’apprentissage, adaptés respectivement aux graphes signés dirigés ou non, et plusieurs algorithmes utilisant la topologie du graphe pour résoudre un problème de classification binaire. Ensuite, nous traitons les graphes avec k > 2 sémantiques possibles. Dans ce cas, nous ne recevons pas d’étiquette d’arêtes, mais plutôt un vecteur de caractéristiques pour chaque nœud. Face à ce problème non supervisé, nous concevons un critère de qualité exprimant dans quelle mesure une k-partition des arêtes et k vecteurs sémantiques expliquent les arêtes observées. Nous optimisons ce critère sous forme vectorielle et matricielle.

Exploration-exploitation with Thompson sampling in linear systems

/ Abeille Marc / Université Lille1 - Sciences et Technologies / 13-12-2017
Voir le résumé | Accéder à la ressource
Voir le résumé
Cette thèse est dédiée à l'étude du Thompson Sampling (TS), une heuristique qui vise à surmonter le dilemme entre exploration et exploitation qui est inhérent à tout processus décisionnel face à l'incertain. Contrairement aux algorithmes issus de l'heuristique optimiste face à l'incertain (OFU), où l'exploration provient du choix du modèle le plus favorable possible au vu de la connaissance accumulée, les algorithmes TS introduisent de l'aléa dans le processus décisionnel en sélectionnant aléatoirement un modèle plausible, ce qui les rend bien moins coûteux numériquement. Cette étude se concentre sur les problèmes paramétriques linéaires, qui autorisent les espaces état-action continus (infinis), en particulier les problèmes de Bandits Linéaires (LB) et les problèmes de contrôle Linéaire et Quadratique (LQ). Nous proposons dans cette thèse de nouvelles analyses du regret des algorithmes TS pour chacun de ces deux problèmes. Bien que notre démonstration pour les LB garantisse une borne supérieure identique aux résultats préexistants, la structure de la preuve offre une nouvelle vision du fonctionnement de l'algorithme TS, et nous permet d'étendre cette analyse aux problèmes LQ. Nous démontrons la première borne supérieure pour le regret de l'algorithme TS dans les problèmes LQ, qui garantie dans le cadre fréquentiste un regret au plus d'ordre O(\sqrt{T}). Enfin, nous proposons une application des méthodes d'exploration-exploitation pour les problèmes d'optimisation de portefeuille, et discutons dans ce cadre le besoin ou non d'explorer activement.

Semi-supervised clustering in graphs

/ Chatel David / Université Lille1 - Sciences et Technologies / 07-12-2017
Voir le résumé | Accéder à la ressource
Voir le résumé
Le partitionnement consiste à rechercher une partition d'éléments, de sorte que les éléments d'un même cluster soient plus similaires que les éléments de différents clusters. Les données proviennent de différentes sources et prennent des formes différentes. L'un des défis consiste à concevoir un système capable de tirer parti des différentes sources de données. Certaines contraintes peuvent être connues sur les données. On peut savoir qu'un objet est d'un certain type ou que deux objets partagent le même type ou sont de types différents. On peut également savoir qu'à l'échelle globale, les différents types d'objets apparaissent avec une fréquence connue. Dans cette thèse, nous nous concentrons sur le partitionnement avec trois types de contraintes: les contraintes d'étiquettes, les contraintes de paires et les contraintes de lois de puissance. Une contrainte d'étiquette spécifie dans quel cluster appartient un objet. Les contraintes par paire spécifient que les paires d'objets doivent ou ne doivent pas partager le même cluster. Enfin, la contrainte de loi de puissance est une contrainte globale qui spécifie que la distribution des tailles de cluster est soumise à une loi de puissance. Nous voulons montrer que l'introduction de la semi-supervision aux algorithmes de clustering peut modifier et améliorer les solutions retournées par des algorithmes de clustering non supervisés. Nous contribuons à cette question en proposant des algorithmes pour chaque type de contraintes. Nos expériences sur les ensembles de données UCI et les jeux de données en langage naturel montrent la bonne performance de nos algorithmes et donnent des indications pour des travaux futurs prometteurs.

Cité Scientifique BP 30155 59653 VILLENEUVE D'ASCQ CEDEX Tél.:+33 (0)3 20 43 44 10