Thèse ANR Franco-Allemand (KIHT)

Doctorant :
  • Florent Imbert  (Octobre 2021)
Encadrants

Conception d’une architecture de réseaux de neurones profonds dédiée à la synthèse d’écriture manuscrite à partir de capteurs cinématiques d’un stylo numérique.

Mots-clés

Apprentissage profond, écriture manuscrite, synthèse de production manuscrite, stylo numérique, analyse de signaux, adaptation de domaine.

Partenaires

  • Laboratoires de l’IRISA et de l’institut de technologie de Karlsruhe (KIT)
  • Sociétés Stabilo et Learn&Go

Contexte

Cette thèse est proposée par l’équipe IntuiDoc de l’IRISA basée à Rennes. L’équipe IntuiDoc (www.irisa.fr/intuidoc/) effectue des recherches dans les domaines de la reconnaissance d’écriture manuscrite [Corbillé 2020, Lods 2020, Soullard 2019] et de l’analyse de documents [Soullard 2020, Guerry 2019]. L’équipe s’intéresse notamment à la conception  de  moteurs  évolutifs de  reconnaissance  de  formes  et  aux  nouveaux  usages  autour  de l’interaction stylet et gestuelle sur des surfaces tactiles (tablettes, tables tactiles, stylet numérique).

Cette thèse financée s’inscrit dans le cadre du projet ANR franco-allemand KIHT associant côté français le laboratoire IRISA et la société Learn&Go et côté allemand l’institut de technologie de Karlsruhe (KIT) et la société Stabilo. Le projet s’inscrit dans l’extension d’un dispositif intelligent d’aide à l’apprentissage de l’écriture manuscrite sur tablette dans les classes.

L’extension consiste à ouvrir la solution à un nouveau “device” de capture de l’écriture : un stylo numérique équipé de capteurs cinématiques qui permettra d’écrire sur n’importe quelle surface (écran et papier). La société Stabilo épaulée par le laboratoire allemand KIT a pour tâche de concevoir le hardware du stylo numérique ainsi que d’embarquer les algorithmes d’IA développés. De notre côté, nous mèneront, notamment à travers cette thèse, les recherches de conception des algorithmes d’IA à base d’apprentissage profond qui permettront de synthétiser automatiquement le tracé manuscrit en-ligne à partir des signaux cinématiques produits par les capteurs du stylo numérique. Ce travail sera conduit en parallèle d’un post-doctorat travaillant sur le même projet.

Sujet

Dans ce cadre, l’objectif ciblé par la thèse est donc de concevoir une architecture de réseaux de neurones profonds originale et performante pour générer automatiquement le tracé manuscrit en-ligne (c’est-à-dire avec sa dynamique sans tenir compte du mouvement complet) à partir des capteurs cinématiques du stylo numérique.

Les challenges identifiés sont : 1) les capteurs cinématiques ne capturent qu’un mouvement relatif du stylet ce qui complique la tâche de synthèse de la trajectoire absolue du geste ; 2) le nombre de capteurs cinématiques utilisés est réduit ce qui limite les informations en entrée du système ; 3) Pour aboutir à un stylo commercialisable dans les écoles, des capteurs à bas coût sont utilisés. les signaux générés sont parfois imprécis et bruités ; 4) Les trajectoires générées par l’écriture manuscrite sont composées de micro-mouvements qui peuvent être rapides et qui ne seront vraisemblablement pas tous captés cinématiquement. Pour faire face à ces challenges, une stratégie envisagée sera d’enrichir l’IA de connaissances sur l’écriture manuscrite pour compenser les faiblesses des signaux cinématiques d’entrée.

Dans un premier temps, on étudiera et évaluera les méthodes de référence susceptibles de répondre à la tâche voulue [Tang 2021, Wehbi 2020, Hsu 2019, Kumar 2018]. Ce travail sera conduit en collaboration avec le post-doctorant. Ensuite, on explora les dernières architectures [Nafea 2021, Shi 2020, Liu 2019] et innovations sur les réseaux de neurones profonds telles que les mécanismes d’attention, les stratégies d’apprentissage multi-tâches ou l’injection de connaissance a priori au sein de réseaux. A partir de ces éléments, on s’intéressera à proposer une architecture originale dédiée à la génération du tracé qui tirera profit de connaissance sur l’écriture manuscrite pour compenser les faiblesses des signaux d’entrée. On évaluera le modèle proposé sur des données fournies par les partenaires industriels Stabilo et Learn&Go [Lai 2020, Ott 2020] tant pour sa capacité en généralisation que sa robustesse sur différents supports (tablette, papier).

L’application attendue visant à permettre la reconstruction du tracé quel que soit le support d’écriture dédié (papier, tablette, tableau, table…), il est vraisemblable que l’approche retenue présente des différences de performances observables entre différents supports. Ceci peut être dû à une base d’apprentissage déséquilibrée en faveur d’un type de support ou à un support non vu en apprentissage impliquant une sensibilité différente. Ainsi, on s’intéressera à limiter ces disparités en adaptant le modèle au support utilisé. Pour cela, on pourra étudier les méthodes d’adaptation de domaine qui offrent un cadre théorique et applicatif pour répondre à cette limitation [Mateiu 2019, Motiian 2017].

Références

[Corbillé 2020] Corbillé, S., Fromont, E., Anquetil, E., & Nerdeux, P. (2020). Integrating Writing Dynamics in CNN for Online Children Handwriting Recognition. ICFHR.

[Guerry 2019] Guerry, C., Coüasnon, B., & Lemaitre, A. (2019). Combination of deep learning and syntactical approaches for the interpretation of interactions between text-lines and tabular structures in handwritten documents. ICDAR.

[Hsu 2019] Hsu, Y. L., & Wang, J. S. (2019). Random drift modeling and compensation for MEMS-based gyroscopes and its application in handwriting trajectory reconstruction. IEEE Access.

[Kumar 2018] Kumar, K. M., Kandala, H., & Reddy, N. S. (2018). Synthesizing and imitating handwriting using deep recurrent neural networks and mixture density networks. ICCCNT.

[Lai 2020] Lai, W. C., & Schröter, H. (2020). Ubicomp Digital 2020–Handwriting classification using a convolutional recurrent network. arXiv preprint arXiv:2008.01078.

[Liu 2019] J. Liu, A. Shahroudy, G. Wang, L. Duan and A. C. Kot, « Skeleton-Based Online Action Prediction Using Scale Selection Network, » PAMI, 2019.

[Lods 2020] Lods, A., Anquetil, E., & Macé, S. (2020). Graph Edit Distance for the analysis of children’s on-line handwritten arithmetical operations. ICFHR.

[Nafea 2021] Nafea, O., Abdul, W., Muhammad, G., & Alsulaiman, M. (2021). Sensor-Based Human Activity Recognition with Spatio-Temporal Deep Learning. Sensors.

[Ott 2020] Ott, F., Wehbi, M., Hamann, T., Barth, J., Eskofier, B., & Mutschler, C. (2020). The OnHW Dataset: Online Handwriting Recognition from IMU-Enhanced Ballpoint Pens with Machine Learning. Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies.

[Shi 2020] L. Shi et al., « SC4D: A Sparse 4D Convolutional Network for Skeleton-Based Action Recognition », Arxiv, 2020, https://arxiv.org/abs/2004.03259

[Soullard 2019] Soullard, Y., Swaileh, W., Tranouez, P., Paquet, T., & Chatelain, C. (2019). Improving text recognition using optical and language model writer adaptation. ICDAR.

[Soullard 2020] Soullard, Y., Tranouez, P., Chatelain, C., Nicolas, S., & Paquet, T. (2020). Multi-scale Gated Fully Convolutional DenseNets for semantic labeling of historical newspaper images. Pattern Recognition Letters.

[Tang 2021] Tang, S., & Lian, Z. (2021) Write Like You: Synthesizing Your Cursive Online Chinese Handwriting via Metric-based Meta Learning.

[Wehbi 2020] Wehbi, M., Hamann, T., Barth, J., & Eskofier, B. (2020, September). Digitizing Handwriting with a Sensor Pen: A Writer-Independent Recognizer. In 2020 17th International Conference on Frontiers in Handwriting Recognition (ICFHR).

Comments are closed.