Mettre en place une chaîne de numérisation efficace avec un maximum d’automatisation et des engagements contractuels forts en termes de qualité des données fournies et de délai de livraison, telle est la raison d’être d’un spécialiste du BPO (Business Process Outsourcing). A lui de savoir panacher avec talent et précision les technologies nécessaires pour tenir ces engagements. Explications.
Outre son métier d’éditeur de logiciels en SaaS autour de Doxtreem, Numen possède aussi une business unit qui fait commerce des flux de données extraites des documents scannés sur ses chaînes de numérisation. Piégées dans des documents papiers ou électroniques et présentées de façon déstructurée, ces données ont deux vocations :
Qu’elles soient issues de documents scannés ou de documents numériques, ces données sont extraites avec des engagements précis en termes de qualité, d’exhaustivité et de délai. Et pour faire ce métier, Numen s’appuie sur différentes technologies d’automatisation.
Ainsi, en fonction des exigences des clients, Numen arbitre entre l’utilisation de l’IA, celle d’autres technologies et l’intervention humaine. Sa force, c’est de savoir placer le curseur au bon endroit. “Notre métier n’est pas de fournir la technologie pour rendre les clients autonomes afin qu’ils réalisent ces opérations eux-mêmes, mais de combiner systématiquement les meilleures technologies au contrôle humain pour assurer des prestations fiables et compétitives”, explique François Chahuneau, Director of Technology chez Numen.
Reste que la compétitivité des offres Numen en matière de BPO est fortement liée au taux d’automatisation de la chaîne de numérisation mise en place. Car seul le résultat compte. Rappelons, en effet, que derrière les flux de données livrés au client, il n’y a personne pour les contrôler. Ils nourrissent un système d’information ou une application métier. Voilà pourquoi l’extraction doit être de qualité et pourquoi il est important d’utiliser les technologies d’IA adaptées à la valeur de ces données et au risque d’erreur consenti.
Il existe aujourd’hui une confusion entre l’IA et le Machine Learning qui sont devenus des buzzwords et dont on ne sait plus très bien qui fait quoi. Si le Machine Learning et le Deep Learning sont des Intelligences Artificielles, l’inverse n’est pas vrai. Par exemple, les graphiques de connaissances ou les moteurs de règles sont des Intelligences Artificielles mais ne relèvent pas du Machine Learning ni du Deep Learning. Le Machine Learning, ou apprentissage automatique, est capable de reproduire un comportement grâce à des algorithmes alimentés par un grand nombre de données. Confrontés à de nombreuses situations, ces algorithmes apprennent, par la statistique, quelle est la décision à adopter et créent un modèle. La machine peut dès lors automatiser les tâches en fonction des situations.
Le Machine Learning exige donc des données en très grande quantités et un entraînement spécifique. Or, comment faire quand on ne dispose pas d’un pool de données suffisant ? En effet, le BPOiste ne possède pas, au moins au début, les données que les clients lui confient. “Si, au regard du RGPD, le client nous demande d’oublier immédiatement les données, nous n’avons pas la possibilité de les utiliser pour entraîner notre algorithme d’IA”, ajoute François Chahuneau. Il est possible d’analyser les quelques données à disposition, de définir des règles et d’entraîner l’algorithme d’IA, mais cela risque de prendre énormément de temps.
Autre problème : l’imputabilité de l’erreur. Ces algorithmes de ML affichent aujourd’hui tous un taux de probabilité. Une sorte d’indice de confiance. Car aucun système n’est fiable à 100%. Sauf que si le client nous confie la numérisation de ses documents et l’extraction de ses données, c’est pour qu’il n’y ait pas d’erreur justement. Voilà pourquoi nous ajoutons une couche de contrôle humain derrière l’IA, avant de nous engager sur la qualité des livrables. Les opérateurs peuvent par exemple se focaliser uniquement sur les incertitudes remontées par les machines. “Les clients demandent une intervention humaine, car ils souhaitent un taux de qualité exigeant et contractuel”, poursuit François Chahuneau.
Et quand une prédiction d’un réseau de neurones est fausse, il n’y aucune explication sur le “pourquoi du comment”. Selon l’enjeu, cela peut être grave ou… pas du tout. Mais vous ne pouvez pas dire à un client que parmi les données extraites de ses documents il y a 10% d’erreurs, sans savoir quelle est la nature de ces erreurs. L’une d’elles peut très bien être inacceptable. Et le problème avec l’IA réside dans le fait que nous n’avons jamais de réponse ni de manière d’être certain que cela ne va pas se reproduire. Vous n’êtes jamais à l’abri d’une erreur incompréhensible. “Voilà pourquoi certaines méthodes ne sont pas applicables face aux exigences clients, insiste le Director of Technology de Numen. Nous devons pouvoir remonter à l’origine de l’anomalie et faire en sorte que cela ne se reproduise pas. Nous ne pouvons donc pas nous contenter de ces méthodes de ML statistique.”
Bien entendu, Numen s’appuie autant que possible sur l’IA pour assurer ses prestations de numérisation et d’extraction de données, mais pour renforcer leur fiabilité, le contrôle humain s’avère indispensable. C’est ce que nous appelons, chez Numen de “l’IA augmentée”. In fine, l’expertise du BPOiste réside dans cette faculté de combiner les meilleures technologies et les meilleurs usages pour obtenir les meilleurs résultats.
L’Institut national de la propriété intellectuelle (INPI) met gratuitement à disposition, via son moteur de recherche Data INPI, les informations légales de 5,9 millions d’entreprises. Ainsi, chaque année 1,85 million de liasses fiscales passent par les chaînes de numérisation Numen. “Ici, nous ne sommes pas en présence d’un document Cerfa au gabarit parfaitement connu, explique François Chahuneau. Les entreprises sont, en effet, libres de nommer leurs comptes comme elles veulent.” Les documents étant hétérogènes, il faut de l’intelligence et de la subtilité pour aller chercher les données. Lors des pics d’activité, ce sont 8 000 liasses fiscales qui sont traitées chaque jour. Des liasses dont Numen extrait au maximum 600 valeurs numériques. Le taux d’automatisation de cette chaîne est de 85%, mais près d’une centaine d’opérateurs sont là en renfort pour effectuer l’analyse détaillée de tous les doutes et autres anomalies pour lesquels l’automate remonte une alerte. Il est d’ailleurs programmé pour lever le doigt au moindre doute.