Auteurs : Heuzef, Yvan Rolland, Viktoriia Saveleva, Florent Constant
Date : 06/2024
La comprĂ©hension des champignons est cruciale pour la prĂ©servation de la biodiversitĂ©, la santĂ© humaine et lâagriculture durable.
Les champignons ne sont pas des plantes, bien que leur apparente immobilitĂ© puisse le faire penser. Une distinction simple est que les champignons ne font pas de photosynthĂšse, contrairement Ă une majoritĂ© de plantes. En fait, dans lâarbre de la vie, les champignons sont plus proches des animaux que des plantes bien que leur mode de nutrition, paroi cellulaire, reproduction, les distingues Ă©galement nettement des animaux.
Lâarbre de la vie, qui reprĂ©sente la parentĂ© entre les organismes vivants, peut ĂȘtre dĂ©coupĂ© en six rĂšgnes. Les champignons reprĂ©sentent rien qu'Ă eux le rĂšgne fongique, qui rassemblerait hypothĂ©tiquement jusqu'Ă 5 millions dâespĂšces de champignons. Parmi toutes ces espĂšces, environ seulement 120 000 ont Ă©tĂ© nommĂ©es et âacceptĂ©esâ par la communautĂ© scientifique en 2017.
La reconnaissance de champignons reprĂ©sente un dĂ©fi dans le domaine de la vision par ordinateur. En effet, les critĂšres biologiques et le peu dâespĂšce rĂ©fĂ©rencĂ©s limite Ă une reconnaissance peu fiable et sur un Ă©chantillon insignifiant si lâon souhaite Ă©tudier lâensemble du rĂšgne fongique.
La classification classique des vivants est schématisée ainsi :
Classification classique des rĂšgnes |
---|
Animal |
Plante |
Champignon (Fungi) |
Protiste |
Bactérie |
Archée |
Et les principaux rangs taxonomiques ainsi (ici, un exemple de classification du trĂšs connu âChampignon de Paris") :
On y voit que les champignons sont classés (du plus général au plus spécifique) en divisions, ordres, familles, genres et espÚces.
L'Ă©tat de lâart nous apprend que la reconnaissance des champignons au sens large ne sera possible que sur un Ă©chantillon trĂšs faible du rĂšgne fongique, mais ce nâest pas tout, en effet, la vision par ordinateur effectue un balayage des images matricielle pour comparer les similitudes pour chaque pixel avec des images dĂ©jĂ labellisĂ©, ainsi, nous dĂ©pendons de la qualitĂ© des sources de donnĂ©s, qui ne reprĂ©sentent quâun Ă©chantillon des ~120 000 espĂšces scientifiquement nommĂ©es sur un total pouvant aller jusqu'Ă 5 millions dâespĂšces thĂ©orique.
Il existe Ă©galement la distinction entre macro-champignons et micro-champignons, qui se base sur une combinaison de caractĂ©ristiques morphologiques, cellulaires, reproductives, Ă©cologiques et Ă©conomiques. Lâidentification prĂ©cise des champignons exige des connaissances approfondies en mycologie. Par ailleurs les diffĂ©rentes sources alertent quand Ă la difficultĂ© de lâidentification dâune espĂšce se basant uniquement sur lâaspect visuel.
Ă ce jours, il existe approximativement 35000 genres et de champignon sur terre et certain peuvent compter jusqu'Ă des milliers espĂšces nommĂ©s, tandis que dâautre peuvent nâen compter quâune seul.
Une analyse visuelle des diffĂ©rents rangs taxonomiques sur des Ă©chantillons de photos extraite de Mushroom Observer nous laisse penser que câest au niveau de lâespĂšce que nous pouvons observer les plus de traits caractĂ©ristiques en vue de rĂ©aliser une identification visuelle :
Des champignons appartenant Ă lâordre des PEZIZALES :
Des champignons appartenant Ă la famille des RUSSULACEAE :
Des champignons du genre CANTHARELLUS :
Des champignons appartenant Ă lâespĂšce HYPHOLOMA LATERITIUM :
Câest Ă©galement communĂ©ment le niveau dâidentification recherchĂ© car câest au niveau de lâespĂšce que sont dĂ©finies les principales propriĂ©tĂ©s dâun champignon, telles que la comestibilitĂ©.
Nous constatons Ă©galement que les champignons peuvent avoir des formes si variĂ©es que deux champignons de la mĂȘme espĂšce peuvent avoir un aspect trĂšs diffĂ©rent (notamment en fonction de lâage), alors que deux champignons dâespĂšces diffĂ©rentes peuvent afficher une trĂšs forte ressemblance.
Pour illustration, deux champignons de lâespĂšce Coprinus comatus mais visuellement trĂšs diffĂ©rents :
De mĂȘme deux champignons de genres diffĂ©rents visuellement difficiles Ă distinguer, ici Clytocibe nĂ©buleux et Entolome livide :
Ce premier niveau de connaissance de la problĂ©matique dâidentification visuelle dâun champignon nous permet de distinguer trois difficultĂ©s majeures du domaine :
Lâimmense quantitĂ© dâespĂšces existantes, la proximitĂ© visuelle importante existant entre certaines espĂšces et la diffĂ©rence morphologique pouvant exister au sein dâune mĂȘme espĂšce.
La quantité et la qualité des données disponibles seront déterminantes pour obtenir un modÚle performant.
Selon nos propres capacitĂ©s et le temps disponible pour la rĂ©alisation du projet, nous pourrons fixer diffĂ©rents niveaux dâobjectifs Ă atteindre pour notre projet, lâessentiel restant lâaspect pĂ©dagogique et lâacquisition de compĂ©tences.
Lâobjectif primaire est dâentraĂźner un modĂšle pour la reconnaissance des champignons. Pour atteindre cet objectif, il faudra suivre les Ă©tapes suivantes :
Analyser la taxonomie et définir le niveau sur lequel nous concentrer
Analyser les données disponibles
Trier et filtrer les données
Data augmentation (crĂ©er de nouveaux Ă©chantillons dâentraĂźnement en appliquant diverses transformations aux images existantes)
Prétraitement des données
Poursuivre avec des techniques de deep learning
Nous pourrons donc travailler Ă entraĂźner un modĂšle capable dâidentifier un nombre plus ou moins grand dâespĂšces avec le plus de prĂ©cision possible. Le niveau de difficultĂ© pourra donc ĂȘtre modulĂ© selon le nombre dâespĂšces introduites mais aussi la ressemblance visuelle entre les diffĂ©rentes espĂšces introduites.
Nous pourrons Ă©galement envisager diffĂ©rentes approches, par exemple entraĂźner et utiliser un modĂšle pour faire du âboxingâ, gĂ©nĂ©rer des donnĂ©es artificielles par des transformations des images de notre jeu de donnĂ©es, essayer de quantifier le volume dâimages nĂ©cessaire pour lâobtention dâun certain niveau de performances ...
Les ensembles de donnĂ©es contenant des champignons sont largement utilisĂ©s pour lâentraĂźnement des algorithmes de machine learning et de deep learning. Divers ensembles de donnĂ©es sont disponibles en accĂšs libre pour diffĂ©rentes finalitĂ©s.
UC Irvine Mushroom Database (https://archive.ics.uci.edu/dataset/73/mushroom) comprend 8 124 enregistrements de donnĂ©es et 22 attributs. Chaque espĂšce de champignon est identifiĂ©e comme une classe de champignons comestibles ou toxiques. Ces donnĂ©es sont rĂ©parties en 4 208 champignons comestibles et 3 916 champignons toxiques. De nombreuses approches diffĂ©rentes sont prĂ©sentĂ©es dans la littĂ©rature pour travailler avec ce type de caractĂ©risation des champignons basĂ©e sur les caractĂ©ristiques physiques (pas dâimages). Cependant, dans ce travail, nous nous concentrons principalement sur la reconnaissance dâimages, notre attention se portant sur les ensembles de donnĂ©es dâimages.
Mushroom Observer est un site web oĂč les gens peuvent tĂ©lĂ©charger des observations de champignons. Ces observations incluent diffĂ©rentes informations sur lâespĂšce observĂ©e, comme le nom, lâemplacement, et la certitude concernant lâespĂšce sur les images soumises. Le site est basĂ© sur des photos prises par un grand nombre dâindividus qui ne sont pas nĂ©cessairement des experts dans ce domaine. La certitude des Ă©tiquettes de classe, donnĂ©e par la communautĂ© est sur une Ă©chelle continue de 1 Ă 3 (oĂč 3 reprĂ©sente le plus haut niveau de certitude).
Lâanalyse des images de Mushroom Observer montre deux problĂšmes principaux liĂ©s Ă :
Exemples de photos inexploitables
Ainsi, la base de donnĂ©es ne peut pas ĂȘtre utilisĂ©e telle quelle Ă partir du site web et doit ĂȘtre filtrĂ©e.
En analysant la littĂ©rature utilisant lâensemble de donnĂ©es Mushroom Observer, nous avons trouvĂ© une base de donnĂ©es MO106 disponible en accĂšs libre oĂč les auteurs ont sĂ©lectionnĂ© 106 classes de champignons de Mushroom Observer en utilisant les critĂšres suivants : espĂšces ayant au moins 400 images, images avec certitude â„ 2. De plus, pour filtrer automatiquement les images afin dâobtenir une image correcte de champignon (sans objets supplĂ©mentaires ou sans champignons), les auteurs ont formĂ© un modĂšle CNN spĂ©cifique.
Cela a abouti à un ensemble de données MO106 contenant 29 100 images réparties en 106 classes. La plus grande classe compte 581 éléments, la plus petite 105, avec une moyenne de 275. Les images, disponibles gratuitement pour le téléchargement, ont des tailles variant entre 97 à 130 (plus petite surface) et 640 à 640 (plus grande surface).
Pour une observation nous obtenons :
Dataset de champignons basés sur des images.
Cet ensemble de donnĂ©es contient 9 dossiers dâimages des genres de champignons les plus communs du nord de lâEurope (Agaricus, Amanita, Boletus, Cortinarius, Entoloma, Hygrocybe, Lactarius, Russula et Suillus). Chaque dossier contient entre 300 et 1 500 images sĂ©lectionnĂ©es de genres de champignons. Les Ă©tiquettes correspondent aux noms des dossiers. Des codes de classification utilisant cet ensemble de donnĂ©es sont Ă©galement disponibles.
Lâavantage de cette base de donnĂ©es par rapport Ă Mushroom Observer est que la classification a Ă©tĂ© vĂ©rifiĂ©e par la sociĂ©tĂ© de mycologie dâEurope du Nord, qui a fourni les sources des champignons les plus communs de cette rĂ©gion et a vĂ©rifiĂ© les donnĂ©es et les Ă©tiquettes.
Pour une observation nous obtenons :
Le site mycodb.fr nous permet dâacquĂ©rir des caractĂ©ristique prĂ©cises dâun champignon identifiĂ© via un nom binominal, pour une observation nous obtenons :
WikipĂ©dia reste une source dâinformation trĂšs complĂ©mentaire et souvent exhaustive pour en apprendre plus sur un genre ou une espĂšce de champignon.
AprĂšs identification de ces diffĂ©rentes sources de donnĂ©es nous concluons que Mushroom Observer sera celle qui sera la plus exploitable pour obtenir des donnĂ©es de qualitĂ©. Le site dispose dâune API permettant un accĂšs Ă la quasi totalitĂ© des donnĂ©es, permettant dâobtenir une visualisation prĂ©cise du nombre dâespĂšces rĂ©pertoriĂ©es ainsi que du nombre dâobservations et dâimages associĂ©es Ă chaque espĂšce.
Par ailleurs le jeu de donnĂ©es MO106 dĂ©jĂ extraites de Mushroom observer pourrait ĂȘtre une source inintĂ©ressante car dĂ©jĂ prĂȘte Ă lâemploi bien que la qualitĂ© des images sĂ©lectionnĂ©e Ă©chappe Ă notre contrĂŽle. Cela pourra par exemple donner lieu Ă un comparatif de prĂ©cision des rĂ©sultats en fonction de la qualitĂ© des images en entrĂ©e.
Le principal avantage de Mushroom observer est quâil met Ă disposition une API permettant dâaccĂ©der a des donnĂ©es structurĂ©es issues de sa base. Ces donnĂ©es nous permettrons de faire une analyse qualitative et quantitative des images disponibles. Les donnĂ©es ont Ă©tĂ© tĂ©lĂ©chargĂ©es au format CSV et sont prĂ©sentes sur le dĂ©pĂŽt du projet.
Cette table contient lâarborescence des nommages disponibles sur le site, rĂ©partis en niveaux (rangs) de la maniĂšre suivante :
Nous observons par exemple que le site répertorie à ce jour 56161 espÚces.
Cette table permet de quantifier le nombre dâobservations rĂ©alisĂ©es pour chaque espĂšce mais aussi de qualifier la fiabilitĂ© de ces observations : le site offrant un systĂšme participatif, lâidentification des champignons est soumise au vote des utilisateurs du site. La note de confiance concernant lâidentification dâune observation varie de -3 Ă 3. AprĂšs Ă©valuation du nombre dâobservation disponible nous choisirons de ne conserver que celles dont le score de confiance est >= 2.
Le graphique montre que le jeu de donnée comprends environs 150k observations rattachées à une espÚce avec un niveau de confiance >= 2.
Cette table liste les images rattachĂ©es Ă chaque observation. Sans surprise les quantitĂ©s dâimages rattachĂ©es Ă chaque rang sont proportionnelles a la quantitĂ© dâobservations. Nous constatons que pour notre sĂ©lection de critĂšres environs 500k images sont disponibles.
Nous savons que nous devons disposer dâune quantitĂ© minimale dâimages pour chacune des espĂšces sur lesquelles nous souhaitons entraĂźner notre modĂšle. Bien que cette quantitĂ© soit encore Ă dĂ©finir prĂ©cisĂ©ment, nous estimons que 150-250 images serait une base de dĂ©part viable. Nous constatons aussi que la moitiĂ© environs des images est exploitable, le reste n'Ă©tant pas directement des photographie des spĂ©cimens de champignons.
Un second filtrage est effectuĂ© pour ne sĂ©lectionner que les espĂšces qui disposent dâau moins 500 photos sur le site. Nous pouvons donc compter disposer de donnĂ©es suffisantes pour 129 espĂšces.
Nous avons identifiĂ© le besoin de filtrer manuellement les images avant prĂ©-traitement pour exclure celle qui ne sont pas exploitables (schĂ©mas, clichĂ©s microscopiques, etc ...). Nous avons donc rĂ©alisĂ© un outil proposant une interface permettant de rĂ©aliser le tri de maniĂšre relativement efficace. Nous pourrons constituer un jeu de donnĂ©es dâimages triĂ©e plus ou moins important selon les besoins et le temps disponible au fil de lâavancĂ©e du projet.
Lâoutil est disponible sur le dĂ©pĂŽt du projet.
Une fois la sĂ©lection effectuĂ©e, nous pouvons alors exĂ©cuter le script de webscraping nous permettant de tĂ©lĂ©charger les photos sĂ©lectionnĂ©s (cf: Annexes). Pour certains champignons, nous avons plus dâune photo. Nous nous concentrons uniquement sur la premiĂšre (le script sĂ©lectionne uniquement la premiĂšre image de la sĂ©rie).
Le stockage des données, (dans espace de stockage privé), est structurée ainsi :
data
âââ LAYER0
â âââ MO
â â âââ MO
â âââ MO_106
â âââ MO_106
â âââ class_stats.csv
â âââ dispersion.csv
â âââ image_stats.csv
âââ LAYER1
â âââ MO
â âââ MO
âââ LAYER2
âââ MO
âââ MO
Cette configuration nous permettra ultĂ©rieurement de fournir la base dâimage MO ou MO_106 Ă nos diffĂ©rent modĂšles facilement.
Un second traitement, au travers du modÚle YOLOv5, permettant la détection rapide et précise des champignons est appliqué avec une identification par encadrement (cf: Annexes).
Cela nous permet dâobtenir des images prĂ©cise indispensables pour les Ă©tapes suivantes dâentraĂźnement de modĂšle. Cet outil n'Ă©tant pas parfait, nous compensons les Ă©checs de celui-ci avec un outil dâencadrement manuel dĂ©veloppĂ© pour lâoccasion (cf: Annexes).
Afin de préparer nos images pour les entraßnements à venir, nous appliquons les méthodes conventionnelles et récurrentes pour le CNN.
La réduction des images à une taille de 224x224 pixels est couramment utilisée dans les architectures de réseaux de neurones convolutionnels (CNN) pour plusieurs raisons pratiques et techniques tel que la standardisation, la gestion de la mémoire et des ressources computationnelles, la comparaison avec les modÚles pré-entraßnés et la capture des caractéristiques importantes.
Nous rĂ©alisons une Ă©tape de rĂ©-Ă©chantillonnage afin dâaugmenter le volume de donnĂ©e dâentraĂźnement, pour les futurs modĂšles que nous testerons. Cela nous permettra dâamĂ©liorer la prĂ©cision des modĂšles.
Nous avons réalisé un script exploitant ImageDataGenerator de la librairie tensorflow.keras.preprocessing.image (cf: Annexes).
Nous effectuons ainsi lâaugmentation des donnĂ©es avec les techniques suivantes :
Rotations
Retournement horizontal
Retournement vertical
Cisaillements
Cela permet de crĂ©er de nouveaux Ă©chantillons dâentraĂźnement Ă partir des images existantes, augmentant ainsi la robustesse et la capacitĂ© de gĂ©nĂ©ralisation de notre modĂšle.
Ce rapport nous permet dâavoir un aperçu de la complexitĂ© de la reconnaissance de champignons, mettant en lumiĂšre les dĂ©fis et les opportunitĂ©s qui se prĂ©sentent dans ce domaine. Ă travers une exploration dĂ©taillĂ©e de la taxonomie, des sources de donnĂ©es disponibles et des Ă©tapes de prĂ©traitement des donnĂ©es, nous avons identifiĂ© les diffĂ©rentes options Ă explorer pour atteindre notre objectif de dĂ©veloppement dâun modĂšle de reconnaissance de champignons fiable.
Lâanalyse a rĂ©vĂ©lĂ© plusieurs dĂ©fis majeurs, notamment la grande diversitĂ© des espĂšces de champignons, la variabilitĂ© morphologique au sein dâune mĂȘme espĂšce, et la qualitĂ© variable des donnĂ©es disponibles, nĂ©cessitant ainsi des stratĂ©gies de filtration et de prĂ©traitement rigoureuses. Cependant, nous avons Ă©galement identifiĂ© des sources de donnĂ©es prometteuses, qui offrent des ensembles de donnĂ©es volumineux pour lâentraĂźnement de modĂšles de reconnaissance.
Enfin, nous avons Ă©tabli un plan dâaction clair, comprenant lâanalyse approfondie des donnĂ©es disponibles, le prĂ©traitement des images, et lâenrichissement du jeu de donnĂ©es par des techniques dâaugmentation. Ces Ă©tapes prĂ©liminaires posent les fondations nĂ©cessaires pour le dĂ©veloppement ultĂ©rieur de modĂšles de deep learning, qui seront essentiels pour la reconnaissance prĂ©cise des champignons.