Combining machine learning, ecological modelling and plant morphological characteristics to develop a tool for identifying plants of Switzerland

Combinare l’intelligenza artificiale, la modellizzazione ecologica e le caratteristiche morfologiche delle piante per sviluppare un sistema di identificazione della flora Svizzera

Obbiettivo del progetto

I recenti progressi nella classificazione delle immagini hanno stimolato l'emergere di applicazioni mobili conviviali che aiutano professionisti e appassionati di botanica a identificare le specie a partire dalle loro immagini, con un grande potenziale per la citizen science (letteralmente, scienza dei cittadini in inglese). Queste applicazioni funzionano bene per le specie comuni con caratteristiche morfologiche distinte. Tuttavia, tendono a funzionare meno bene per le specie meno comuni e per i gruppi di specie morfologicamente molto simili. Molte specie di piante svizzere, per esempio, non sono ben riconosciute dalle applicazioni attuali. Qui proponiamo un nuovo approccio che combina il riconoscimento delle immagini basato sull'apprendimento automatico a partire da meta-informazioni ecologiche e morfologiche spazialmente esplicite per identificare le circa 4'000 specie di piante che crescono in Svizzera sulla base di immagini geo-referenziate. Questa combinazione dovrebbe migliorare considerevolmente l'identificazione delle specie, in quanto le nuove immagini sono classificate non solo secondo le loro caratteristiche visive, ma anche secondo la loro plausibilità ecologica e geografica. Questi sviluppi saranno di grande aiuto a tutti i botanici svizzeri nell'acquisizione e nella validazione dei dati.

10 maggio 2021

Questo fine settimana siamo riusciti a finalizzare la seconda generazione delle nostre reti neurali. Le novità rispetto al mese scorso sono le seguenti:

  • Inclusione di tutte le osservazioni e le immagini di Info Flora prese dal 9 marzo al 23 aprile.

  • Inclusione delle immagini dell'Atlante della flora del Cantone Vaud come immagini di addestramento.

  • Inclusione di estratti di immagini di Info Flora eseguite manualmente per circa 1000 specie.

Questa espansione della banca dati e il miglioramento della sua qualità hanno aumentato la precisione delle reti. Per esempio, la nuova rete di riconoscimento delle immagini ora identifica correttamente il 74,4% delle immagini testate, e per il 91,1% delle immagini testate, la specie corretta è una delle cinque specie che la rete considera più probabile. Quando l'immagine e le informazioni sulla posizione sono combinate, otteniamo ora una precisione del 78,3% e del 93,1% nelle statistiche corrispondenti. Quando la rete di riconoscimento delle immagini ha due immagini per riconoscere la specie di un'osservazione test, la specie viene identificata correttamente nell'85,3% dei casi. Inoltre, siamo stati in grado di aumentare il numero di specie per le quali abbiamo immagini sufficienti di 40, raggiungendo 1699 specie. Queste nuove specie sono:

  • Anemone blanda Schott & Kotschy
  • Anthriscus caucalis M. Bieb.
  • Armoracia rusticana G. Gaertn. & al.
  • Asparagus officinalis L.
  • Asplenium billotii F. W. Schultz
  • Aubrieta deltoidea (L.) DC.
  • Butomus umbellatus L.
  • Camelina microcarpa DC.
  • Cistus salviifolius L.
  •  Clypeola jonthlaspi L.
  •  Cotoneaster salicifolius Franch.'
  •  Diplotaxis muralis (L.) DC.
  •  Dorycnium herbaceum Vill.
  •  Draba tomentosa Clairv.
  •  Drosera ×obovata Mert. & W. D. J. Koch
  •  Euphorbia myrsinites L.
  •  Forsythia ×intermedia Zabel
  •  Galega officinalis L.
  •  Gentiana insubrica Kunz
  •  Hemerocallis fulva (L.) L.
  •  Himantoglossum robertianum (Loisel.) P. Delforge
  •  Hymenolobus pauciflorus (W. D. J. Koch) Schinz & Thell.
  •  Isopyrum thalictroides L.
  •  Lathyrus sphaericus Retz.
  •  Laurus nobilis L.
  •  Lonicera nitida E. H. Wilson
  •  Lythrum portula (L.) D. A. Webb
  •  Muscari armeniacum Baker
  •  Myosotis discolor Pers.
  •  Nigella damascena L.
  •  Peucedanum venetum (Spreng.) W. D. J. Koch
  •  Pisum sativum L.
  •  Potentilla heptaphylla L.
  •  Primula acaulis × veris
  •  Pteris cretica L.
  •  Quercus cerris L.
  •  Scilla siberica Haw.
  •  Sisymbrium irio L.
  •  Spirodela polyrhiza (L.) Schleid.
  •  Symphytum bulbosum K. F. Schimp.
  •  Thuja plicata D. Don
  •  Veronica praecox All.
  •  Viola collina Besser

(Tre specie sono scese sotto il limite di 30 osservazioni con immagini dopo la modifica della banca dati). Una panoramica aggiornata sulla precisione delle identificazioni a livello di specie si trova in questo documento. Maggiori informazioni sulle statistiche e sulle specie prioritarie da fotografare si possono trovare nella scheda " Taxa prioritari" della sezione "Sostenere il progetto".

È importante notare che si tratta di risultati preliminari e devono quindi essere presi con cautela. Nei prossimi mesi continueremo a pulire e mettere a punto i dati di addestramento e soprattutto di test, per cui i valori di qualità, in particolare a livello di specie, possono ancora cambiare significativamente. L'informazione riguardante la disponibilità di un numero sufficiente o meno di fotografie è già più affidabile.

Pasqua 2021

Abbiamo appena addestrato il primo set di reti neurali e abbiamo già raggiunto una discreta precisione di classificazione per 1'659 specie. Basandosi solo sulle informazioni dell'immagine, la rete migliore identifica correttamente il 72,2% delle immagini test, e per il 90,4% delle immagini test, la specie corretta è nelle "top 5" (cioè tra le cinque specie più probabili giudicate dalla rete). Se si includono anche le informazioni geografiche, le statistiche aumentano al 76% per le classificazioni corrette e al 92,4% per le corrispondenze tra i cinque suggerimenti più probabili. Queste cifre sono incoraggianti, ma mostrano anche che per molte specie le classificazioni non funzionano ancora bene. Inoltre, per circa 2'000 specie il materiale fotografico è attualmente insufficiente per qualsiasi valutazione. Una panoramica dettagliata dell'accuratezza delle classificazioni a livello di specie è fornita in questo documento. Ulteriori informazioni sulle statistiche utilizzate e sulle specie prioritarie da fotografare sono disponibili nella scheda "Taxa prioritari" della sezione "Sostenere il progetto".

È importante notare che si tratta di risultati preliminari che saranno migliorati. Nei prossimi mesi, puliremo e adatteremo accuratamente i dati utilizzati per addestrare i modelli informatici e i dati testati. Di conseguenza, i punteggi di qualità possono cambiare nettamente, soprattutto a livello di specie. L'informazione sulla disponibilità o meno di immagini adeguate per le diverse specie dovrebbe comunque rimanere invariata.

Informazioni generali

Perché abbiamo bisogno del sostegno dei citizien scientists?

Per sviluppare un algoritmo affidabile, abbiamo bisogno di circa 100 immagini di alta qualità per ogni taxon di piante svizzere, non importa se si tratta di specie indigene, naturalizzate o coltivate. A questo scopo, usiamo osservazioni anonime dal database InfoFlora, che attualmente contiene circa 400'000 immagini di piante. Per alcune specie diffuse abbiamo già molte immagini, ma per la stragrande maggioranza delle specie il numero di immagini è ben al di sotto di 100 (vedi la scheda "Taxa prioritari"). Il successo di questo progetto dipenderà quindi in gran parte dal numero di immagini di piante di alta qualità che riceveremo dai citizen scientists durante la stagione 2021.

Come sostenerci? 

Questo progetto è eseguito in collaborazione con InfoFlora, che fornisce la banca dati e l'infrastruttura. Info Flora mette a disposizione una piattaforma conviviale per i citizen scientists per fare le osservazioni sul campo delle specie vegetali, comprese le prove fotografiche, in modo standardizzato. L'applicazione per smartphone FlorApp è la soluzione più semplice e più utilizzata per la raccolta di immagini relative alle osservazioni sul campo. Coloro che preferiscono non usare le fotocamere degli smartphone per fotografare le piante possono completare le osservazioni sul campo comodamente a casa, usando il taccuino in linea.

In che modo la comunità beneficia del tuo aiuto?

Il classificatore che stiamo sviluppando in questo progetto farà parte di un modulo di identificazione di FlorApp e sarà quindi liberamente accessibile a tutti. Questo modulo di identificazione fornirà un aiuto in tempo reale a tutti coloro che sono interessati a identificare le specie di piante sul campo e permetterà ai botanici di migliorare efficacemente le loro competenze. Più immagini riceviamo, migliori saranno i suggerimenti di identificazione dell'algoritmo.

Taxa prioritari

Le specie prioritarie da fotografare sono quelle per le quali abbiamo attualmente meno di 30 osservazioni con immagini appropriate o che attualmente possono essere identificate solo in modo impreciso dal classificatore. Ecco un file PDF che elenca tutte le specie interessate, per le quali abbiamo utilizzato una precisione Top1 del classificatore di sole immagini inferiore al 50% come criterio di qualità. Si prega di notare che i punteggi di qualità sono preliminari e saranno probabilmente modificati nelle versioni successive del classificatore. Nei prossimi mesi, affineremo i criteri di priorità, limitando i taxa prioritari a poche centinaia di specie chiave. Se preferisci lavorare con i dati di qualità in forma tabellare, per essere più flessibile nella manipolazione dei dati, puoi usare questo file CSV della lista completa della qualità.

Spiegazioni dei documenti

Per valutare l'accuratezza della classificazione, selezioniamo almeno cinque immagini per ogni specie e le rimuoviamo dal set di immagini di addestramento, in modo che l'algoritmo non le "veda" durante la fase di apprendimento. L'algoritmo calcola poi, nella fase di test, con che probabilità identifica correttamente le specie mostrate nelle immagini rimosse dal set. Ricaviamo le seguenti statistiche (in grassetto: nomi dei campi nella tabella):

Top 1 : La specie a cui l'algoritmo assegna la probabilità più alta è quella corretta.

Top 5 : La specie corretta è tra le cinque specie per le quali l'algoritmo assegna le probabilità più alte.

Ungenügend Bildmaterial / Troppe poche immagini (cerchi rossi scuri) : Ci sono meno di 30 osservazioni disponibili con immagini adeguate per la specie. L'idoneità delle immagini è valutata prima della classificazione in una valutazione automatica dell'idoneità. I criteri utilizzati per questa valutazione sono descritti nella scheda 'Come scattare buone foto'. Il diametro degli anelli rappresenta il numero attuale di osservazioni con immagini adeguate.

Bild / Immagine: Algoritmo di base che classifica le specie solo sulla base delle informazioni dell'immagine senza prendere in considerazione la posizione.

Bild & Ort / Immagine & luogo: Algoritmo esteso che classifica le specie anche sulla base delle informazioni sull'ecologia del sito.

Come scattare buone foto

Formato dell’immagine

Per addestrare il classificatore, usiamo immagini in formato quadrato con una risoluzione di almeno 500×500 pixels. Se le immagini originali non sono quadrate, il centro della foto sarà automaticamente estratto per l'analisi.

Contenuto delle immagini

Le immagini dovrebbero essere nitide e avere un'esposizione ben bilanciata. La pianta bersaglio deve dominare ed essere situata al centro dell'immagine. Sono utili più foto che mostrano diverse prospettive di un'osservazione, se possibile concentrandosi su diversi organi, specialmente infiorescenze, foglie e frutti, e scattate da diverse distanze, inclusi gruppi di individui, singoli individui e organi. Inoltre, sono utili le osservazioni di individui in diverse fasi della loro fenologia, il materiale vegetale dovrebbe essere vivo/verde. Le immagini sfocate o mal esposte, le immagini del paesaggio e le immagini delle comunità vegetali devono essere filtrate e quindi non sono desiderate.