Ist die Vogelstimmen-Erkennung in OpenInsect wirklich kostenlos?

Ja. Die App ist im Apple App Store und bei Google Play kostenlos. Audio-Aufnahmen, Foto- und Video-Bestimmung sowie die KI-Auswertung samt Spektrogramm sind ohne Gebühr nutzbar. Es gibt keine Abo-Pflicht und keine versteckten Kosten für die Erkennung.

Wie genau ist die KI bei Vogelstimmen?

Bei klaren Aufnahmen typischer heimischer Singvögel ohne starken Störlärm erreicht das Modell sehr hohe Trefferquoten. Die App zeigt zusätzlich einen Konfidenz-Score und alternative Kandidaten an. Bei Wind, Verkehrslärm oder ähnlich klingenden Arten kann sich die KI irren – mehrere Aufnahmen helfen.

Funktioniert die App auch für Eulen, Frösche oder Insekten?

Ja. Eulenrufe, Froschchorgesang, Grillenzirpen und Zikaden werden von OpenInsect mit erfasst. Die Genauigkeit ist etwas niedriger als bei klassischen Singvögeln, weil die Datengrundlage kleiner ist.

Werden meine Aufnahmen weiterverwendet?

Aufnahmen werden für die KI-Auswertung verarbeitet und im Community-Feed angezeigt, wenn Sie den Beitrag öffentlich machen. Sie können Beiträge auch privat speichern. Details in der Datenschutzerklärung in der App.

Kann ich Vogelstimmen auch ohne Internet erkennen lassen?

Aktuell benötigt die KI-Auswertung eine Internetverbindung. Sie können Aufnahmen offline machen und später hochladen, sobald Sie wieder Empfang haben.

Riconosci i versi degli uccelli gratuitamente online e con un'app

Riconosci i versi degli uccelli gratuitamente online e con un'app: ora è possibile in pochi secondi. Con la nostra app OpenInsect registri semplicemente il canto o il richiamo di un uccello con il microfono del tuo smartphone e un'intelligenza artificiale bioacustica determina la specie - gratuitamente, senza registrazione, con logica regionale supportata dal GPS e uno spettrogramma dall'aspetto scientifico per ogni colpo.

In questa guida ti mostreremo come funziona il riconoscimento del canto degli uccelli in OpenInsect, quali specie di uccelli vengono identificate in modo affidabile, come ottenere registrazioni più pulite possibili e come si confronta l'app con BirdNET, Merlin Bird ID o Naturblick.

Riconosci i suoni degli uccelli con il tuo smartphone: più velocemente che cercarli

In passato, chiunque volesse identificare il richiamo di un uccello sconosciuto aveva due opzioni: un grosso libretto di identificazione o il ricordo dell'ultima lezione di ornitologia. Oggi basta uno smartphone. Canto degli uccelli, richiamo degli uccelli o voce degli uccelli: i modelli di intelligenza artificiale per la bioacustica riconoscono in modo affidabile i modelli di frequenza tipici, la struttura delle sillabe e il ritmo di un richiamo in pochi secondi.

OpenInsect si basa su una pipeline AI appositamente sviluppata con un livello di analisi addestrato sui versi degli animali. Quindi non devi identificare le specie di uccelli, basta tenere il microfono verso il bosco, il giardino o il parco e pochi secondi dopo vedrai le specie più probabili, incluso un punteggio di confidenza, plausibilità regionale e una visualizzazione professionale della registrazione.

Ecco come funziona il riconoscimento del canto degli uccelli nell'app OpenInsect

La funzione audio fa parte dell'app OpenInsect gratuita per iOS e Android. Installa l'app, apri la pagina di registrazione e segui tre brevi passaggi:

Passaggio 1: apri il microfono

Nella pagina di registrazione troverai un pulsante del microfono accanto alla foto e al video. Quando tocchi, il registratore audio si apre con una forma d'onda dal vivo che mostra il volume di input in tempo reale. In questo modo puoi vedere immediatamente se l'uccello è abbastanza rumoroso o se il vento e il rumore della strada stanno sovrastando il segnale.

Passaggio 2: registra fino a 60 secondi

L'app ti consente di registrare fino a 60 secondi di audio. Questo è sufficiente per diverse strofe o per un loop vocale completo. Interrompi la registrazione manualmente o falla interrompere automaticamente dopo 60 secondi. Le coordinate GPS vengono, se lo hai consentito al primo avvio, registrate automaticamente in modo che il modello preferisca le specie plausibili a livello regionale.

Passaggio 3: analisi AI e spettrogramma

Una volta caricato, il file audio va al nostro server. Qui vengono generati in parallelo uno spettrogramma con un asse di frequenza di circa 1–12 kHz e una forma d'onda pulita. Entrambi compaiono nel tuo post insieme al risultato ottenuto dall'intelligenza artificiale: il risultato sembra provenire da uno strumento scientifico e può essere condiviso come immagine ad alta risoluzione.

Lo spettrogramma e la forma d'onda vengono generati sul lato server per ogni registrazione - con l'asse della frequenza e l'asse del tempo come un programma ornitologico.

Cosa può fare l'app

OpenInsect non è solo un'app per il canto degli uccelli, ma una piattaforma di identificazione combinata per foto, video e audio. La tabella seguente mostra quale modalità fornisce i migliori risultati:

Modalità Per cosa è adatto Precisione Foto Uccelli seduti, insetti, piante, funghi, muffe, alberi molto alto con buona esposizione Video Schema di movimento, schema di volo, comportamento alto – vengono valutati più fotogrammi Audio Canto degli uccelli, richiami di gufi, picchi, rane, grilli, cicale migliore tra gli uccelli (dominio bioacustico classico)

Ci sono anche funzioni della community: un sistema di punti per ogni caricamento riuscito, un sistema di serie per il monitoraggio regolare, un feed con tutti gli avvistamenti pubblici e la possibilità di seguire altri utenti o commentare i post.

Quali specie di uccelli riconosce OpenInsect?

L'intelligenza artificiale è addestrata sugli uccelli canori domestici più comuni nell'Europa centrale, ma conosce anche molte altre specie. La seguente selezione mostra ciò che è riconosciuto in modo affidabile:

Merlo, Tordo bottaccio, Tordela, Cesena
Cinciallegra, Cinciarella, Cincia mora, Cincia dal ciuffo, Cincia di palude
Fringillide, Peppola, Verdone, Cardellino, Lucherino, Ragazzina
Pettirosso, codirosso spazzacamino, codirosso, usignolo
Scricciolo, passera scopaiola, capinera, serpente a sonagli, canide, sterpazzola
Chiffchaff, Fitis, Beccaiolo, Cannaiola, Cannaiola
Storno, rigogolo, fassone, ciuffolotto, Zigolo giallo, migliarino
Picchio muratore, rampichino, rampichino forestale
Picchio rosso maggiore, picchio verde, picchio rosso minore, picchio nero
Cuculo, Torcicollo, Rondone, Rondine, Martin domestico
Colombaccio, colombaccio turco, colombaccio
Gufi: Allocco, Civetta, Barbagianni, Gufo reale
Rapaci: poiana, gheppio, falco, sparviero

In molti casi vengono riconosciute anche rane (raganelle, raganelle, rane dell'erba), grilli (grilli di campo, grilli domestici), cavallette e cicale. Tuttavia, il modello raggiunge il tasso di successo più elevato negli uccelli: lì la classificazione bioacustica è scientificamente meglio coperta.

Suggerimenti per buoni scatti

Anche la migliore intelligenza artificiale è valida quanto il segnale in ingresso. Con questi suggerimenti aumenterai notevolmente il tasso di successo:

Riduci il vento: tieni il microfono dietro una parte del corpo o una giacca per bloccare il vento diretto. Se il vento è forte è meglio aspettare una pausa.
La vicinanza aiuta, così come il silenzio: Più sei vicino all'uccello, meglio è, ma non così vicino da farlo volare in alto. Uno sfondo tranquillo è più importante della distanza perfetta.
Evita altri rumori: conversazioni, traffico, cani che abbaiano o tosaerba disturbano il modello. Nei parchi è meglio registrare la mattina prima del solito rumore.
Registra più versi: una sola sillaba raramente è sufficiente. Due o tre strofe cantate o sequenze di richiami danno al modello materiale sufficiente.
Tenete correttamente il vostro smartphone: allineate il microfono con la sorgente sonora - nei cellulari moderni spesso si trova sul bordo inferiore dell'alloggiamento. Non coprire con la mano.
Utilizza la qualità originale: disattiva le telefonate durante la registrazione o le cuffie Bluetooth: il microfono interno dello smartphone fornisce il segnale migliore.

Confronto: OpenInsect vs. BirdNET vs. Merlin Bird ID

Esistono diverse app famose per il riconoscimento del canto degli uccelli. Ecco un confronto onesto:

Funzionalità OpenInsect BirdNET (Cornell) ID dell'uccello Merlino Vista sulla natura Rilevamento audio Sì, fino a 60 s Sì Sì, dal vivo Sì Riconoscimento foto Sì No Sì Sì (attenzione alle piante) Rilevamento video Sì No No No Altri animali (rane, insetti) Sì No No Parziale Visualizzazione dello spettrogramma Sì, nel post Sì Sì No Feed e punti della community Sì No No Limitato Lingua Tedesco (prima classe) Inglese primario Multilingue tedesco Costi Gratuito Gratuito Gratuito Gratuito

In breve: BirdNET e Merlin sono eccellenti app solo per uccelli con anni di ricerca alle spalle. OpenInsect dà il meglio di sé quando non solo vuoi identificare gli uccelli, ma vuoi anche combinare foto, video e audio in un'unica app, inclusi feed della community, punti e un'interfaccia tedesca fin dall'inizio.

Alternativa online senza app

Puoi anche caricare foto di uccelli senza un'app direttamente sul nostro sito web Identificazione degli uccelli con foto online e identificarli in pochi secondi, senza alcuna installazione.

Per registrazioni audio di richiami di uccelli attualmente è necessaria l'app OpenInsect: l'accesso al microfono, la registrazione GPS e la creazione di spettrogrammi lato server sono strettamente collegati all'app. È in preparazione una registrazione del sito web solo per il browser.

Domande frequenti

Il riconoscimento del canto degli uccelli in OpenInsect è davvero gratuito?

Sì. L'app è gratuita nell'App Store di Apple e su Google Play. Le registrazioni audio, la determinazione di foto e video nonché la valutazione AI compreso lo spettrogramma possono essere utilizzate gratuitamente. Non sono previsti obblighi di abbonamento né costi nascosti per il rilevamento.

Quanto è precisa l'intelligenza artificiale con i richiami degli uccelli?

Con registrazioni chiare dei tipici uccelli canori domestici senza forti rumori disturbanti, il modello raggiunge percentuali di successo molto elevate. L'app mostra anche un punteggio di confidenza e candidati alternativi in modo che tu possa valutare tu stesso il risultato. L'intelligenza artificiale può sbagliarsi quando si tratta di vento, rumore del traffico o suoni simili: diverse registrazioni aiutano.

L'app funziona anche con gufi, rane o insetti?

Sì. I richiami dei gufi, il canto delle rane, il frinire dei grilli e le cicale sono registrati da OpenInsect. La precisione è leggermente inferiore rispetto a quella degli uccelli canori classici perché la base di dati scientifici per questi gruppi è più piccola. Tuttavia, i risultati sono generalmente solidi per i richiami tipici della fauna locale nei giardini e nelle foreste.

Le mie registrazioni verranno riutilizzate?

Le registrazioni vengono elaborate per la valutazione dell'intelligenza artificiale e visualizzate nel feed della community quando rendi pubblico il post. Puoi anche salvare i post in privato. I dettagli sull'utilizzo dei dati si trovano nella dichiarazione sulla protezione dei dati nell'app.

Posso riconoscere il canto degli uccelli senza Internet?

La valutazione AI attualmente richiede una connessione Internet perché l'analisi viene eseguita sul server: questo la rende molto precisa e consente di risparmiare la batteria dello smartphone. Tuttavia, puoi portare le registrazioni offline e caricarle in seguito non appena avrai di nuovo la ricezione.

Ecco come funziona scientificamente il riconoscimento del canto degli uccelli basato sull'intelligenza artificiale

Dietro ogni colpo dell'app OpenInsect c'è un'intera pipeline di elaborazione classica del segnale e riconoscimento di modelli moderni. Il percorso dal segnale del microfono grezzo del tuo smartphone al nome della specie può essere suddiviso in quattro passaggi: registrazione, scomposizione tempo-frequenza, estrazione delle caratteristiche e classificazione. Una volta capito cosa succede in ogni passaggio, vedrai uno spettrogramma con occhi diversi.

Passaggio 1 – Dalla pressione sonora alle serie temporali

Il microfono dello smartphone converte le fluttuazioni della pressione atmosferica in una sequenza digitale di numeri, in genere con una frequenza di campionamento di 44,1 o 48 kHz. Per il canto degli uccelli, tuttavia, è sufficiente una velocità significativamente più bassa: secondo Abeßer et al., la gamma energetica principale degli uccelli canori domestici è quella. (DEGA Akustik Journal 03/2025) tra 2 e 8 kHz: i singoli elementi trillo raggiungono velocità di ripetizione fino a 48 Hz. Con una frequenza di campionamento di 24 kHz, il teorema di Nyquist (f_max = f_s/2) copre l'intero intervallo di frequenze fino a 12 kHz. Sono tecnicamente possibili frequenze di campionamento più elevate, ma forniscono poche informazioni aggiuntive per l'identificazione pura delle specie e generano file inutilmente grandi.

Passaggio 2 – Spettrogramma tramite trasformata di Fourier a breve termine

Affinché l'intelligenza artificiale possa "vedere" non solo il volume ma anche le progressioni del tono, il segnale audio viene convertito in uno spettrogramma. Matematicamente, ciò avviene tramite la trasformata di Fourier a breve termine (STFT):

X(τ, f) = ∫ x(t) · w(t − τ) · e^−j2πft dt

Qui, x(t) è il segnale audio a tempo continuo, w(t − τ) è una funzione finestra (tipicamente Hann o Hamming) centrata nel tempo τ e X(τ, f) fornisce l'ampiezza complessa alla frequenza f. Lo spettrogramma è quindi |X(τ, f)|².

Frommolt et al. (Vogelwarte 50, 2012) descrivono il calcolo dello spettrogramma basato su FFT come lo strumento standard per il riconoscimento di pattern bioacustici: Gli spettrogrammi calcolati non sono altro che matrici di valori di ampiezza nelle dimensioni di tempo e frequenza. Tutti gli algoritmi successivi lavorano su questa rappresentazione matriciale.

Tre parametri determinano la qualità dello spettrogramma:

Dimensione della finestra (lunghezza FFT): in genere da 512 a 2048 campioni. Finestre più grandi danno una migliore risoluzione in frequenza, quelle più piccole danno una migliore risoluzione temporale: un classico compromesso che Abeßer et al. (2025) lo descrivono esplicitamente come un “buon equilibrio tra risoluzione temporale e frequenza”.
Funzione finestra: Hamming o Hann riducono la dispersione spettrale ai bordi della finestra.
Dimensione hop: l'intervallo di tempo tra finestre consecutive, in genere il 25-50% della dimensione della finestra. Dimensioni hop più piccole forniscono spettrogrammi più uniformi, ma costano tempo di elaborazione.

Passaggio 3 – Scala Mel e MFCC

Gli assi di frequenza lineari sono innaturali per l'udito umano, e anche quello aviario. Entrambi i sistemi uditivi risolvono le frequenze basse in modo più preciso rispetto a quelle alte. La Scala Mel rappresenta matematicamente questa percezione:

m = 2595 · log₁₀(1 + f/700)

Da questo vengono calcolati i coefficienti celesti di frequenza Mel (MFCC), originariamente adottati dal riconoscimento vocale, ora standard anche in bioacustica. Krüger (HfM Weimar, WiSe 22/23) utilizza 13 MFCC come vettore di caratteristiche nel suo studio sul riconoscimento automatico del canto degli uccelli e scopre che aumentarlo a 20 non ha più un effetto significativo sul tasso di successo: un suggerimento utile per il dimensionamento di modelli sottili.

Abeßer et al. (DEGA 2025) sottolineano che gli MFCC "catturano le proprietà spettrali di un segnale audio in una gamma di frequenze udibili dall'uomo" e sono quindi particolarmente efficaci per i suoni tonali degli animali, mentre semplici caratteristiche del dominio del tempo come l'energia a breve termine o la velocità di passaggio per lo zero rimangono inadeguate nelle scene sonore complesse.

Passaggio 4 – Classificazione: dalla CNN al modello di fondazione

A livello di riconoscimento dei modelli, tre generazioni si sono sostituite negli ultimi dieci anni:

Algoritmi classici come la correlazione dello spettrogramma (Frommolt et al. 2012, vedere la bibliografia per la formula) confrontano registrazioni sconosciute con modelli di riferimento. Spettrogrammi identici danno un coefficiente di correlazione pari a 1; più alto è il valore, più simili saranno le chiamate. Sono stati utilizzati anche modelli Markov nascosti (HMM) e foreste casuali.
Le reti neurali convoluzionali (CNN), in particolare BirdNET della Cornell University, trattano lo spettrogramma come un'immagine e apprendono gerarchicamente modelli tempo-frequenza sempre più complessi: prima strutture orizzontali (armoniche) e verticali (transitori), quindi motivi di chiamata completi. Abeßer et al. (2025) descrivono questa formazione di caratteristiche gerarchiche come l'approccio dominante oggi.
I modelli Transformer e Foundation utilizzano l'attenzione al sé e possono catturare dipendenze temporali più lunghe. Gli attuali modelli di parlato audio come NatureLM-Audio sono sviluppati appositamente per l'analisi dei suoni degli animali e, secondo la panoramica DEGA, possono anche classificare specie rare o in via di estinzione.

Stato della ricerca - in termini di accuratezza e limitazioni

Tre articoli forniscono una buona panoramica dello stato attuale delle conoscenze nel riconoscimento automatico del canto degli uccelli. Parafrasiamo le affermazioni centrali facendo riferimento alla fonte:

Frommolt et al., Vogelwarte 50 (2012) – le basi metodologiche

L'articolo di sintesi "Metodi automatizzati di registrazione di chiamate e canzoni" è fino ad oggi uno dei riferimenti in lingua tedesca più citati sull'argomento. Tre risultati sono particolarmente rilevanti per la pratica:

Con microfoni sensibili, una registrazione audio raggiunge la stessa gamma dell'udito umano: uno studio comparativo di Hobson et al. (2002) nella foresta mista boreale hanno riscontrato un accordo dell'83-97% tra le determinazioni sul campo e quelle registrate.
La correlazione dello spettrogramma funziona molto bene con richiami chiaramente strutturati: per il cannareccione (Locustella luscinioides) il metodo ha raggiunto un tasso di rilevamento del 92% con solo l'1,2% di interpretazioni errate (Bardeli et al. 2010, citato nella panoramica dell'osservatorio degli uccelli).
Nel caso di richiami fortemente sovrapposti di diverse specie, i tassi di successo diminuiscono drasticamente: Buxton & Jones (2012) riportano solo il 10% di richiami riconosciuti in tali situazioni di polifonia. Questa è la scienza alla base del motivo per cui un ambiente di registrazione silenzioso è così importante.

Krüger, HfM Weimar (22/23 inverno) – l'esempio pratico

Sophie Krüger documenta nel suo progetto di lavoro "Riconoscimento automatico del canto degli uccelli" la costruzione di un rilevatore completo di canto degli uccelli basato sul DCASE "Audio degli uccelli". set di dati Detection Challenge". Tre risultati sono istruttivi per lo sviluppo della nostra app:

Con 13 MFCC come funzionalità e un classificatore di foresta casuale, un modello semplice raggiunge un tasso di successo di circa il 75% con 200 file di training - ben al di sopra della linea di base casuale del 50% di una classificazione binaria, ma ancora troppo bassa per un uso pratico.
L'aumento del set di dati a 500 o 1000 file non ha portato automaticamente a un migliore riconoscimento in questo studio, un'indicazione che la qualità e la diversità dei dati di addestramento sono più importanti della pura quantità.
L'autore conclude esplicitamente con la raccomandazione che le informazioni risolte nel tempo dello spettrogramma Mel (invece degli MFCC mediati nel tempo) dovrebbero migliorare ulteriormente il tasso di successo - esattamente il percorso intrapreso dalle moderne CNN e dai modelli della Fondazione.

Abeßer, Lukashevich, Ziegler & Bös, DEGA Akustik Journal 03/2025

L'articolo di panoramica "Progressi nel riconoscimento automatico del canto degli uccelli" di Fraunhofer IDMT riassume lo stato dell'arte nel 2025:

Il canto degli uccelli è acusticamente nella gamma di frequenze 2-8 kHz. Gli elementi trillo di singole specie raggiungono velocità di ripetizione fino a 48 Hz: qui i tradizionali metodi di elaborazione del segnale raggiungono i loro limiti.
La normalizzazione dell'energia per canale (PCEN) si è affermata come un'efficace post-elaborazione dello spettrogramma: filtra il rumore del vento al di sotto di 500 Hz, bilancia la distribuzione dell'energia attraverso la gamma di frequenza ed enfatizza i contorni di frequenza rilevanti per il rilevamento.
Secondo la Lista Rossa IUCN 2025, il 12% di tutte le specie di uccelli a livello mondiale sono in pericolo o minacciate di estinzione. Il monitoraggio bioacustico automatizzato (Monitoraggio acustico passivo, PAM) non è quindi più uno strumento piacevole da avere, ma uno strumento centrale nella ricerca sulla conservazione della natura.
Gli attuali set di dati di ricerca come BirdSet (oltre 6.800 ore di audio, quasi 10.000 lezioni) e Xeno-Canto (oltre 450.000 registrazioni, oltre 10.000 specie di uccelli) forniscono la base di addestramento per i modelli moderni.

Hübner, Università di Potsdam (2006/2008) – la perforazione metodica in profondità

Dissertazione di Sebastian Hübner "Modellazione basata sulla conoscenza dei classificatori di segnali audio - Sulla bioacustica di Tursiops truncatus" è stato sviluppato utilizzando l'esempio del delfino tursiope, ma descrive un quadro completo e trasferibile per l'annotazione automatica delle registrazioni bioacustiche. Tre risultati sono direttamente preziosi per il riconoscimento del canto degli uccelli:

Robustezza rispetto al rumore di fondo: in uno studio controllato sui suoni dei fischi sintetici, l'accuratezza e la precisione dei classificatori spettrografici sono diminuite significativamente solo con un rapporto segnale-rumore inferiore a −30 dB (Capitolo 5.5). Fino a questo valore, il tasso di successo è rimasto costantemente elevato, un'indicazione che i metodi basati sullo spettrogramma non necessitano di registrazioni in studio per essere classificati in modo affidabile.
Tolleranza della polifonia quantificata: Secondo Hübner, con una media di tre fischi simultanei in una registrazione, il gruppo di classificazione testato ha comunque raggiunto una precisione del 79% con una precisione del 100% (Capitolo 5.6). Solo dopo quattro o più sovrapposizioni le prestazioni sono diminuite in modo significativo. Per la nostra applicazione questo significa: due uccelli che cantano non sono un problema, ma un coro all'alba con cinque cantanti simultanei sì.
Visualizzazione come strumento scientifico: utilizzando tavolozze di colori ottimizzate per il contrasto, Hübner mostra che una codifica di colori accuratamente selezionata espande l'intervallo di valori visibili di uno spettrogramma di un fattore di circa tre rispetto alla rappresentazione pura in scala di grigi (capitolo 3.2). Le sottili sfumature che rimangono invisibili in scala di grigi possono essere distinte da un contrasto caldo-freddo nell'intervallo di valori medi - esattamente il principio alla base delle tavolozze uniformi di percezione comuni di oggi come viridis, magma o inferno.

Metodologicamente, il lavoro sottolinea due principi che si applicano a qualsiasi processo di classificazione: in primo luogo, la separazione delle firme dei fenomeni acustici (conoscenza) e degli algoritmi di riconoscimento dei modelli (tecnologia): un corpo di conoscenza formalizzato come una firma compatta sopravvive ai cambiamenti nei modelli sottostanti (rilevatore di correlazione classico → CNN → modello di fondazione) senza perdita di informazioni. In secondo luogo, l'osservazione che gli spettrogrammi logaritmici forniscono una selettività significativamente migliore per le strutture silenziose rispetto ai valori di ampiezza lineare - un passo che anche le condutture moderne eseguono costantemente prima del ridimensionamento Mel.

Ciò che rimane difficile

Nonostante tutti i progressi, rimangono tre problemi che nemmeno OpenInsect risolve magicamente:

Polifonia: quando più uccelli cantano contemporaneamente, il tasso di riconoscimento a volte scende al 10% (Frommolt et al. 2012). La ricerca attuale sulla separazione delle fonti basata sull'intelligenza artificiale (BioCPPNet e altri) promette miglioramenti.
Rapporto segnale-rumore debole: Vento, traffico, acqua e altri animali mascherano il richiamo degli uccelli. L'adattamento del dominio e PCEN compensano in parte, ma solo in parte.
Variazione dialettale: gli uccelli mostrano i dialetti delle canzoni regionali. Walcott et al. (2006) hanno dimostrato che la struttura dei richiami cambia anche quando cambia il territorio (Gavia immer) - un modello addestrato solo su "registrazioni standard" fallisce per questo motivo.

Come OpenInsect implementa le migliori pratiche scientifiche

OpenInsect combina molti dei metodi sopra descritti in una pipeline pragmatica che produce sia la classificazione acustica che la visualizzazione in un unico passaggio:

Livello modello: Fondazione invece della classica CNN

Invece di una CNN BirdNET specializzata, ci affidiamo a un modello di base multimodale con input audio nativo, incorporato nella nostra pipeline AI di preelaborazione, classificazione e analisi del contesto. Questa architettura presenta due vantaggi rispetto alle classiche CNN animali:

Può elaborare il contesto: posizione GPS, ora del giorno, temperatura, umidità e persino note dell'utente confluiscono come testo nella stessa inferenza. Ciò consente di ridurre automaticamente il peso delle specie improbabili a livello regionale.
Funziona con tutte le specie: uccelli, gufi, rane, grilli e cicale vengono riconosciuti dallo stesso modello, senza la necessità di un classificatore separato per ciascun gruppo di animali. Ciò corrisponde a quello di Abeßer et al. (DEGA 2025) ha menzionato la tendenza verso il "riconoscimento del suono tra specie diverse".

Elaborazione dati audio lato server

Prima ancora che il modello inizi a classificarsi, ogni registrazione viene sottoposta a una pre-elaborazione, che deriva direttamente dai documenti sopra citati:

Normalizzazione del volume a −18 LUFS secondo EBU R128, in modo da poter confrontare le registrazioni da diverse distanze.
Filtro passa-alto a 80 Hz contro il vento e il rumore del traffico - esattamente la gamma di frequenze in cui, secondo l'articolo DEGA, si verifica il rumore di fondo più forte.
Rimozione del silenzio con soglia di −40 dB in modo che il modello si concentri sui passaggi effettivi della chiamata.
Creazione di spettrogrammi con FFmpeg `showspectrumpic`, tavolozza dei colori viridis, banda di frequenza 0-12 kHz, scala lineare. Il risultato è l'immagine che vedi dopo ogni hit nel tuo post.

Arricchimento del contesto

Durante il caricamento, l'app invia non solo l'audio, ma una tabella contestuale compatta: coordinate GPS (per plausibilità regionale), ora del giorno (i gufi suonano in modo diverso al mattino rispetto alla notte), dati meteorologici (il vento spiega il rumore di fondo) e, se disponibili, note di osservazione. Questi dati riducono drasticamente l'insieme di classi di classificazione effettive e quindi aumentano significativamente la precisione top-1 senza che il modello stesso debba essere riqualificato.

Best practice per la visualizzazione: perché i nostri spettrogrammi hanno l'aspetto che hanno

Uno spettrogramma non è solo un'immagine per l'ottica: è un diagramma scientifico i cui assi, scale e colori trasmettono informazioni. Dietro gli spettrogrammi OpenInsect vengono prese consapevolmente quattro decisioni di progettazione:

Asse della frequenza lineare invece che logaritmico

Per gli uccelli canori classici con una banda principale di 2-8 kHz, un asse di frequenza lineare è facile da leggere: la banda vocale occupa una parte ampia e uniforme del grafico. Una scala logaritmica sovrastimerebbe le basse frequenze (sotto i 500 Hz), anche se di solito si tratta solo del rumore del vento o del traffico. Tuttavia, per i richiami dei gufi a bassa frequenza o per gli uccelli di grandi dimensioni, una scala Mel può effettivamente essere migliore: una possibile modalità di visualizzazione futura.

Gamma di frequenza 0-12 kHz

Il limite superiore deriva dal teorema di Nyquist al campionamento a 24 kHz. Frequenze più elevate non sono rilevanti per l'identificazione delle specie di uccelli – Frommolt et al. (2012) e Abeßer et al. (2025) confermano entrambi che la banda principale termina appena sotto i 10 kHz.

Viridis invece di Jet

La tavolozza dei colori viridis è percettivamente uniforme: uguali distanze di colore corrispondono a uguali distanze di energia. La vecchia tavolozza “jet” (blu → ciano → verde → giallo → rosso) crea salti ottici che non sono nel segnale ed è anche difficile da leggere per i ciechi rosso-verdi. Negli ultimi anni il software scientifico di bioacustica è passato in gran parte a viridis (o magma/inferno).

Compromesso tempo-frequenza

Utilizziamo le impostazioni predefinite di FFmpeg (dimensione della finestra circa 2048 campioni, dimensione del hop 25%): questo è un compromesso consapevole tra frequenza e risoluzione temporale, che rende riconoscibili sia i trilli rapidi che i fischi lunghi. Per analisi di ricerca ad alta risoluzione (ad esempio frequenze di trillo fino a 48 Hz, come descritto in Podos 1997 e DEGA 2025), avrebbe senso una dimensione della finestra più piccola: questo è un punto in cui possiamo ancora ottimizzare.

Fonti e approfondimenti

Se desideri approfondire le basi scientifiche del riconoscimento automatico del canto degli uccelli, ti consigliamo le seguenti fonti primarie disponibili gratuitamente:

Frommolt, K.-H., Hüppop, O., Bardeli, R., Hill, R., Koch, M., Tauchert, K.-H. & Specht, R. (2012): Metodi automatizzati per la registrazione di richiami e canti nella ricerca avifaunistica sul campo. Vogelwarte 50, pp. 65–78. PDF (Zobodat)
Krüger, S. (inverno 22/23): Riconoscimento automatico del canto degli uccelli. Lavoro di progetto nell'ambito dell'“Analisi del suono supportata dall'intelligenza artificiale”, Università di Musica Franz Liszt di Weimar (Prof. Dr. Pfleiderer / Prof. Abeßer). PDF (HfM Weimar)
Abeßer, J., Lukashevich, H., Ziegler, S. & Bös, J. (2025): Progressi nel riconoscimento automatico del canto degli uccelli. Akustik Journal 03/2025 (Società tedesca di acustica), pp. 7–16. PDF (DEGA Akustik)
Hübner, S. (2006/2008): Modellazione basata sulla conoscenza di classificatori di segnali audio – Sulla bioacustica del Tursiops truncatus. Dissertazione, Facoltà di Scienze Umane dell'Università di Potsdam, 2a, edizione rivista, University Press Potsdam. PDF (Università di Potsdam)

Raccomandazione per scienziati e scienziati cittadini: le registrazioni OpenInsect anonimizzate con spettrogramma e dati di contesto (GPS, meteo, punteggio di confidenza) possono essere utilizzate bene per convalidare i propri modelli o per analisi della biodiversità. Se sei interessato a un'esportazione di dati strutturati, puoi contattarci tramite l'app: ci consideriamo una piattaforma di citizen science analoga a Xeno-Canto e alla Macaulay Library, con l'ulteriore valore aggiunto che ogni registrazione include già una visualizzazione dello spettrogramma.

Scarica OpenInsect gratuitamente adesso

Prova tu stesso il riconoscimento del canto degli uccelli: OpenInsect è disponibile per iOS e Android:

Con ogni caricamento fornisci al modello dati di osservazione reali e diventi parte di una comunità in crescita di amanti della natura, ornitologi per hobby e scienziati cittadini.

Archiviato in: App, Bioakustik, KI, Spektrogramm, Vogelgesang, Vogelstimmen, Wissenschaft