Multispectral airborne laser scanning for tree species classification: a benchmark of machine learning and deep learning algorithms

Josef Taher, Eric Hyyppä, Matti Hyyppä, Klaara Salolahti, Xiaowei Yu, Leena Matikainen, Antero Kukko, Matti Lehtomäki, Harri Kaartinen, Sopitta Thurachen, Paula Litkey, Ville Luoma, Markus Holopainen, Gefei Kong, Hongchao Fan, Petri Rönnholm, Matti Vaaja, Antti Polvivaara, Samuli Junttila, Mikko Vastaranta, Stefano Puliti, Rasmus Astrup, Joel Kostensalo, Mari Myllymäki, Maksymilian Kulicki, Krzysztof Stereńczak, Raul de Paula Pires, Ruben Valbuena, Juan Pedro Carbonell-Rivera, Jesús Torralba, Yi-Chen Chen, Lukas Winiwarter, Markus Hollaus, Gottfried Mandlburger, Narges Takhtkeshha, Fabio Remondino, Maciej Lisiewicz, Bartłomiej Kraszewski, Xinlian Liang, Jianchang Chen, Eero Ahokas, Kirsi Karila, Eugeniu Vezeteu, Petri Manninen, Roope Näsi, Heikki Hyyti, Siiri Pyykkönen, Peilun Hu, Juha Hyyppä

Publicado 2026-02-18

📖 5 min de leitura🧠 Leitura aprofundada

Ver no arXiv ↗PDF ↗

Each language version is independently generated for its own context, not a direct translation.

Imagine que você é um jardineiro gigante, responsável por cuidar de uma floresta inteira, mas em vez de ter que caminhar por cada árvore, você tem um "olho mágico" que voa sobre a floresta e tira fotos em 3D. O objetivo é identificar exatamente qual é cada tipo de árvore (pinheiro, carvalho, bétula, etc.) para cuidar melhor da floresta, proteger a biodiversidade e planejar o uso da madeira.

Este artigo é como um grande campeonato de inteligência artificial para ver quem é o melhor em identificar essas árvores usando dados desse "olho mágico" (chamado de Laser Scanning ou LiDAR).

Aqui está a explicação do que aconteceu, usando analogias simples:

1. O Cenário: Duas Câmeras Diferentes

Os pesquisadores usaram dois tipos de "olhos" para olhar a floresta:

O Olho de Águia (HeliALS): Um sistema muito potente, instalado num helicóptero, que tira fotos super detalhadas e densas (mais de 1.000 pontos por metro quadrado). É como olhar para uma árvore com uma lupa gigante. Além disso, ele vê a floresta em três cores de laser diferentes (como se fosse um óculos 3D que vê além do vermelho, verde e azul), captando informações que nossos olhos não veem.
O Olho de Coruja (Optech Titan): Um sistema mais comum, usado em aviões que voam mais alto. Ele vê a floresta com menos detalhes (cerca de 35 pontos por metro quadrado). É como olhar para a floresta de longe, onde você vê a forma geral, mas não os detalhes da casca ou das folhas.

2. O Desafio: O "Treino" e a "Prova"

Para ensinar as máquinas a reconhecer as árvores, os cientistas precisaram de um "professor". Eles criaram um banco de dados gigante com 6.326 árvores identificadas manualmente por humanos (usando um aplicativo de celular que funcionava como um "jogo de caça ao tesouro" para marcar as árvores no mapa).

Eles dividiram esse banco de dados: deram uma parte para as máquinas "estudarem" (treinamento) e deixaram a outra parte como uma "prova final" (teste) para ver quem acertava mais.
O objetivo era classificar 9 tipos de árvores, incluindo algumas muito comuns (como pinheiros) e outras raras (como o choupo, que é super importante para a vida selvagem).

3. Os Competidores: Quem venceu?

Vários times do mundo inteiro enviaram seus algoritmos (seus "cérebros" de computador) para participar do campeonato. Eles se dividiram em duas categorias principais:

Os "Velhos Sábios" (Aprendizado de Máquina Tradicional): Eles olhavam para a árvore e mediam coisas como "qual é a altura?", "qual é a largura?", "qual é a cor média?". Eles usavam regras lógicas e estatísticas.
Os "Jovens Gênios" (Aprendizado Profundo / Deep Learning): Eles não usavam regras pré-definidas. Em vez disso, eles "olhavam" para a nuvem de pontos 3D inteira e aprendiam sozinhos quais padrões significavam "pinheiro" ou "carvalho". Era como ensinar uma criança a reconhecer um gato mostrando milhares de fotos, em vez de dizer "tem bigodes e rabo".

O Veredito:

Com o "Olho de Águia" (Dados densos): Os Jovens Gênios (Deep Learning) venceram de lavada! O melhor deles, chamado Point Transformer, acertou 87,9% das árvores. Ele foi especialmente bom em encontrar as árvores raras, que os "Velhos Sábios" confundiam com frequência.
Com o "Olho de Coruja" (Dados esparsos): A briga foi mais equilibrada. Os Velhos Sábios (Random Forest) ganharam por pouco (79,9% de acerto), mas os Jovens Gênios ficaram muito perto. Isso mostra que, quando os dados são poucos, a lógica tradicional ainda é muito forte.

4. O Segredo: A "Cor" do Laser

Um dos maiores achados do estudo foi sobre a importância das cores do laser.

Imagine que você tenta identificar uma fruta apenas pelo formato (redonda = laranja). Às vezes, você erra porque uma maçã também é redonda.
Mas, se você puder ver a "cor" da fruta (mesmo que seja uma cor invisível para nós, como o infravermelho), fica muito mais fácil.
O estudo mostrou que usar três cores de laser (multiespectral) melhorou drasticamente a precisão, especialmente quando os dados eram menos densos. Foi como dar óculos de visão noturna para o computador: ele viu detalhes que antes eram invisíveis.

5. A Lei do "Mais é Melhor" (Escala)

Os pesquisadores descobriram uma lei interessante sobre como a inteligência artificial aprende:

Aprendizado Profundo (Deep Learning): É como um atleta olímpico. No começo, ele precisa de muito treino (muitos dados) para ficar bom. Se você der apenas 100 árvores para ele estudar, ele vai mal. Mas se você der 5.000 ou 10.000, ele melhora muito rápido e supera os outros métodos.
Aprendizado Tradicional: É como um funcionário experiente. Ele é bom logo de cara, mesmo com poucos dados, mas tem um "teto" de desempenho. Depois de certo ponto, dar mais dados não ajuda tanto a melhorar.

Conclusão Simples:
Se você tem poucos dados e precisa de uma resposta rápida, use a inteligência artificial tradicional. Mas, se você tem muitos dados (como os dados super detalhados de um helicóptero) e quer identificar árvores raras com precisão cirúrgica, a Inteligência Artificial Profunda (Deep Learning) é o futuro, especialmente quando combinada com dados de múltiplas cores de laser.

Isso é crucial para o futuro das florestas: permite que gestores urbanos e florestais saibam exatamente onde estão as árvores raras, ajudando a proteger a biodiversidade e a planejar cidades e florestas mais saudáveis, sem precisar de um humano para subir em cada árvore.

Each language version is independently generated for its own context, not a direct translation.

Título e Contexto

O artigo apresenta um estudo abrangente de benchmark (avaliação comparativa) internacional focado na classificação de espécies arbóreas utilizando dados de Escaneamento Laser Aerotransportado Multiespectral (ALS). O estudo visa superar os desafios atuais na identificação precisa de espécies individuais, especialmente em conjuntos de dados desbalanceados e com o uso de técnicas de aprendizado profundo (deep learning).

1. O Problema

Necessidade de Gestão Florestal Precisa: A silvicultura moderna e a conservação da biodiversidade exigem informações detalhadas sobre a distribuição de espécies em nível de árvore individual para otimizar a cadeia de suprimentos de madeira e serviços ecossistêmicos.
Limitações Atuais: Embora o ALS seja a técnica padrão para inventários florestais, a classificação de espécies (especialmente árvores decíduas e espécies raras) permanece desafiadora. Métodos tradicionais baseados em características geométricas e aprendizado de máquina "raso" (shallow ML) muitas vezes falham em distinguir espécies com características estruturais e espectrais semelhantes.
Lacunas na Pesquisa: Há uma falta de estudos comparativos robustos que avaliem métodos de aprendizado profundo em dados ALS multiespectrais de alta densidade, além da necessidade de entender como a densidade de pontos e o tamanho do conjunto de treinamento afetam a precisão.

2. Metodologia

Dados e Área de Estudo

Localização: Área periurbana em Espoonlahti, Espoo, Finlândia (20 km a oeste de Helsinque), escolhida pela alta diversidade de espécies (20-30 espécies, incluindo coníferas e decíduas).
Sistemas de Coleta:
1. HeliALS (Alta Densidade): Sistema desenvolvido pelo FGI (Finnish Geospatial Research Institute) com três scanners Riegl operando em comprimentos de onda de 532 nm (verde), 905 nm (infravermelho próximo) e 1550 nm (infravermelho). Densidade de pontos: >1000 pts/m² (média de ~1300 pts/m²).
2. Optech Titan (Baixa Densidade): Sistema operacional padrão com três canais (532, 1064, 1550 nm). Densidade de pontos: ~35 pts/m².
Conjunto de Dados de Referência:
- Total de 6.326 segmentos de árvores anotados manualmente para 9 espécies (Pinheiro, Espécie, Bétula, Maple, Aspen, Rowan, Carvalho, Tília, amieiro).
- Dividido em: 1.065 segmentos para treinamento e 5.261 para teste.
- Ferramenta de Crowdsourcing: Desenvolvimento de uma aplicação web baseada em navegador para coletar e verificar dados de campo de forma eficiente, permitindo a anotação de grandes volumes de dados necessários para deep learning.

Algoritmos Avaliados

O estudo comparou 13 equipes e diversos métodos, categorizados em:

Aprendizado Profundo Baseado em Pontos (3D):
- Arquiteturas: Point Transformer, DGCNN, PointNet, PointNet++, Point2Vec.
- Uso de dados: Coordenadas 3D + informações radiométricas (intensidade, refletância, eco) de múltiplos canais.
Aprendizado Profundo Baseado em Imagem/Perfil (2D):
- Métodos: YOLOv8, DenseNet (DetailView), ConvNeXt.
- Abordagem: Projeção da nuvem de pontos em múltiplas vistas 2D (RGB ou profundidade) para processamento por CNNs.
Aprendizado de Máquina Tradicional (Shallow ML):
- Métodos: Random Forest (RF), SVM, Gradient Boosting (LGBM, GB).
- Abordagem: Extração de características manuais (geométricas e estatísticas de intensidade) seguidas de classificação.

Análise de Escala

Estudo da lei de potência da erro de classificação em função do tamanho do conjunto de treinamento ( $m$ ) e da densidade de pontos ( $\sigma$ ).
Uso de validação cruzada de 5 dobras para avaliar a convergência dos modelos.

3. Principais Contribuições

Benchmark Internacional: A primeira comparação abrangente de métodos de ML e DL em dados ALS multiespectrais de alta densidade, envolvendo 13 equipes internacionais.
Conjunto de Dados Aberto: Disponibilização pública de um grande conjunto de dados de referência (HeliALS e Optech Titan) com anotações de campo verificadas, facilitando pesquisas futuras.
Ferramenta de Crowdsourcing: Desenvolvimento e validação de uma ferramenta web para coleta eficiente de dados de referência de árvores individuais, crucial para escalar a anotação de dados para deep learning.
Análise de Lei de Potência: Demonstração quantitativa de como o erro de classificação escala com o tamanho dos dados de treinamento e densidade de pontos, revelando diferenças fundamentais entre ML e DL.

4. Resultados Chave

Desempenho Geral

Dados de Alta Densidade (HeliALS):
- O método Point Transformer (baseado em pontos) obteve o melhor desempenho, alcançando 87,9% de precisão global e 74,5% de precisão média macro (macro-average).
- O melhor método baseado em imagem (DetailView) atingiu 84,3% (global) e 63,9% (macro).
- O melhor classificador de ML (Random Forest) atingiu 83,2% (global) e 61,3% (macro).
- Conclusão: Em dados densos, o deep learning baseado em pontos supera significativamente os métodos tradicionais e baseados em imagem, especialmente para espécies minoritárias.
Dados de Baixa Densidade (Optech Titan):
- O Random Forest (ML) teve o melhor desempenho (79,9% global, 57,6% macro), superando ligeiramente o Point Transformer (79,6% global).
- Conclusão: Em dados esparsos, métodos tradicionais robustos ainda são competitivos, embora o DL se aproxime.

Impacto da Informação Espectral

A adição de informações espectrais (intensidade/refletância) é crítica.
No HeliALS, a precisão global do Point Transformer aumentou de 73,0% (apenas geometria) para 84,7% (canal único) e 87,9% (multiespectral).
A informação multiespectral é particularmente benéfica para nuvens de pontos esparsas (1–50 pts/m²), onde a informação estrutural é limitada.

Escalabilidade e Lei de Potência

O erro de classificação segue uma lei de potência $\varepsilon(m) \propto m^{-\alpha}$ .
O expoente de convergência ( $\alpha$ ) para o modelo de deep learning é aproximadamente duas vezes maior que o do Random Forest.
Projeção: Para atingir 90% de precisão média macro, o modelo de DL precisaria de ~14.000 árvores de treinamento, enquanto o ML exigiria ~4,9 milhões de árvores, demonstrando a superioridade do DL em grandes volumes de dados.

Análise por Espécie e Categoria

Espécies dominantes (Pinheiro, Espécie, Bétula) são classificadas com alta precisão (>90%).
Espécies minoritárias (Carvalho, Tília, Amieiro) são as mais difíceis, mas o DL com função de perda ponderada melhorou significativamente sua detecção.
A qualidade da segmentação impacta fortemente: árvores suprimidas ("Smaller tree next to larger tree") têm precisão ~20% menor que árvores dominantes.

5. Significado e Conclusão

O estudo estabelece que o aprendizado profundo baseado em pontos (Point Transformer) é o estado da arte para classificação de espécies em dados ALS multiespectrais de alta densidade. A pesquisa demonstra que:

A combinação de alta densidade de pontos e informação multiespectral é essencial para a classificação precisa de espécies raras e decíduas.
O aprendizado profundo escala muito melhor com o aumento do tamanho do conjunto de dados do que os métodos tradicionais, tornando-se a escolha preferencial para grandes inventários florestais futuros.
A coleta de dados de referência em larga escala via crowdsourcing é viável e necessária para alimentar esses modelos.

Este trabalho fornece as bases para a transição de inventários florestais baseados em estoque para gestão florestal de precisão em nível de árvore individual, apoiando objetivos de sustentabilidade e biodiversidade.