.

Log out

Publicado em 10 de Agosto de 2021

YoloR : Redes Unificadas Implícita e Segmentação Panótica.

.

YoloR : Redes Unificadas Implícita e Segmentação Panótica.

O YOLO-R acaba de ser lançado (paper publicado em maio) e apresenta um novo contexto no setor de visão computacional.

YOLO é um acrônimo em inglês que significa: You Only Look Once, numa tradução literal, você só olha uma vez, e foi este o nome dado ao algoritmo que vem revolucionando a Visão Computacional. Sua primeira versão trouxe a grande evolução de detectar e reconhecer vários objetos em uma imagem, em RealTime. Do YOLO 1 ao YOLO 4 tivemos sempre saltos de performance, acurácia, velocidade e na precisão e eficiência de detecção de imagens.

A mais nova versão deste algoritmo é o YoloR, batizada pelos seus autores como: You Only Learn One Representation (você só aprende uma representação) e impressiona mais uma vez com grandes evoluções!

Para entendermos melhor essa evolução, vale lembrar que até então, uma Rede Neural Convolucional reconhecia um objeto, um animal ou um ser humano de maneira muito consistente. Mas a CNN (Convolutional Neural Network - Rede Neural Convolucional) conseguia fazer apenas uma coisa por vez. Tentar identificar a ação de uma determinada pessoa e a sua vestimenta, prejudicava a acurácia e/ou desempenho dependendo da técnica aplicada. Se compararmos o aprendizado humano com o aprendizado da máquina, as pessoas conseguem ver e identificar todos os tipos de informações em uma imagem, e também "entendem" o mundo por meio da visão, audição, tato, na maioria das vezes, todos estes sentidos são utilizados de maneira integrada.

A proposta do YOLO-R é ser uma rede unificada, projetado para fazer a inferência com imagens, sons e textos.

Outro detalhe importante, é o modelo de aprendizado.

O aprendizado humano pode acontecer de maneira intencional, onde dedica-se atenção ao objetivo do aprendizado, que chamamos de aprendizado explícito, ou de maneira subconscientemente, que chamamos de aprendizado implícito. Essas experiências aprendidas por meio do aprendizado explícito ou implícito são de alguma maneira armazenadas no cérebro. Correlacionando as experiências de aprendizados e o armazenamento do cérebro humano com um enorme banco de dados, podemos dizer que os seres humanos podem processar dados com eficácia, mesmo que eles não sejam totalmente conhecidos.

O conhecimento implícito refere-se ao aprendizado involuntário, o conhecimento explícito é aplicado em Deep Learning. Pois o aprendizado ocorre baseado em técnicas holísticas (aprendizado baseado na observação).

Uma maneira de exemplificar em visão computacional, o modelo explícito reconhecerá um computador, já o modelo implícito reconhecerá o botão power, o leitor de DVD, se encontra no estado ligado e outros detalhes.

O YOLO R propõe uma rede unificada para codificar o conhecimento implícito e o conhecimento explícito juntos, assim como o cérebro humano. A rede unificada pode gerar uma representação unificada para servir simultaneamente a várias tarefas. Podendo assim refinar predição e aprendizado multitarefa em uma rede neural convolucional. Os resultados demonstram que quando o conhecimento implícito é introduzido na rede neural, ele beneficia o desempenho de todas as tarefas. Analisamos ainda a representação implícita aprendida com a rede unificada proposta, e ela mostra grande capacidade em captar o significado físico de diferentes tarefas.

Logo podemos entender que o YoloR é uma implementação do aprendizado explícito e implícito multitarefa com uma rede unificada (arquitetura de modelo único ) que analisa imagens, sons e textos. Logo, várias tarefas podem ser realizadas. No paper https://arxiv.org/abs/2105.04206 os autores mencionam experimentações com detecção de legenda, objetos, segmentação de instância, segmentação panótica, e muito outros no futuro. Compreensivelmente, este novo Deep Learning Implícito e Unificado, contém muito mais matemática envolvida em sua arquitetura unificada.

Segmentação Panótica

Sobre performance: Comparando o YoloR com os algoritmos de última geração no estado da arte, como o Yolov4, EfficientDet e outros, o YoloR demonstra acurácia similar. Entretanto é assustador a performance em FPS (quase o dobro)!

Em breve mais detalhes de Implementação deste novo brinquedo no setor de IA com visão computacional.

965 leituras 332 Curtidas

Sobre o Autor

Alessandro Faria

CTIO OITI Tecnologia

Sócio cofundador da empresa OITI TECHNOLOGIES, Pesquisador cujo primeiro contato com tecnologia foi em 1983 com 11 anos de idade. Leva o Linux a sério, pesquisa e trabalhos com biometria e visão computacional desde 1998. Experiência com biometria facial desde 2003, redes neurais artificiais e neurotecnologia desde 2009. Inventor da tecnologia CERTIFACE, mais de 100 palestras ministradas, 14 artigos impressos publicados, mais de 8 milhões de acessos nos 120 artigos publicados, Docente da FIA, Membro oficial Mozillians, Membro oficial e Embaixador OpenSUSE Linux América Latina, Membro do Conselho OWASP SP, Contribuidor da biblioteca OpenCV e Global Oficial OneAPI Innovator Intel, Membro Notável I2AI, Fundador da iniciativa Global openSUSE Linux INNOVATOR e Mentor Cybersecuritygirls BR

Café com o Presidente

Uma conversa com o Presidente da I2AI - Onédio S. Seabra Júnior - para falarmos sobre os temas mais quentes de Transformação Digital e Inteligência Artificial, num bate-papo informal com

Saiba Mais

.

YoloR : Redes Unificadas Implícita e Segmentação Panótica.

.

YoloR : Redes Unificadas Implícita e Segmentação Panótica.

Sobre o Autor

Alessandro Faria

Leia Também

O Efeito Baunilha

Inteligência Artificial nos Negócios: Estratégias Visionárias para CEOs

Grok-1 : Um Marco na história da IA.

Café com o Presidente