O berço da atual revolução da inteligência artificial (IA) é o reconhecimento de imagens. Em outubro de 2012, foi publicado o artigo sobre a AlexNet, uma rede de IA que usava uma técnica que imitava o funcionamento do cérebro humano para identificar e classificar imagens – nascia assim o deep learning (ou aprendizado profundo), método usado nos principais e mais sofisticados sistemas de IA.
Uma década depois, a Yolo aprimorou consideravelmente a detecção e classificação de objetos em uma imagem. “A Yolo reconhece dezenas de elementos olhando apenas uma vez para ela”, explica Fernando Osório, professor da USP São Carlos. É uma característica que a IA carrega no nome: Yolo é um acrônimo para “You only look once” (você só olha uma vez), um trocadilho com a expressão americana “You only live once” (você só vive uma vez) – ou seja, “vida louca” virou “vista louca”.
Publicada em 2015 pelo pesquisador Joseph Redmon, a Yolo mudou a lógica de como algoritmos compreendem uma imagem. Antes, os modelos do tipo examinavam várias vezes a mesma região de um quadro para tentar detectar possíveis objetos. Já a Yolo olha para imagens de um modo amplo e encontra os objetos específicos – cada um deles é demarcado por um retângulo, posteriormente classificado naquilo que foi detectado. O sistema é tão avançado que consegue, inclusive, detectar objetos sobrepostos, algo extremamente difícil para classificadores de imagens bidimensionais.
Fernando Osório, professor da USP São Carlos
Nos anos posteriores, a Yolo foi ganhando novas versões por outras mãos além de Redmon. Por se tratar de um modelo de código aberto, passou a ser modificado e aprimorado por outros pesquisadores e empresas, como a americana HuggingFace.
“A Yolo se tornou importante para desenvolver carros autônomos, pois é necessário que o sistema identifique muitos elementos simultaneamente em um espaço de tempo muito curto”, explica Osório, uma das principais autoridades no assunto no Brasil. Mas não é só isso: ela pode ser usada por robôs, que trabalham com humanos ou que precisam selecionar objetos. O sistema pode ser também um aliado para auxiliar pessoas cegas.
A Yolo tem só uma falha tecnológica: não consegue identificar com precisão detalhes de seus objetos. Ou seja, embora ela possa ser usada parcialmente por sistemas de segurança, não é a ideal na realização de reconhecimento facial. Talvez isso não seja uma coincidência. Redmon abandonou o desenvolvimento de detecção de objetos em 2020, citando preocupações quanto ao uso militar e ameaças à privacidade.
Assim, o legado da Yolo vai além da tecnologia. Embora as variantes pós-Redmon possam ser aprimoradas, o debate ético levantado sobre o uso de IA é inegável. E não tem nada de vida louca.