JOYN GROUP

Escrito por: Eduardo Poças

As máquinas vão substituir os humanos na V2?

Estamos a viver momentos realmente notáveis no desenvolvimento da V2 do DocDigitizer.

Consolidámos os algoritmos de Machine Learning, usado aproximações sucessivas conseguimos, pela primeira vez, que o sistema classificasse e extraísse valores de campos de um documento sem que nenhum humano tenha orientado a máquina para a ajudar a modelar o problema. Ela simplesmente aprendeu com base nas anotações existentes quais algoritmos produziam os melhores resultados. Com isto, estamos com taxas de sucesso na ordem dos 90% em documentos estruturados.
Com estes avanços produzimos a primeira versão Release Candidate, onde temos um sistema como um todo a funcionar integrando todos os módulos de base.

Durante as próximas semanas vamos trazer a bordo uma integração satélite com outros produtos do grupo: o DokRouter e o iFlow que permitirá acelerar a ingestão de documentos dos clientes de forma massiva, de diversas fontes diferentes – email, file system, FTP, API – mas mantendo a escalabilidade e a capacidade de entrega da operação. Também permitirá ligações out of the box a um produto de gestão processual valorizando ainda mais a oferta da DocDigitizer.

Para o futuro, após a V2, virá certamente a V3, V4 e por aí fora. Temos um backlog imenso, ideias interessantíssimas para explorar:
– novo algoritmo de auto-classificação onde o sistema consiga segmentar e descobrir novas categorias de documentos – por exemplo, perceber que dentro do domínio das faturas há faturas da Vodafone e faturas da MEO;
– outros fornecedores de OCR para reduzir a exposição e dependência que temos atualmente e para melhorar a qualidade da extração;
– algoritmos de análise e tratamento de imagem que nos permitam acelerar ainda mais as anotações e extrações balizando o trabalho dos revisores.

Algumas irão ser integradas no produto, outras possivelmente serão abandonadas em detrimento de terceiras que hoje ainda não antevimos. Um dos pontos mais positivos de trabalhar na área de produto é exatamente a velocidade com que as coisas mudam e o desafio de manter a equipa capaz de acompanhar essas mudanças, construindo um produto que se quer capaz de ser aberto a extensões mas fechado a modificações.