Organizando a informação pública brasileira com Python e NLP
Talk details
Overview do projeto do JusBrasil para tratar da problemática de organização da informação pública brasileira.
Atualmente, nos Diários Oficiais, são escritas milhares de páginas todos os dias, que são, direta ou indiretamente importantes na vida de todo cidadão, como nomeações, resultados de concursos, leis, gastos públicos, etc. Infelizmente, esses dados não são bem estruturados, o que dificulta o acesso da população. A iniciativa visa organizar essa informação através de técnicas de ML (Machine Learning) e NLP (Natural Language Processing), com um projeto totalmente escrito em Python, feito para ser escalável e processar um grande conjunto de dados. A proposta é extrair e organizar blocos (documentos), junto com suas informações, entidades e classificação. Essa organização possibilita maior transparência e conhecimento público dos assuntos, fazendo possível um roadmap bastante extenso e cheio de possibilidades.
Speaker details
Engenheiro de Software no JusBrasil, autor e colaborador de projetos open source, é formado em Ciência da computação pela Universidade Salvador e atua em projetos Python desde 2009, voltados, principalmente, à áreas como recuperação de informação, sistemas web de larga escala e testes automatizados.