Skip to content. | Skip to navigation

Personal tools

Navigation

You are here: Home / Program / Python Brasil / Other / raspador: Uma mini-biblioteca tupiniquim para extração de dados
Other

raspador: Uma mini-biblioteca tupiniquim para extração de dados

Terry Jones Room
04/10
16:40

Talk details

Language: Portuguese
Level: Intermediate
Summary:

Com aproximadamente 500 linhas de código (+testes), o raspador é uma mini-biblioteca para extração de dados em fontes semi-estruturadas. Está em produção utilizado como fundamento para extração de dados em Espelhos MFD de impressoras fiscais.

A definição dos extratores é feita através de classes como modelos, de forma semelhante ao ORM do Django. Cada extrator procura por um padrão especificado por expressão regular, e a conversão para tipos primitidos é feita automaticamente a partir dos grupos capturados.

O analisador é implementado como um gerador, onde cada item encontrado pode ser consumido antes do final da análise, caracterizando uma pipeline.

A análise é foward-only, o que o torna extremamente rápido, e deste modo qualquer iterador que retorne uma string pode ser analisado, incluindo streams infinitos.

Com uma base sólida e enxuta, é fácil construir seus próprios extratores.

Além da utilidade da ferramenta, o raspador é um exemplo prático e simples da utilização de conceitos e recursos como iteradores, geradores, meta-programação e property-descriptors.


Presentation:

Speaker details

Fernando Gomes de MacedoFernando Gomes de Macedo
Software Engineer at NCR Corporation. Bachelor's Degree in Information Systems.

Sponsors

Diamond
Platinum
Gold
Bronze
À la Carte
Supporting
Media Support
Free and Open Source
Organization