-
Notifications
You must be signed in to change notification settings - Fork 2
Home
Este projeto trata do processamento dos textos do Dicionário Histórico-Biográfico Brasileiro.
No artigo, explico um pouco do que já foi feito e planos futuros. Resumindo, ao longo dos anos, aprendemos que ao invés de focarmos em aplicações expecíficas, como a extração de relações familiares, dos textos do DHBB, melhor seria investimos na criação de 'camadas' de anotações sobre os textos, criando assim um corpus a partir dos verbetes. Tal corpus irá assim consituir-se um recurso linguistico para não apenas aplicações finais, como extração de informações, como também para treinamento de ferramentas de processamento de texto ou mesmo estudos linguísticos. Desta forma, este projeto trata da construção do 'corpus DHBB'.
Iniciativa similar foi iniciada pelo projeto Linguateca, os interessados podem realizar algumas consultas usando a interface AC/DC. Destacamos que a diferença deste projeto para o projeto da Linguateca é o foco em padrões de anotações mais abertos.
Nossos planos incluem a exploração de vários tipos de processamento, não necessariamente alinhados em um pipeline único e sequencial. No curso prazo, pretendemos:
-
segmentação dos textos em parágrafos e sentenças. Idealmente modelando estruturas linguísticas mais complicadas como discursos, citações etc.
-
reconhecimento e classificação de entidades nomeadas.
-
análise sintática das sentenças.
-
anotação de etiquetas de papéis semânticos.
Este wiki estará em constante revisão tentando sempre atualizar a documentação sobre as etapas sendo executadas.
Os textos do DHBB, sem qualquer processamento linguístico, são mantidos no repositório dhbb.
Uma interface preliminar de navegação pelos DHBB onde entidades nomeadas são destacadas encontra-se em http://dhbb.mybluemix.net/dhbb/home.
Etapas: