Gestão e preservação de grandes volumes de dados

Produção e gestão a longo prazo de grandes volumes de informação

A gestão de grandes volumes de informação (estruturada ou não estruturada), em diferentes suportes e proveniente de várias fontes foi uma constante para as administrações públicas: uma necessidade que vem de longe, bem conhecida para os profissionais dos ficheiros e da gestão documental.

No entanto, estamos a verificar uma aceleração considerável nas capacidades de captura, gestão e exploração dos dados criados por parte de qualquer organização, tanto a nível tecnológico como organizacional. A definição de processos e procedimentos orientados aos dados, capazes de capturar informação estruturada nas suas partículas mais concretas é uma realidade crescente para as administrações públicas, que oferece interessantes potencialidades na interação com estes grandes volumes de informação. Paradoxalmente, esta potencialidade deixa mais presente do que nunca a conhecida metáfora do navegar ou afogar em oceanos de dados.

A interação dos cidadãos com as nossas administrações públicas ou o próprio dia a dia do processamento administrativo orientado aos dados (como a apresentada no design da Gestiona), bem como a gestão dos serviços e o património públicos são uma fonte constante e primária de dados em bruto, disponíveis para o seu processamento e exploração.

Neste caso, as potencialidades implicam necessidades específicas que permitam às organizações a gestão de volumes de dados (e documentos) em situação de crescimento exponencial e que estes sejam criados com a maior qualidade possível: estes dados devem ser capturados bem estruturados, organizados e contextualizados.

Além disso, se colocarmos foco no eixo da larga duração, deparamo-nos com desafios específicos derivados da conservação e preservação a longo prazo de estes grandes volumes de informação, da sua contextualização e relação com processos e procedimentos documentados e a sua representação em suportes documentais criados pelas organizações.

Deparamo-nos com desafios específicos derivados da conservação e preservação a longo prazo de estes grandes volumes de informação

Depuração e pertinência dos dados

Estes grandes volumes de dados, para a sua correta exploração e preservação, devem garantir no seu conjunto uma série de características bem conhecidas por qualquer especialista no seu tratamento:

  • Contexto: os dados em bruto, fora de contexto e dissociados dos processos que foram criados perdem grande parte da sua capacidade informativa.
  • Correção e uniformidade: os dados devem apresentar formatos corretos e coerentes com a estrutura em que existem, bem como representar-se de forma normalizada nas suas representações individuais.
  • Integridade: os conjuntos de dados devem manter a integridade, evitando a existência de lacunas, inconsistências ou fragmentação, tanto nas representações individuais como estruturais.

Dependendo das fontes consultadas, em qualquer trabalho de análise e exploração de dados (e novamente incluímos aqui os trabalhos prévios à conservação e preservação a longo prazo dos mesmos), costuma-se citar um intervalo de esforço de entre 65 e 80% de tratamento prévio e tarefas de depuração, contextualização e correção dos dados a tratar.

Trabalhos recentes (como o que nos apresentava recentemente Pilar Campos no CNADE 2022) empreendem diretamente as técnicas necessárias para, desde o âmbito dos profissionais da gestão documental e o arquivo, levar a cabo tarefas de correção e depuração.

Só assim, assegurando a pertinência e disponibilidade dos dados, será possível levar a cabo uma correta exploração e reutilização, que permita tomar tanto decisões informadas e consequentes como aprofundar a eficiência de umas administrações públicas cada vez mais capazes de centrar os seus recursos onde estes tiverem um maior impacto no serviço aos cidadãos.

Assim, as plataformas de Administração Eletrónica devem ser capazes de oferecer ferramentas centradas em responder a estas necessidades. Capturar e criar dados são características inerentes a qualquer aplicação, mas não basta capturar dados em bruto: devemos dispor de armas e ferramentas que facilitem e reduzam as conhecidas, mas necessárias, tarefas de contextualização, correção e depuração.

Neste contexto, estaremos na disposição de reduzir essa elevada percentagem de esforço do tratamento prévio dos dados obtidos, passando-os para tarefas que realmente proporcionem valor na sua análise e exploração e que até agilizem tanto os tempos necessários para a sua disposição e representação ou reutilização nas aplicações integradas.

Disposição de reduzir essa elevada percentagem de esforço do tratamento prévio dos dados obtidos, passando-os para tarefas que realmente proporcionem valor na sua análise e exploração

Nessa perspetiva, que ferramentas temos a nosso alcance para trabalhar na criação de dados de maior qualidade desde a criação do próprio sistema que os cria? E que papel têm os especialistas em Gestão documental, arquivo e Gestão da informação?

Normalização, organização e contexto: competências do âmbito de arquivo

Mais além da própria experiência da definição de infraestruturas e esquemas de metadados, o papel tradicional e conhecimento concreto dos profissionais do arquivo e da gestão documental (se bem que é certo que o objeto destes trabalhos estava plasmado em diferentes suportes não necessariamente eletrónicos) tem incidência direta na gestão, descrição, recuperação e tratamento a longo prazo de elevados volumes de informações.

Diagrama de gestão de dados

As doutrinas de arquivo aprofundaram a criação de instrumentos e ferramentas definidas, precisamente, com estes objetivos. Sabemos que este conhecimento nascido no papel vinha passando desde há anos para meios em suporte puramente eletrónico. E sabemos também que é perfeitamente fácil de passar ao âmbito da gestão dos dados, estruturação dos dados, geração e tratamento de conjunto de dados, etc.

Além disso, é natural para o nosso âmbito profissional o conhecimento profundo dos objetos que serão criados e recolhidos pela maioria dos dados produzidos em qualquer plataforma de administração eletrónica, produtos do processamento administrativo. As profissionais do arquivo conhecem bem a relação e interação entre as partes mínimas que compõem os ativos da informação (os dados) e os documentos que irão dispor, representar e, em última análise, manter os seus valores informativos intactos.

Este conhecimento e técnicas têm uma aplicabilidade direta no design da Gestiona no que diz respeito à relação dos modelos de dados, os processos e procedimentos que os contextualizam e os processos e documentos em que são representados.

A classificação e descrição normalizada são técnicas que se adequam tanto ao tratamento de documentos como de dados e estruturas de dados, que se unem à experiência na criação de ontologias, dicionários de dados e outros recursos referenciais.

Os profissionais do arquivo contam, além disso, com o convencimento e com as pautas de trabalho adequadas, que tanto têm a oferecer no âmbito da gestão de dados. Critérios de normalização e de organização; organização e descrição como ferramentas perante potenciais excessos de captura e tratamento de informação, contextualização desde a criação como garantia de conservação e pertinência.

Esta abordagem não implica (não poderia ser de outra forma) erigir o arquivo como responsável único com respeito à gestão e tratamento de dados. Quando falamos de trabalhar com dados, do seu design e definição das interações dados-sistemas-documentos, os profissionais da gestão documental têm valiosas capacidades, competências e experiências, mas não é um trabalho que deva ser abordado de forma isolada. Será necessário trabalhar proximamente com profissionais das Tecnologias da Informação, com científicos de dados e, num contexto de administração pública eletrónica, com especialistas jurídicos, em que cada perfil seja capaz de proporcionar facetas valiosas de conhecimento e experiência. Só assim será possível abordar os desafios inerentes a este tipo de projetos.

Soluções metodológicas e soluções tecnológicas

Em qualquer caso, as ferramentas técnicas e plataformas de administração eletrónica devem estar à altura das exigências e necessidades apresentadas pela governança correta dos dados e dos perfis encarregados pela sua captura e tratamento.

É necessário contar com ferramentas que facilitem a criação ordenada e contextualizada de modelos de dados e dos seus produtos de conjuntos de dados da maior qualidade orientadas, como se abordava mais acima, à redução das cargas de trabalho derivadas da depuração de dados. Ferramentas que permitam, resumindo, utilizar e pôr em prática desde o design esse conhecimento e boas práticas existentes no nosso âmbito profissional e aplicá-los diretamente aos processos e procedimentos definidos na plataforma.

Para a criação de dados da maior qualidade, é essencial dispor de ferramentas orientadas á criação de estruturas de dados que permitam:

  • Definir e estabelecer de forma simples normas e regras de captura de dados específicas para cada tipologia documental e até para cada dado individual, incluindo formatos, validações e limites (por exemplo, campos Referência Cadastral ou correspondentes a um número de conta bancária, que dispõem das suas próprias lógicas de validação).
  • Estabelecer pautas de normalização de base para determinadas tipologias de dados, incluindo seleção entre valores predeterminados ou capturas automatizadas em função da natureza do dado.
  • Sistematizar a relação entre processos, dados e documentos, permitindo a relação de categorias e sistemas de classificação e facilitando, assim, a contextualização dos modelos de dados definidos na plataforma.
  • Responder a necessidades concretas derivadas da coexistência de diferentes línguas oficiais, oferecendo opções de tratamento unitário independentemente do idioma de captura utilizado.

A combinação de pautas, conhecimentos e técnicas existentes no âmbito do arquivo com ferramentas tecnológicas focadas neste âmbito terá como resultado natural a criação de estruturas de dados preparadas, desde a sua própria criação, para a produção de conjuntos de dados pertinentes, depurados, contextualizados e mais próximos à sua utilização, reutilização e exploração.

Compartir: