domingo, 9 de setembro de 2007

Qualidade de dados na era do compartilhamento

O que é um mapa? Um mapa é uma abstração da realidade em um determinado momento. É inerente a este processo que aconteçam incertezas variadas que, ao contrário do que se pensa, não são apenas questões embaraçosas das quais temos que nos livrar, mas fatores cujo conhecimento é primordial para avaliação crítica do processo cartográfico e da adequação de uso do produto para determinado fim.

Muitas das normas atuais de qualidade cartográfica (como por exemplo, as Instruções Reguladoras das Normas Técnicas da Cartografia Nacional – decreto nº 89.817/1984) ainda são datadas da era dos mapas analógicos, e não são necessariamente aplicáveis às transformações tecnológicas atuais. Por exemplo, o conceito clássico de que o dado é apropriado para uso se for adequado à finalidade para o qual foi criado, não faz mais sentido num contexto atual em que informações são compartilhadas por vários usuários e, muitas vezes, são aproveitadas para finalidades bem diversas da necessidade original para que foram criadas. Estas informações geralmente foram capturadas e manipuladas ao longo de vários anos, através de diferentes técnicas, pessoas, softwares e procedimentos, e contêm inconsistências.

A solução para este impasse é que a qualidade dos dados precisa ser aferida e documentada, de modo que o usuário final tenha elementos para decidir se o seu uso é apropriado ou não para determinada situação.

Conceitos gerais

Quando se fala em erro na área de cartografia, é inevitável que nos deparemos com a diferença de definições entre acurácia e precisão. No entanto, por mais que possam parecer conceitos já “batidos”, seu entendimento correto é fundamental para a análise de dados espaciais. Por exemplo, medições de GPS pós-processadas nos fornecem automaticamente informações quanto à precisão, mas não à acurácia. Outro conceito básico é com relação aos erros sistemáticos, que se distribuem uniformemente a todo conjunto de dados, e os erros randômicos, distribuídos aleatoriamente e que têm um tratamento diferente, necessitando de modelagem estatística.

Com relação à origem dos dados, as imprecisões provêm de diversas fontes: precisão do equipamento, no caso da topografia, altitude de vôo e apoio de campo, no caso da fotogrametria, resolução espacial, no caso das imagens de satélite, entre outros. Somam-se ainda as combinações de dados de diversas fontes e escalas, intercâmbios de formatos, transformações raster/vetor, conversões de datum e projeções, generalizações, escanerizações, digitalizações, etc.. Enfim, durante o processo se acumulam e propagam uma infinidade de incertezas. Além dos erros posicionais, ainda existe a inexatidão na classificação dos atributos, muitas vezes causada pela própria distribuição “fuzzy” das classes em campo. Outra consistência difícil de ser obtida é a semântica, isto é, o que representa uma determinada classe (“floresta”, por exemplo) é entendido damesma forma pelo produtor e pelos usuários dos dados?

Toda essa gama de erros pode ser minimizada durante o processo de mapeamento, armazenagem e distribuição de dados, através de procedimentos de controle de qualidade, mas nunca chegará a ser completamente exterminada.

A era digital ainda nos permite uma falsa impressão de acurácia: com zooms sucessivos tem-se a impressão de que o dado pode ser utilizado virtualmente em qualquer escala. A capacidade computacional também faz com que se trabalhe com algarismos significativos muito superiores à realidade. Por exemplo, qual a finalidade de se representar com várias casas decimais coordenadas UTM obtidas através de um GPS de navegação? A informação assim passa uma falsa impressão de dado extremamente preciso.

Processo de qualidade

Estabelecer procedimentos para se avaliar, documentar e garantir a qualidade depende de fatores culturais e organizacionais, exigindo-se treinamento, disciplina, planejamento e trabalho em equipe.

A princípio, uma das ações mais efetivas é trabalhar na prevenção de erros quando possível, evitando os custos do fato dos dados já terem sido usados no momento em que é percebida a necessidade de voltar e corrigir as informações. Princípios de qualidade total, como aplicar ciclos Planejar, Executar, Verificar e Agir (PDCA), podem ser valiosos. Instrumentos simples como referências cruzadas (os dados caíram no município correto? sobre o mar?) e máscara de coordenadas máximas e mínimas ajudam a evitar erros grosseiros.

O ideal é que a responsabilidade sobre a qualidade dos dados seja do criador dos dados, ou então da fonte mais próxima possível do criador. No entanto, é vital que se tenha também este cuidado quem administra ou distribui as informações, e até mesmo que o usuário também seja co-responsável, deixando sempre um canal aberto para feedback e correções, pois também é dele o interesse em manter a qualidade mais alta possível.

Se a organização pensar nos seus dados como um patrimônio de longo prazo, o investimento em qualidade se justifica. Melhora o processo institucional como um todo, viabiliza parcerias, minimiza a duplicação de trabalho, reforça a credibilidade, a transparência e evita o uso incorreto de informações.

Padrões e metadados

Para que as informações de erros sejam eficientemente relatadas e acessadas pelo usuário, há necessidade de que se siga uma metodologia padrão para o entendimento mútuo dos resultados.

Nos Estados Unidos, foi criado o Padrão Nacional de Acurácia de Dados Espaciais (NSSD na sigla em inglês), que estabelece uma metodologia de aferição de erros em dados espaciais. O padrão determina a metodologia para que se faça a conferência de uma série de pontos do conjunto de dados com um outro conjunto independente, com acurácia superior. Os resultados para um grau de confiança de 95% então são descritos em um formulário padrão, posteriormente agregados aos metadados correspondentes.

A ISO TC 211 (www.isotc211.org) é o comitê da International Organization for Standardization (ISO), responsável pela série de padrões ISO relacionados à informação geográfica. No assunto “qualidade de dados”, são três padrões já lançados, além da subdivisão de metadados sobre qualidade de dados no padrão ISO 19115: - 19113 - Princípios da qualidade, incluindo elementos e subelementos a serem avaliados; - 19114 - Procedimentos de avaliação da qualidade, por amostragem, processamento computacional ou por dedução indireta por comparação com dados de nível de qualidade aceitável; - 19138 - Propõe uma série de medidas para os subelementos estabelecidos na ISO 19113.

O OpenGIS mantém um grupo de trabalho especialmente trabalhando no tópico qualidade de dados (www.opengeospatial.org/projects/groups/dqwg) que, entre outras atribuições, procura estabelecer uma certificação de qualidade de dados baseada nas normas ISO existentes. No Brasil, a Concar também tem um comitê especializado no assunto, o Comitê de Classificação de Produtos (www.concar.ibge.gov.br).

Vivendo com a incerteza

Uma vez que a incerteza é inerente aos dados geográficos, como conviver com ela? O pior risco é o da incerteza desconhecida pois, para o usuário sem informações sobre a qualidade de dados, é muito difícil julgar qual informação está correta.

- Uma alternativa é representar, quando possível, o erro graficamente através de círculos ou elipses de erros. Ecótonos ou zonas de transição podem ser representados por buffers, acompanhando as linhas que dividem classes de vegetação, por exemplo;- Em caso de ferramentas de visualização de dados via internet (um WMS, por exemplo), pode-se considerar desligar automaticamente os layers, se o zoom ultrapassar o recomendável para a escala que foi produzido o dado. Sempre é importante também deixar os metadados completos e acessíveis;- Ferramentas de integração de dados online são uma perspectiva para o futuro. O ideal é que essa integração seja feita no cliente. Ou seja, é inviável alterar uma base de dados para que se ajuste à outra, mesmo porque não há dados “certos” quando estamos lidando com múltiplas fontes distribuídas.

De toda forma, o melhor é que os riscos sejam avaliados e documentados. É claro que os tomadores de decisão prefeririam um clima de certeza, mas na impossibilidade, é melhor ter uma avaliação de risco de acordo com as probabilidades de erro, evitando inclusive problemas nos aspectos referentes a responsabilidades legais sobre os dados.

Silvana Phillipi Camboim
Engenheira cartógrafa e diretora da Geoplus - Geotecnologia e Informática Ltda
silvana@geoplus.com.br

(Disponível em: www.mundogeo.com.br)