Dados Científicos: como construir metadados, descrição, readme, dicionário-de-dados e mais

Gerenciar, organizar e descrever dados de pesquisa ou dados científicos não são tarefas simples, mas absolutamente necessárias. É fundamental dedicar atenção aos METADADOS, DESCRIÇÃO, README, DICIONÁRIO DE DADOS, CITAÇÕES e mesmo a DOCUMENTAÇÃO DE DADOS, de modo que as informações possam ajudar você e outras pessoas a entender seus dados no futuro; e entender os processos que você seguiu para coletar, processar, analisar e apresentar seus dados.

Depois que seus dados são publicados ou compartilhados e as questões de acesso e propriedade consideradas, os dados se tornam detectáveis ​​e podem ser reutilizados. Repositórios e portais permitem a descoberta de dados publicando descrições de dados (‘metadados’) sobre os dados que eles contêm. A maioria dos repositórios fornece acesso aos próprios dados. A Universidade de São Paulo mantém o Repositório de Dados Científicos

Esta matéria é uma compilação de informações sobre elementos importantes que identificam, explicam e tornam dados e conjuntos de dados mais compreensíveis, potencializando seu reuso.

== METADADOS ==

Metadados são informações estruturadas que descrevem e permitem localizar, gerenciar, controlar e preservar outras informações (ou seja, dados) ao longo do tempo. Os metadados têm a mesma função de um rótulo . Assim como outros rótulos, os metadados fornecem informações sobre um objeto. Metadados são documentações que descrevem dados. Descrever e documentar adequadamente os dados permite que os usuários (incluindo você) entendam e rastreiem detalhes importantes do trabalho. Ter metadados sobre os dados também facilita a pesquisa e recuperação dos dados quando depositados em um repositório de dados.

Existem dois grupos distintos de metadados: descritivos e técnicos .

  • Metadados descritivos descrevem os próprios dados; por exemplo Título, Autor, Assuntos, etc.
  • Metadados técnicos descrevem os meios pelos quais o objeto digital foi criado, por exemplo, tipo de dados e configurações.

Metadados ricamente descritos são a chave para tornar os dados de pesquisa publicáveis, detectáveis, citáveis ​​e reutilizáveis ​​em longo prazo. A coleta, atualização e manutenção de metadados são inclusões necessárias no planejamento e orçamento de todos os projetos de pesquisa. Como os objetos de dados digitais costumam mudar de localização, o gerenciamento do link entre os dados e os metadados é crítico e existem tecnologias, por exemplo, identificadores persistentes que suportam esse link persistente de dados e metadados. Use um ou vários dos diversos padrões de metadados estabelecidos, tanto quanto possível: se seu projeto for o único a usar um determinado conjunto de elementos de metadados, ele criará uma barreira para interoperabilidade e reutilização. [2]

Caso esteja trabalhando com grandes conjuntos de dados, bancos de dados ou sistemas de gerenciamento de dados, consulte sua escola para obter conselhos sobre os padrões de metadados que podem ser apropriados para sua área de pesquisa. As disciplinas também estão estabelecendo seus próprios padrões de metadados. Os padrões podem incluir padrões de conteúdo e vocabulário. Um vocabulário estabelece a linguagem comum que uma disciplina concordou em usar para se referir a conceitos de interesse para aquela disciplina. Consulte também as NOTAS ao final desta matéria.

== DESCRIÇÃO ==

A descrição e explicação são criadas em dois níveis:

Nível de estudo: fornece uma visão geral do contexto e desenho da pesquisa, métodos de coleta de dados, preparação de dados e resultados ou descobertas. Recomenda-se que o pesquisador, seja docente ou discente, mantenha registros detalhados descrevendo os métodos usados ​​e os resultados observados, bem como registros de quaisquer aprovações concedidas como parte do processo de pesquisa, incluindo o respeito a códigos de conduta e recomendações éticas.

Nível de dados: podem ser incorporados aos dados (por exemplo, cabeçalhos em uma transcrição de entrevista) ou registrados em um documento estruturado. Pode incluir:

  • nomes e versões de arquivos
  • descrições de variáveis, tipos de dados e valores
  • localização das colunas do cabeçalho
  • explicação de códigos ou sistemas de classificação
  • explicações de valores ausentes
  • informações de software ou hardware específicas para a criação de um determinado conjunto de dados [1].

== README ==

Um documento README é uma maneira clássica de registrar documentação explicativa. Um README é um documento de texto simples que deve ser armazenado junto com um arquivo de dados. Os READMEs são iniciados durante o processo de coleta de dados e atualizados conforme o progresso da pesquisa. A maneira mais fácil de começar é com um esboço. Aqui está um exemplo publicado na DRYAD. Aqui há um template da Cornell University e um Esboço e boas práticas para escrever documentos README, incluindo exemplos. [3].

Melhores Práticas de README

  • Crie arquivos leia-me para “clusters” lógicos de dados. Em muitos casos, será apropriado criar um documento para um conjunto de dados que possui vários arquivos relacionados e formatados de forma semelhante, ou arquivos que são agrupados logicamente para uso (por exemplo, uma coleção de scripts Matlab). Às vezes, pode fazer sentido criar um leia-me para um único arquivo de dados.
  • Nomeie o leia-me para que seja facilmente associado aos arquivos de dados que descreve.
  • Escreva seu documento leia-me como um arquivo de texto simples , evitando formatos proprietários, como o MS Word, sempre que possível. Formate o documento leia-me para que seja fácil de entender (por exemplo, separe as informações importantes com linhas em branco, em vez de ter todas as informações em um longo parágrafo).
  • Formate vários arquivos leia-me de forma idêntica. Apresente as informações na mesma ordem, usando a mesma terminologia.
  • Use formatos de data padronizados . Formato sugerido: padrão de data W3C / ISO 8601 , que especifica a notação padrão internacional de AAAA-MM-DD .
  • Siga as convenções científicas de sua disciplina para nomes e palavras-chave taxonômicas, geoespaciais e geológicas. Sempre que possível, use termos de taxonomias e vocabulários padronizados, alguns dos quais estão listados AQUI.

== DICIONÁRIOS DE DADOS ==

Um dicionário de dados é uma coleção de nomes, atributos e definições sobre elementos de dados que estão sendo usados ​​em seu estudo. Ao incluir um dicionário de dados, você garante um uso padrão de variáveis ​​em uma coorte de pesquisadores.

Um dicionário de dados é fundamental para tornar sua pesquisa mais reproduzível, pois permite que outras pessoas entendam seus dados. O objetivo de um dicionário de dados é explicar o que todos os nomes e valores de variáveis ​​em sua planilha realmente significam.

Nomes de variáveis

A primeira coluna deve conter os nomes das variáveis ​​exatamente como aparecem na planilha.

Nome de variável legível

Esta coluna deve conter nomes de variáveis ​​curtos, mas legíveis por humanos

  • Por exemplo, se ‘VAR1’ é um nome de variável que se refere ao peso, então um nome de variável legível apropriado para VAR1 é ‘peso’.
  • Você pode usar espaços, caracteres e letras maiúsculas.
  • Este é o nome que você usaria para rotular gráficos e outras figuras.

Unidades de medida

Esta coluna deve conter as unidades de medida da variável.

  • Por exemplo, se uma coluna contém medidas de tempo, deve ficar claro se elas são medidas em horas, minutos ou segundos.

Valores permitidos

Uma coluna deve conter o intervalo de valores ou valores aceitos para a variável.

  • Isso ajuda a identificar erros de entrada de dados.
  • Os valores mínimo e máximo devem ser incluídos.
  • Os valores escolhidos (por exemplo, “masculino”, “feminino”) devem ser incluídos e detalhados, se necessário, na coluna de descrição (ver abaixo).

Definição da variável

Esta coluna deve conter uma definição da variável.

  • A definição da variável reflete a maneira como você usa o termo e pretende que ele seja usado por outras pessoas que desejam compreender o seu trabalho.
  • Embora existam muitos tipos de definição, sempre que possível, forneça uma definição com a seguinte forma de gênero-differentia :

“A é um B que Cs.”

  • Por exemplo, “Uma a) atitude é ab) disposição c) pensar ou sentir que é sobre algo ou alguém, normalmente aquele que se reflete no comportamento de uma pessoa.”
  • Evite definições circulares (por exemplo, “Uma bola de beisebol é uma bola usada no beisebol.”)

Sinônimos para o nome da variável (opcional)

  • Esta coluna deve conter, se relevante, uma ou mais palavras que podem ser substituídas pelo nome da variável.
  • Esses sinônimos devem refletir o significado do nome da variável conforme você o usa, e não apenas porque o nome da variável pode ser usado em um contexto diferente.
  • Novamente, o objetivo é transmitir o significado do termo variável que você usa em seus dados.

Descrição da variável (opcional)

A coluna final deve conter, quando necessário, uma explicação mais longa da variável.

  • Esta é uma descrição legível por humanos com informações suficientes para que outras pessoas entendam a que a variável se refere.
  • Ele também deve explicar os termos na definição da variável com mais profundidade, se necessário. Por exemplo, uma descrição da variável pode esclarecer o que se entende por ‘disposição’ na definição acima.
  • Pode fornecer fontes para definições, se essas definições não forem do próprio pesquisador.

Outros recursos

Consulte este Guia para fazer um dicionário de dados, incluindo exemplos

== CITAÇÕES DE DADOS==

A citação de dados refere-se à prática de fornecer uma referência aos dados da mesma maneira que os pesquisadores fornecem rotineiramente uma referência bibliográfica para outros recursos acadêmicos.

Como referenciar Dados de Pesquisa

  • BARNETT, C.L.; BERESFORD, N.A.; WALKER, L.A.; BAXTER, M.; WELLS, C.; COPPLESTONE, D. Element and radionucleide concentrations in representative species of the ICRP’s reference animals and plants and associated soils from a forest in North-west England. NERC — Environmental Information Data Centre, 2013. Disponível em: <http://dx.doi.org/10.5285/e40b53d4-6699-4557-bd55-10d196ece9ea> Acesso em 06 dez. 2016.
  • U.S. Department of Health and Human Services. Substance Abuse and Mental Health Services Administration. Office of Applied Studies. Treatment episode data set — discharges (TEDS-D) — concatenated, 2006 to 2011 [Data set]. doi: http://dx.doi.org/10.3886/ICPSR30122.v2 – 2013.
  • YOON, J; SOFAER, H.R, SILLET, T. S, MORRISON, S.A., GHALAMBOR, C.K. Data from: The relationship between female brooding and male nestling provisioning: does climate underlie geographic variation in sex roles? Journal of Avian Biology, June 2016. Disponível em: < http://dx.doi.org/10.5061/dryad.f89h2> Acesso em: 06 dez. 2016. [4]

== DOCUMENTAÇÃO DE DADOS ==

Uma boa documentação de dados inclui informações sobre:

  • o contexto da coleta de dados: histórico do projeto, objetivo, objetivos e hipóteses
  • métodos de coleta de dados: amostragem, processo de coleta de dados, instrumentos usados, hardware e software usados, escala e resolução, cobertura temporal e geográfica e fontes de dados secundárias usadas
  • estrutura do conjunto de dados de arquivos de dados, casos de estudo, relações entre arquivos
  • validação de dados, verificação, verificação, limpeza e procedimentos de garantia de qualidade realizados
  • alterações feitas nos dados ao longo do tempo, desde sua criação original e identificação de diferentes versões de arquivos de dados
  • informações sobre acesso e condições de uso ou sigilo de dados

No nível dos dados, os conjuntos de dados também devem ser documentados com:

  • nomes, rótulos e descrições para variáveis, registros e seus valores
  • explicação dos códigos e esquemas de classificação usados
  • códigos de, e razões para, valores ausentes
  • dados derivados criados após a coleta, com código, algoritmo ou arquivo de comando usado para criá-los
  • variáveis ​​de ponderação e bruto criadas
  • listagem de dados com descrições de casos, indivíduos ou itens estudados

As descrições de nível de variável podem ser incorporadas a um próprio conjunto de dados como metadados. Outra documentação pode estar contida em guias do usuário, relatórios, publicações, papéis de trabalho e livros de laboratório (consulte Gerenciando e compartilhando dados no UK Data [5].

== CURSOS ==

MANTRA. Research Data Management Training: https://mantra.ed.ac.uk/

== NOTAS ==

Alguns exemplos específicos de padrões de metadados, gerais e específicos de domínio são:

  • Dublin Core  – padrão de metadados agnóstico de domínio, básico e amplamente usado
  • DDI  (Data Documentation Initiative) – padrão comum para ciências sociais, comportamentais e econômicas, incluindo dados de pesquisa
  • EML  (Ecological Metadata Language) – específico para disciplinas de ecologia
  • ISO 19115  e  FGDC-CSDGM  (Padrão de Conteúdo do Comitê de Dados Geográficos Federais para Metadados Geoespaciais Digitais) – para descrever informações geoespaciais
  • MINSEQE  (informações mínimas sobre experimentos de SEQeuencing de alto rendimento) – padrão de genômica
  • FITS  (Flexible Image Transport System) – padrão de arquivo digital de astronomia que inclui metadados estruturados e incorporados
  • MIBBI  – Informações Mínimas para Investigações Biológicas e Biomédicas

Informação relacionada

Melhores práticas na criação de metadados. ICPSR. http://www.icpsr.umich.edu/icpsrweb/content/deposit/guide/chapter3docs.html . Parte do Guia para Preparação e Arquivamento de Dados em Ciências Sociais do ICPSR.

Melhores práticas de metadados. DataONE. http://www.dataone.org/best-practices/metadata

Serviços de metadados. Grupo de serviços de gerenciamento de dados de pesquisa da Cornell. http://data.research.cornell.edu/services#Metadata

Informações mínimas para investigações biológicas e biomédicas. Projeto MIBBI. https://biosharing.org/standards/?selected_facets=isMIBBI:true&view=table . Diretrizes de informações mínimas de diversas comunidades de biociências.

== REFERÊNCIAS ==

[1] MASSEY UNIVERSITY. Library Services. Descreva seus dados de pesquisa. Disponível em: https://www.massey.ac.nz/massey/research/library/library-services/research-services/manage-data   Acesso em 25 out. 2021.

[2] AUSTRALIAN NATIONAL DATA SERVICE. Metadados. Disponível em: https://www.ands.org.au/guides/metadata-working Acesso em 25 out. 2021.

[3] CORNELL UNIVERSITY. Guide to writing “readme” style metadata. Disponível em: https://data.research.cornell.edu/content/readme. Acesso em 25 out. 2021.

[4] DUDZIAK, Elisabeth. Dados de Pesquisa agora devem ser armazenados e citados.  2016. Disponível em: <https://www.aguia.usp.br/?p=6189> Acesso em: 25 out. 2021.

[5] UNIVERSITY OF PITTSBURG. Research Data Management. Disponível em: http://www.data-archive.ac.uk/media/2894/managingsharing.pdf Acesso em: 27 out. 2021.