Infraestrutura da Dimensão Técnica
A esfera técnica é uma dimensão que descreve a práxis das ações necessárias para garantir o acesso contínuo a materiais digitais.
A dimensão técnica é composta pelas infraestruturas de:
1. Digitalização 2. Armazenamento 3. Gerenciamento de objetos digitais
1. Digitalização – Esta infraestrutura apresenta sugestões técnicas para a captura e conversão da informação não digital para o suporte digital.
2. Armazenamento – A infraestrutura de armazenamento identifica uma série aspectos que devem ser levados em consideração no que diz respeito à arquitetura de gestão para preservação digital em longo prazo. Deve atuar em sintonia com a esfera tecnológica, visto que as infraestruturas de software, hardware dependem não apenas da qualidade e avanços tecnológicos dos equipamentos, mas principalmente das boas relações entre as equipes operacional, de Tecnologia da Informação e Técnicos de Informática.
3. Gerenciamento de objetos digitais – É a infraestrutura que orienta para como se obter o melhor desempenho dos elementos e práticas utilizadas para manter, preservar, agregando valor à informação digital ao longo de seu ciclo de vida. Estão inclusos as diretrizes de formato de arquivo e padrões de metadados e procedimentos utilizados para garantir a longevidade destes objetos digitais.
Infraestrutura para digitalização
A infraestrutura de digitalização da esfera técnica abarca os atributos de captura e conversão da informação não digital para o suporte digital. Desta forma, digitalizar é a técnica de captar a informação (textual, iconográfica, sonora, audiovisual, objetos tridimensionais) do mundo físico a transformando em dados digitais. Após convertida em digital a informação precisa ser armazenada e após estes procedimentos, sua conservação é a parte mais delicada da cadeia de preservação em longo prazo.
Atributos para Digitalização
A digitalização é um processo que compreende uma série de procedimentos técnicos que iniciam com a captura da informação não digital e se encerra com a conversão desta informação capturada para formatos que possibilitem o acesso e uso em longo prazo.
Um projeto de Preservação Digital não pode em hipótese alguma desconsiderar a infraestrutura técnica, visto que esta é a base da estrutura de qualquer intento de preservação digital. Sendo assim, a instrumentalização do projeto deve ser pensada antes de qualquer outra ação no planejamento, pois digitalização não é preservação digital, mas sem a digitalização a preservação digital em longo prazo não pode existir.
A descrição do equipamento para digitalização e armazenamento é fundamental e deve estar contida na página do framework de Preservação Digital (PDF) do repositório institucional no botão equipamentos do menu superior. Cada Instituição deve disponibilizar sua listagem individualmente, câmeras, mesas estativas (workstations), scanners e acessórios, Discos Rígidos (HDs) e outros equipamentos, como no exemplo da Documentação de Digitalização da Universidade da Colúmbia Britânica – UBC.
Além de garantir a organização do inventário dos equipamentos, esta ação auxilia a mitigar o risco de perdas, visto que ao documentar os equipamentos fica mais fácil observar potenciais vulnerabilidades, como por exemplo o tempo de vida útil de um HD.
A infraestrutura de captação da informação não digital compreende os equipamentos e suas técnicas de uso. O padrão básico para digitalização inclui os aparelhos de captura e acessórios. Os aparelhos podem ser do tipo scanner, mesa digitalizadora, câmeras fotográficas e alguns personalizados.
Equipamento para digitalização:
• Computador (de mesa ou notebook)
• Câmera (Lentes e bateria sobressalente) ou Scanner
• Mesa estativa
• Fotômetro
• Placa de Vidro
• Refletor com flash e barndoors (com estante)
• Lentes
• Guia colorido e escala
• Estabilizador (bivolt)
• Nobreak
O procedimento de conversão digital para preservação em longo prazo depende de uma infraestrutura de software que possibilite a conversão da informação digitalizada para o formato de preservação digital. O universo de formato para preservação digital é imenso, especialmente pelo fato de que cada projeto de preservação digital irá escolher aquele que melhor se adequa às suas necessidades, abaixo seguem alguns formatos direcionados para objetos armazenados em repositórios institucionais.
A ISO/TR 22299:2018 apresenta recomendações de formatos de arquivos digitais para armazenamento de longo prazo. Esta norma é aplicável à seleção de formatos de arquivo a serem utilizados para armazenar documentos eletrônicos. Ela fornece orientações que levam em consideração a durabilidade dos documentos num formato legível; a fidelidade ao original e integridade dos dados; a interoperabilidade, ou seja, independência da criação de aplicações, sistemas de informação e plataformas de entrega; a conformidade com leis e regulamentos relevantes e com especificações de formato; além da redução de custos através da redução do número de conversões/migrações ao longo do tempo. Segundo a NDSA formato de arquivo, são pacotes de informações que podem ser armazenados como arquivos de dados que consistem em uma codificação fixa serializada em bytes de um modelo de informação especificado e/ou uma codificação fixa dessa codificação em uma forma tangível em uma estrutura de armazenamento físico. Da mesma forma o dicionário doInterPARES 2 Project (2002-2007) define formato de arquivo com a “organização de dados em objetos digitais, geralmente projetada para facilitar o armazenamento, recuperação, processamento, apresentação e/ou transmissão de dados por software”, na perspectiva dos Arquivos. No ponto de vista da Ciência da Informação e da Computação é a forma como as informações em um arquivo são codificadas.
“Existem muitos formatos proprietários – quase todos os aplicativos têm o seu próprio, muitas vezes mudando com novas versões – bem como formatos de arquivo padrão, como RTF, TIFF e EPS. Em alguns sistemas, como o Apple Macintosh, as informações sobre o formato do arquivo e o aplicativo de origem fazem parte do arquivo, mas em outros sistemas cabe ao usuário saber qual é o formato, embora existam arquivos mais ou menos rígidos (Convenções de nomenclatura). A multiplicidade de formatos de arquivo é um problema contínuo tanto para desenvolvedores quanto para usuários de software” (InterPARES 2).
Definições à parte, dentre os métodos para mitigar o risco em Preservação Digital, segundo a Digital Preservation Coalition, a migração é uma estratégia que deve ser considerada, no que diz respeito aos formatos de arquivo, pois ela atua sobre circunstâncias de risco como a proliferação que acontece quando há um número elevado de formatos de arquivo e diferentes versões desses formatos e a obsolescência quando surgem novas versões ou os formatos se tornam inutilizáveis.
Uma importante observação foi feita pela Biblioteca da Universidade de Duke, Carolina do Norte, EUA, que categorizou a proteção de seus dados a partir de uma escala de níveis para preservação segundo o risco de obsolescência de seus formatos como alto, intermediário e baixo nível de preservação.
| Documentos | |||
| Nível Alto | Nível Intermediário | Nível Baixo | |
|
Processamento de texto |
PDF/A (.pdf)EPUB (.epub)Open Office (.sxw; .odt) | PDF (.pdf)Rich Text Format (.rtf)Microsoft Word (.docx) | Microsoft Word (.doc)Google Docs (.gdoc) |
| Texto | Texto Simples (.txt) | ||
| Texto Estruturado | XML (.xml) | HTML (.html)Folhas de estilo em cascata (.css)DTD (.dtd)Látex (.tex)Texto (.tex)Remarcação (.md) | |
| Apresentação | PDF (.pdf) | PowerPoint (.pptx)OpenOffice (.sxi/.odp) | |
| Materiais Audiovisuais | |||
| Imagem | TIFF (.tiff;.tif)PNG (.png)Scalable Vector Graphics (.svg) | JPG (.jpeg; .jpg; .jfif; .pjpeg; .pjp)Bitmap or BMP (.bmp)GIF (.gif)Google WebP (.webp)JPEG 2000 (.jp2) | Encapsulated Postscript (.eps; .epsf; .ps)GIF(.gif)Macromedia Flash (.swf)Photoshop (.psd; .psb; .acv; .atf)RAW (various) |
| Áudio | WAVE (.wav)Broadcast WAVE (.bwf)AIFF (.aif; .aiff) | MPEG Audio Layer III (.mp3)Advance Audio Coding (.mp4; .m4a; .aac) | Windows Media Audio (.wma) |
| Vídeo | FFV1Matroska Multimedia Container (.mkv)AVI (Audio Video Interleaved) (.avi)Digital Moving Picture Exchange (.dpx) | QuickTime Movie (.mov)Apple ProRes (.mov)MPEG-2 (.mpg; .mpeg)MPEG-4 (.mp4) | Windows Media Video (.wmv)High Efficiency Video Coding (.hevc) |
| Formato encapsulado (Archive File Formats) | |||
| MBox (.mbox)Internet Message Format (.eml) | Personal Storage Table (.pst)OLM (.olm) | Microsoft Outlook Item (.msg)PDF (.pdf) | |
| Archive | ZIP (.zip)Tape Archive (.tar) | CPIO (.cpio)gzip (.gz)7z (.7z) | bzip2 (.bz2)RAR (.rar) |
| 3D | |||
| Embedded TextureTextura incorporada | Extensible 3D (.x3d) | glTF (.gltf; .glb)Universal 3D (.u3d) | Filmbox (.fbx)Universal Scene Description (USD) (.usd; .usda; .usdc; .usdz) |
| No-Embedded TextureTextura não incorporada | Stereo Lithography (.stl)Reflectance Transformation Imaging (.rti)Polygon File Format (.ply)Wavefront (.obj)COLLADA Digital Asset Exchange (.dae)Blender 3D (.blend) | 3D Studio (.3ds) | |
| Software/Code (Código) | |||
| Computer Program Source Code (diversos) | Compiled or Executable Files(diversos) | ||
| Dados Estruturados | |||
| Dados tabulares | Comma Separated Values (.csv)Delimited Text (.txt) | Microsoft Excel (.xlsx)OpenOffice (.sxc; .ods) | Microsoft Excel (.xls) |
| Banco de dados | SQL DDL (.sql)Sqlite version 3 (.sqlite; various) | DBF (.dbf) | |
| Dados estatísticos | Comma Separated Values (.csv)Delimited Text (.txt)Delimited text with command file for statistical software | R (.rdata) | SPSS (.por, .sav)SAS (.sas7bcat)Stata (.dta)MatLab (.mat) |
| Geoespaciais | Geographic Markup Language (.gml)GeoTIFF (.tiff)GeoPackage Encoding Standard (OGC) Family (.gpkg) | ESRI Shapefiles (.shp; .shx; .dbf; various)GeoJSON (.geojson)Keyhole Markup Language (.kml, .kmz)LiDAR (.las, .laz)AutoCAD Drawing Interchange Format (.dxf) | ESRI/ArcGIS Geodatabase (.gdb)ESRI Interchange File Format (.eoo)CAD data (.dwg) |
| Outros | NetCDF (diversos) | HDF (diversos)JSON (.json) | CDF (diversos) |
Vale salientar que a preservação de softwares é uma questão complexa, pois pode haver muitas dependências que afetam a renderização do software original ou dos arquivos de código ou a geração do ambiente correto. Para uma análise completa sobre a preservação de software é possível obter mais informações no site do projeto francês Software Heritage que é apoiado pela Unesco.
Infraestrutura para armazenamento
A infraestrutura para o armazenamento da esfera técnica abarca os atributos para guardar os objetos digitais, outrora digitalizados, de forma que seja possível resgatar essa informação, bem como seja possível sua consulta e uso posteriores.
A estrutura de armazenamento para Preservação Digital deve considerar a proteção da informação, enfatizando o distanciamento do risco para os estoques digitais sob responsabilidade do repositório. Para tanto é necessário considerar a redundância e as camadas de acesso.
Para garantir a fiabilidade no armazenamento, é sugerido que a informação digitalizada seja depositada em um storage (palavra em inglês para armazém), que pode ser um hardware servidor de arquivos onde os objetos digitais ficaram armazenados. Mas este procedimento por si só acende o alerta da vulnerabilidade, sendo necessário aplicar o princípio da redundância, onde pelo três cópias do storage principal (repositório digital) devem existir. Por fim o acesso aos objetos digitais deve ser realizado a partir de um repositório exclusivo para consulta.
Este procedimento de camadas de acesso permite a criação de um sistema de escalonamento replicável dos arquivos entre dispositivos de armazenamento, podemos dividi-lo em 3 camadas:
1ª Camada – O repositório digital, deve ser visto como um cofre onde estão alocados os objetos digitais do repositório institucional.
2ª Camada – A aplicação da redundância das cópias auxilia em aumentar o nível de fiabilidade da segurança da informação. São necessários pelos menos 3 cópias da 1ª camada que devem estar distantes ao menos 50 km umas das outras. As cópias “backup” podem ser subdivididas em:
• 1º Backup - É o nível mais baixo de proteção, porém é válido e necessário. Comumente é feito em discos
rígidos (HDs) isolados e/ou externos e fitas LTO (Linear Tape-Open), não oferecendo muitas segurança quando o acervo
for de porte médio ou superior.• 2º Backup - É um nível intermediário que depende de muitas variáveis para garantir que a informação esteja em
segurança podem ser realizado a partir de uma estrutura composta de um servidor local ou em nuvem.
A primeira questão de vulnerabilidade é o custo para se mantar uma estrutura deste porte, seja própria ou de
terceiros.• 3º Backup - Este é o nível mais alto de segurança na atualidade, o princípio de cópias replicada por
compartilhamento. Nesta modalidade o custo se torna um fator mínimo perto dos benefícios de garantia de
longevidade dos acervo digital do repositório institucional. O princípio de Preservação Digital Distribuída
mais difundido até então é do modelo LOCKSS (Lots of Copies Keep Staff Safe).
3ª Camada – Representa um storage de nível baixo de segurança, porém mantem esta camada garante à estrutura de armazenamento o distanciamento do risco necessário para que vulnerabilidades não se instalem no ecossistema do repositório institucional.
Atributos para o armazenamento digital
Para que a infraestrutura de armazenamento funcione corretamente é necessário o apoio das equipes de tecnologia da informação e técnicos em informática da instituição, pois esta infraestrutura está ligada diretamente com a esfera tecnológica que depende exclusivamente de softwares e hardwares para existir. Sem o apoio destas equipes o processo pode acontecer, mas as chances de instalação do risco em curto-médio prazo no repositório institucional é altíssima.
Neste ambiente digital de guarda ficam alocados os arquivos que demandam atenção, especialmente das diretrizes de gerenciamento de objetos digitais. Neste contexto, armazenar não é apenas o ato de copiar objetos digitais para o disco rígido (HD), para o repositório digital ou subi-los na nuvem, demanda uma série de precauções para que seja garantida a preservação em longo prazo.
A diretriz de armazenamento mais eficaz para a manutenção e mitigação do risco é a redundância. Feito o armazenamento é hora de criar camadas de duplicação ou o backup. É necessário haver um armazém principal, uma espécie de cofre onde os arquivos matrizes possam ser alocados, partindo deste armazenamento segue a duplicação, os estoques digitais devem ser duplicados, criadas cópias destas matrizes, para que possam ser utilizadas e manuseadas sem a necessidade de acessar a matriz (o cofre), a partir da matriz devem ser feitos os backup. A duplicação serve para uso, os backup servem para garantir segurança na preservação. O repositório institucional juntamente com a equipe de TI deve elaborar “Opções e especificações de armazenamento”, este documento deve ser disponibilizado na página do Framework de Preservação Digital. Esta infraestrutura deve apresentar as opções de armazenamento do RI, bem como detalhar como este armazenamento é realizado, suas rotinas e histórico de backups.
Nesta etapa da gestão da preservação digital do repositório é essencial a aplicação da ferramenta dos Níveis de Preservação Digital (Levels of Digital Preservation – LoDP), especialmente quando em conjunto com as recomendações da ISO 16363:2012, existem requisitos da norma que estão ligados ao nível de armazenamento e localização geográfica, bem como ao nível de segurança da informação.
Infraestrutura para Gerenciamento de Objetos Digitais
A infraestrutura para o gerenciamento de objetos digitais da esfera técnica abarca os atributos para a manutenção dos objetos digitais que vão desde as diretrizes de formato de arquivo e padrões de metadados até procedimentos utilizados para garantir a longevidade destes objetos digitais.
A Society of American Archivists (SAA) entende que um Objeto Digital é uma informação em formato binário e seus metadados associados. Os objetos digitais podem ser simples ou complexos. Assim, objetos digitais simples são compostos de um único arquivo, como um PDF ou uma imagem, enquanto objetos digitais complexos são compostos de vários arquivos, como um site ou um livro digitalizado. Em qualquer caso, os objetos digitais incluem conteúdo informativo, bem como metadados que apoiam a administração, o acesso e a preservação (SAA, d/a).
Em Tecnologia da Informação há um campo de estudo para a gestão de ativos digitais – Digital Asset Management (DAM). A diferença entre um objeto e um ativo digital é que este último tem por natureza Direito Autoral agregado, enquanto o primeiro não. Logo todo ativo digital é um objeto digital, mas nem todo objeto digital é um ativo digital.
Assim todo Ativo Digital é um Objeto Digital, mas nem todo Objeto Digital é um ativo. Este discernimento é importante para se compreender que na Infraestrutura Técnica estão as diretrizes para o gerenciamento de objetos digitais. Estas diretrizes abrangem aspectos da Curadoria Digital, inclusive a aplicação do seu ciclo de vida (Digital Curation Life Circle).
A gestão dos objetos digitais além de considerar práticas de Curadoria Digital, também deve observar as definições dos Níveis de Preservação Digital da NDSA em conformidade com a ISO/TR 22299:2018 e as que discorrem sobre Metadados (ISO 23081:2006 e 2007, 19115-1:2014 e 19165-1:2018).
O formato de arquivo, os padrões de metadados e procedimentos são os pilares da gestão dos objetos digitais. É a partir destes que se torna possível pensar uma infraestrutura técnica para sua gestão. A NDSA define Formato de arquivo (File format) como pacotes de informações que podem ser armazenados como arquivos de dados que consistem em uma codificação fixa serializada em bytes de um modelo de informação especificado e/ou uma codificação fixa dessa codificação em uma forma tangível em uma estrutura de armazenamento físico. Os padrões de metadados mais difundidos são o PREMIS e o DUBLIN CORE, todavia cada Instituição pode adotar estes e mais outros conforme as necessidades do seu acervo digital.
Ao final do planejamento da esfera técnica, a instituição deve estabelecer quais os padrões, formatos de arquivo e procedimentos a serem utilizados no projeto de preservação digital do seu repositório digital.
No tocante aos formatos, a National Library of the Netherlands (BK), criou um modelo baseado em níveis de conhecimento (armazenado, identificado, conhecido) definidos no seu plano de preservação para descrever as diretrizes de formato de arquivo. Segundo a BK os níveis de conhecimento são pré-requisitos para implementar a preservação integral no futuro. São eles:
• Formato de arquivo armazenado: Devem ser verificados apenas quanto à corrupção de bits, verificando a soma de
verificação.
• Formato de arquivo identificado: Um formato de arquivo pode ser considerado ‘identificado’ se um ID PRONOM for
atribuído ao arquivo.
• Formato de arquivo conhecido: Um formato de arquivo “conhecido” pode ser totalmente preservado, pois implica
identificação, validação e extração de metadados técnicos.