Formatos de publicación de datos abiertos

Para que un dato se considere como dato abierto debe cumplir con ciertas características, una de ellas es que los datos deben estar disponibles en formatos de software no propietarios, en formatos abiertos.

Tim Berners-Lee, creador de la World Wide Web, sugirió un esquema de desarrollo de cinco estrellas para clasificar los datos en Internet, en relación a su nivel de apertura y el esfuerzo que supone extraer, procesar y vincular los datos publicados. De acuerdo con esto, archivos .PDF o .TXT con licencia abierta tienen una estrella, dado que extraer y estructurar los datos requiere procesos adicionales; los archivos .XLSX tienen dos estrellas pues requieren de un software propietario para su procesamiento; los archivos .CSV tienen tres estrellas ya que pueden procesarse con software libre. Los datos con cuatro estrellas son los integrados a la web (RDF) y con cinco estrellas los que se encuentran enlazados a otros datos (LOD).

Fuente: sitio web de Las Cinco Estrellas de los Datos Abiertos

Cuando se consulta el portal de Datos Abiertos del Área Metropolitana del Valle de Aburrá, es posible descargar los datos en los siguientes formatos:

.TXT

Extensión de archivo para documentos de texto plano, se conoce también como archivo de texto simple, texto sencillo o texto sin formato. Estos archivos se pueden crear, editar y leer por editores de texto en todos los sistemas operativos, lo que lo hace un formato universal y de uso frecuente para almacenar datos.

Los documentos de texto plano se componen de caracteres como letras, números y signos de puntuación, espacios, tabulaciones y saltos de línea, pero no incluyen información de texto enriquecido. Los caracteres se pueden codificar de distintos modos, dependiendo de la lengua usada. Algunos de los sistemas de codificación más utilizados son: ASCII, ISO-8859-1 o Latín-1 y UTF-8.

.CSV

Sigla de Comma Separated Values, en español Valores Separados por Comas, es un formato de texto compacto, adecuado para transferir grandes conjuntos de datos que tienen la misma estructura y se usan, generalmente, para importar o exportar bases de datos entre programas o aplicaciones. Los datos se representan en tablas, las columnas se separan por comas o punto y coma, y las filas por saltos de línea.

Los archivos .CSV pueden estructurarse en una hoja de cálculo usando la función de separar los datos en columnas y seleccionando como delimitadores los caracteres de separación de columnas (coma y punto y coma).

Aprende más sobre los archivos .CSV en el sitio web .CSV

Generar archivos con extensión .TXT o .CSV en un software propietario como Excel, es sencillo. Para ello se debe seleccionar la opción “guardar como” y en el tipo de archivo, elegir la extensión .TXT o .CSV para compartir la información en un formato libre. Es importante que el archivo sólo contenga la información necesaria, los datos organizados en filas y columnas, sin celdas agrupadas o de título.

.HTML

Siglas de HyperText Markup Language, en español Lenguaje de Marcas de Hipertexto, es el estándar para la elaboración de páginas web. La W3C, World Wide Web Consortium, organización que estandariza tecnologías web, definió la estructura básica y el código .HTML para la escritura e interpretación de contenidos de páginas en Internet (texto, imágenes, video, etc) que ha sido implementado en la mayoría de navegadores para visualizar la información en la red.

Es un formato abierto, evolución del «Estándar de Lenguaje de Marcado Generalizado» (SGML) desarrollado en IBM a finales de los años 60's. Su escritura se basa en etiquetas con las que se da estructura y formato al contenido. HTML soporta scripts que brindan instrucciones específicas a los navegadores, los más conocidos y utilizados son JavaScript y PHP.

Aprende más sobre los archivos .HTML en el sitio web W3C HTML

.XML

Del inglés Extensible Markup Language, se ha sido traducido como "Lenguaje de Marcado Extensible" o "Lenguaje de Marcas Extensible".

Es un metalenguaje extensible de etiquetas desarrollado por el W3C para almacenar datos en formato legible. Se trata de un metalenguaje porque define la estructura y la semántica de un documento digital, y es extensible porque no tiene un límite para la creación de etiquetas.

Se usa para conectar aplicaciones, es el estándar para el intercambio de información estructurada entre diferentes plataformas. Además, permite definir lenguajes específicos para un dominio y se puede utilizar en bases de datos, editores de texto y hojas de cálculo.

Aprende más sobre los archivos .XML en el sitio web W3C XML

.JSON

Sigla de JavaScript Object Notation en español Notación de Objetos de JavaScript, es un formato de datos ligero basado en texto estándar. Se utiliza frecuentemente para el intercambio de grandes volúmenes de datos estructurados y para visualizar información en páginas web.

Servicios de cartografía como Google Maps, redes sociales como Twitter, portales de Datos Abiertos como datos.gov.co, entre otros, entregan a sus usuarios los datos en este formato.

Aunque JSON es un formato de texto independiente, utiliza convenciones conocidas de las familias de lenguajes de programación C, C++, C #, Java, JavaScript, Perl, Python entre otros.

Aprende más sobre los archivos .JSON en el sitio web json.org

RDF

De Resource Description Framework, que se traduce como Marco de Descripción de Recursos. Se refiere a las especificaciones de la W3C para el modelado de información y la descripción de recursos que se implementa en Internet. Utiliza notaciones de sintaxis y formatos de serialización de datos en diferente formatos y facilita la utilización de vocabulario estándar reconocido sobre dominios de conocimiento concretos. Se expresa según la tripleta sujeto, predicado, objeto.

Hace parte de la web semántica y permite que el software automatizado almacene, intercambie y utilice información en máquinas distribuidas a través de la Web, lo que a su vez, permite a los usuarios manejar la información con mayor eficiencia y seguridad.

Aprende más sobre RDF en el sitio web W3C RDF

Otros formatos

.XLSX

Desde 2007 es la extensión de archivo de las hojas de cálculo de la aplicación Excel de Microsoft Office. Los datos almacenados en un archivo .XLSX generalmente se organizan en celdas, pueden contener caracteres alfanuméricos, a los cuales se les puede dar formato o usar en fórmulas, funciones y macros para la automatización de cálculos matemáticos.

Aunque Microsoft Excel es un software propietario o privativo, se utiliza en muchos sitios web para transferir datos porque su uso es muy común en universidades, entidades públicas y empresas privadas.

Los archivos .XLSX se pueden abrir con versiones anteriores de Microsoft Excel, con la ayuda de una extensión y son compatibles con otros software de hojas de cálculo como Numbers de Apple o hojas de cálculo de Google Drive, Apache OpenOffice y Free Office.

Aprende más sobre los archivos .XLSX en el sitio web Excel de Microsoft Office

.SHP

Shapefile es un formato de archivo para el intercambio de datos geográficos. Fue creado para ArcGIS, un software propietario para Sistemas de Información Geográfica que permite recopilar, organizar, administrar, analizar, compartir y distribuir este tipo de información. Su uso es muy expandido por entidades gubernamentales, investigadores, el sector educativo, los medios de comunicación y la empresa privada.

Los archivos .SHP almacenan la localización y los atributos de la información geográfica pero no permite guardar información topológica.

ArcGIS posibilita el acceso a la información desde diferentes dispositivos móviles, de escritorio y la integración con servicios web. La información geográfica disponible en ArcGIS pueda ser compartida y aprovechada fácilmente pues la infraestructura del software está basada en la nube para facilitar el trabajo colaborativo.

Aprende más sobre Sistemas de Información Geográfica en el sitio web ArcGIS

Los archivos de los datos que se van a hacer públicos, sin importar su formato, deben estar acompañados de documentación con información sobre los metadatos que contienen para facilitar el trabajo de quienes van a usar esta información.