Datatones para la innovación abierta

ixpantia organizó un nuevo datatón que se benefició de nuestro conocimiento técnico para hacer análisis exploratorios eficaces con tecnologías de código abierto. Los participantes fueron en su mayoría profesionales con amplio talento y excelente aptitud para contribuir y generar valor.

German Retana https://germanretana.net (ixpantia)https://www.ixpantia.com
04-07-20

El sábado 7 de marzo del 2020 se llevó a cabo la celebración del Open Data Day 2020 bajo el auspicio del Gobierno Abierto de Costa Rica. El equipo de dicha entidad nos contactó para invitarnos a colaborar con una asignación clara en mente para nosotros: organizar el Datatón, un componente importante de la celebración. Según Geannina Sojo, Coordinadora de Gobierno Abierto, “el aporte de ixpantia en la Datatón agregó valor a la dinámica propuesta, y a la generación de capacidades en los distintos participantes.”

Aprovechando lecciones aprendidas

El objetivo del Datatón fue que los participantes realizaran análisis exploratorios con los datos abiertos disponibles del gobierno de Costa Rica usando herramientas de código abierto. En el primer Datatón de Colaboración Ciudadana, impulsado por el San Carlos R User Group en agosto 2019 y que apoyamos en pleno, notamos que el día del evento los participantes se retrasaron intentando cargar y leer los conjuntos de datos. Para evitarlo esta vez, previo al evento, ixpantia y un equipo de voluntarios (a quienes les debemos un gran agradecimiento) allanamos el camino. Primero identificamos las fuentes de datos disponibles, lo que llevó a un inventario de 45 fuentes (los interesados pueden explorar la lista). Luego escogimos las más prometedoras, las procesamos para llevarlas a formatos analizables, y en algunos casos desarrollamos exploraciones iniciales. Finalmente, todo ese trabajo lo dejamos listo en el repositorio de código del evento para que los participantes del Datatón pudieran llegar al mismo a concentrarse sólo en analizar la información en los datos. Es decir, desde el inicio generamos procesos reproducibles a base de código.

Ejes y aprendizajes

Las exploraciones de datos se organizaron en torno a los 4 ejes temáticos del Open Data Day: medio ambiente, fiscalización de flujos de dinero público, mapeo abierto y desarrollo equitativo. A continuación los highlights de lo que los equipos que se enfocaron en cada tema descubrieron y aprendieron.

Medio ambiente

Presentación del equipo enfocado en datos ambientales.
Presentación del equipo enfocado en datos ambientales.

El equipo enfocado en datos sobre medio ambiente trabajó con fuentes de datos como el balance energético del MINAE, las pérdidas por desastres naturales de MIDEPLAN, y las cuentas ambientales del BCCR, entre otras. Lo más difícil para el equipo fue interpretar y lograr ingerir archivos en Excel que están diseñados para ser reportes y no como conjuntos de datos en forma de tablas homogéneas. Si las instituciones ofrecieran al público más “tablas” y menos “reportes”, se le podría sacar más provecho a su información.

Fiscalización de flujos de dinero público

Presentación del equipo enfocado en fiscalización de flujos de dinero público.
Presentación del equipo enfocado en fiscalización de flujos de dinero público.

Uno de los equipos más grandes fue el interesado en datos asociados a flujos de dinero público. Trabajaron con datos del banco de proyectos de inversión pública de MIDEPLAN y de empleo público del Ministerio de Hacienda. También exploraron finanzas públicas a nivel de ingresos y gastos del gobierno central y las transferencias hechas a instituciones, esto con datos de la Contraloría General de la República. Además de generar estadísticas descriptivas sobre dichos flujos, mencionaron que en futuros datatones les gustaría cruzar fuentes de datos, y por ejemplo asociar las inversiones hechas por FODESAF con los índices de pobreza.

Mapeo abierto

El equipo de mapeo abierto fue el que enfrentó mayores dificultades técnicas, las cuales a su vez nos dejaron importantes aprendizajes para futuros datatones. Primero, los mapas se cargan y manipulan de manera dinámica a través de APIs que requieren de una buena conexión a Internet; sin ella la capacidad de trabajo se ve limitada. Por otra parte, los paquetes y librerías que se requieren son muy especializadas, y los usuarios de Linux tuvieron dificultades para instalar todas las dependencias antes de comenzar. Finalmente, hay tipos de datos que no se pueden cargar directamente desde lenguajes como R, sino que primero deben ser convertidos usando otras herramientas. Los dos puntos anteriores evidencian la mayor preparación requerida para trabajar con datos geoespaciales en comparación con las tradicionales tablas de datos.