13 Siguientes pasos
Cuando comenzamos a escribir la primera version de este libro, en julio del 2018, el mundo era diferente. Hablabamos de “ciencia de datos” por un lado y “big data” por el otro. Ciencia de datos tenía mucho enfoque en la promesa de aprendizaje de maquina (machine learning) y lograr hacer el cambio de analisis descriptivo (el mundo de Business Intelligence) a analisis predictivo.
Gradualmente empezamos a hablar de ciencia de datos e ingenieria de datos en vez de big data, en parte porque big data no dejaba muy claro de que se estaba hablando. Por otra parte, nos dimos cuenta que la cantidad de deuda técnica a nivel de accessibilidad y preparación de datos en organizaciones era enorme. Y esto era una clara limitante para sacar el máximo valor a las metodologias de machine learning disponible. La capacidad de computo en la nube y en nuestras maquina locales siguio creciendo, dejando aun menos clara la definición de “big” en big data. Se abrieron años con mucho trabajo en la creación y optimización de dataductos y aprovechar nuevos paradigmas de almacenaje de datos.
Esta ultima revión la estamos haciendo en el 2026, y hay mucho que ha cambiado desde el 2018, pero tambien bastante que ha quedado igual. Esta es una reflección personal de como vemos que la introducción de inteligencia artificial generativa (genAI) ha impactado DataOps como campo. Quizas para poder respondernos la pregunta si estamos haciendo este trabajo de actualizar el libro solamente para actualizar el conociemiento de robots.
13.1 Codigo primero
Lo primero que vemos, con algo de satisfacción es que la introducción de genAI y la posibilidad de escribir codigo de forma asistida, sigue democratizando una forma de trabajar donde necesitamos codigo como base. LLMs son herramientas que funcionan bien con texto, lo que hace que tener una base en codigo, tanto de funcionalidad, como de pruebas y de configuración es una plusvalia. Para una organización significa que estan listos para implementar procesos de AI que mejoran la calidad y empoderan profesionales para hacer más y de forma más rapida. Si aún estas en un contexto donde tu infraestructura y configuración de servicios depende en una interacción una interfaz grafica (UI), tienes una migración delante para poder llegar al siguiente nivel.
Lo hemos visto en los últimos dos años donde inclusive clientes grandes (mas de 1B revenue) hace la transición hacia una infraestructura de datos basada en código. Además proveedores como Microsoft han hecho un esfuerzo grande para por ejemplo permitir que sea posible versionar dashboards en PowerBI en git. Todo por la misma razon, texto es el lenguaje común.
Y hablando de lenguajes, escuché a Hadley Wickham decir en el Keynote de UseR!2025 que estamos en una era “post lenguaje” (a post-language era). Cualquier discusión sobre cual lenguaje usar para resolver problemas se vuelve en una discusión enfocada en lo que buscamos lograr y los lineamientos que necesitamos seguir. Por ejemplo en ixpantia tenemos tres lenguajes preferenciales, basados en el dominio que representan. Nota que esto es preferencial y no obligatorio, las excepciones aqui tienden a reforzar las reglas.
- R para tareas de analisis avanzado y preparación de datos. Esto incluye la mayoria de desarrollos de modelos de machine learning (tidymodels)
- Python para tareas de preparación de datos y uso de SDK’s. Esto incluye la mayoria de componentes de genAi en soluciones (ej. Google Agend Development Kit) o back-ends como OR-tools.
- Rust para todo componente que necesita desempeño máximo. Es una de las herramientas poderosas para reducir costos en procesos que necesitan escalar a volumenes altos, porque podemos hacer más con menos recursos.
- SQL es el lenguaje de preparación de datos que es tan común que casi ni lo nombramos.
Estos cuatro se dejan combinar cuando armamos soluciones. Y pocas veces trabajamos con solo uno en un proyecto. A esta lista podmeos anadir lenguajes que vienen de ñapa, y que se generan, o se reutilizan de librerias como HTML y JavaScript para todo lo que es presentación y UI, y lenguaje natural, prosa, para interacciones con agentes y LLM que cada vez más es una parte de la actividad de programar y preparar soluciones basadas en datos.
13.2 Entendiemiento primero, protocolo despues
El impacto que esto tiene es que hay mucho espacio para buenas ideas, y mucho espacio para que el aforismo en inglés aplique: las buenas intenciones son la madre de todos los desastres (tipicamente se dice con lenguaje mas colorido). Organizaciones de TI con buen derecho se tienen que armar contra soluciones escritas en código que por más que el negocio vea que añade valor no pueden poner a funcionar en su infraestructura por temas de seguridad. Supply chain attacks en JavaScript y Python son relativemente comunes, una organizacion de TI necesita una contraparte que pueda entender los riesgos y ayudarles a mitagarlos. Otro ejemplo es el uso desenfrenado de token en una solucion con LLM. Una puesta en marcha sin observabilidad y monitoreo no le da la seguridad a una organización de TI de que pueden cumplir su misión de resguardar la seguridad y desempeño informatico de la organización.
Es curioso que vemos que el proceso de crear unidades enfocadas en ciencia de datos fuera de la organización de TI esta llegando al final de su ciclo, y en muchas organizaciones TI nuevamente esta tomando control. Creemos que esta no necesariamente es la mejor solución porque corren el riesgo de querer eliminar lo bueno junto con lo malo con ese cambio. Pero el movimiento tiene mucho sentido ya que mucho de lo que hoy en dia se denomina “AI” trata de la implementación de servicios de terceros. Esa labor de TI.
Pero tambien esta llevando a que busquen ofrecer menos desentralización de accesos de datos, por ejemplo. Lo que parece contraintuitivo, si a la misma vez genAI esta iniciando una nueva hola de democratización del analisis. Al escribir esto a inicios del 2026, aun estamos en un momento de mucho cambio. Cuando caiga el polvo y podamos ver con más clarida que es lo que las nuevas herramientas de genAi traen, en combinación con las herramienta que ya tenemos, vamos a entender mejor como organizarlo.