Cómo evitar convertir un datalake en un pantano de datos
La nube híbrida se ha establecido como el modelo operativo estándar para las empresas.
Según los resultados del Estudio de Datos de Cloudera, el 71% de las empresas españolas ya ha implantado un sistema de nube híbrida, dividiendo las cargas de trabajo entre la nube y on-premises. Aunque son mucho mayores los beneficios que las desventajas, la arquitectura de datos de la empresa debe ser adecuada, para evitar que la información quede atrapada sin poder extraer valor de la inmensa cantidad de datos estructurados y no estructurados que poseen las empresas.
Cloudera, la empresa de datos para la inteligencia artificial empresarial, desgrana las claves para desarrollar una estrategia de gestión del dato exitosa y que los data lakes no se vuelvan 'terrenos pantanosos':
• La gobernabilidad, clave en el ciclo de vida de los datos: El ciclo de vida de los datos se puede organizar en torno a la ingesta, la preparación, el análisis, la predicción y la publicación de los resultados.
Más allá de la planificación y estrategia, hay un requisito de mayor importancia para el éxito comercial: una gobernabilidad efectiva. Esta exige la gestión del ciclo de vida, en especial durante la fase de "análisis" y más en concreto en sectores altamente regulados como las telecomunicaciones y los servicios financieros, que manejan información altamente sensible.
• Flexibilidad como centro de la estrategia de datos: Tener capacidad de maniobra en la gestión de grandes cantidades de datos es vital. No solo debido al incremento en el volumen de datos gestionados y los entornos informáticos hiperdistribuidos, sino también debido a la volatilidad y la complejidad del entorno normativo. Algo que se ha visto recientemente a través de la aprobación de regulaciones como el GDPR o la reciente ley de IA, presentada en Europa.
Adelantarse a futuras regulaciones permitirá asegurar unas reglas de gobernabilidad adecuadas para cumplir con las regulaciones y legislaciones futuras de forma ágil.
• Un enfoque unificado: Las organizaciones deberían buscar migrar sus datos a un tejido que admita seguridad a nivel integral, gestión de políticas y gobernabilidad en múltiples data lakes abiertos, en los que los elementos que lo componen, como documentos, páginas web, aplicaciones o bases de datos aún puedan alojarse en múltiples nubes.
Las normativas y legislación en materia de datos pueden variar drásticamente en función del país. Por eso hay que asegurar que las nuevas estructuras tengan la suficiente flexibilidad como para aplicar reglas de gobernabilidad y controles de seguridad de manera individual a cada nube, según los requisitos de cada industria, la jurisdicción, el cliente y el país.
Con una arquitectura así se pueden detectar y catalogar automáticamente datos sensibles en toda la empresa, independientemente de donde estén alojados, y aplicar los controles apropiados según la política.
Dada la enorme cantidad de datos generados por las empresas de hoy en día y la cantidad de nuevas regulaciones de privacidad que están constantemente modificándose, las arquitecturas de datos unificadas son la forma de evitar una fragmentación de la seguridad y la gobernabilidad. Esto servirá para que las organizaciones puedan extraer el máximo potencial de sus datos.
En definitiva, elegir la arquitectura de datos que mejor se adapte, no solo facilitará la gestión de estos, además, evitará convertir un lago de datos en un opaco pantano.