La gestión adecuada de datos es fundamental en estos días. Estamos hablando de arquitectura de datos y gobernanza de datos. Esto se logra a través de políticas que se relacionan con cómo se crean o recopilan los datos y cómo se utilizan. Y esto a menudo está dictado por leyes y regulaciones. Por lo tanto, existen diferentes reglas en diferentes partes del mundo sobre cómo se recopilan y utilizan los datos. Como por ejemplo las leyes de protección de datos y otras políticas que se deben cumplir. Si esas políticas se diseñan correctamente y la concienciación y la capacitación de los usuarios, los hacen conscientes de esas políticas y la relevancia de las mismas. Entonces se puede lograr el cumplimiento normativo. Pero esto por sí solo no será efectivo, es necesario un monitoreo continuo del uso de datos y cumplimiento de las políticas y controles de seguridad que protegen esos activos de datos.
Esto no es algo que se haga de una sola vez, lo primero que debemos hacer es identificar los activos de datos que tienen valor para la organización. A menudo, es difícil determinar esto hasta que organizamos esos datos en información. De modo que podemos inventariar las ubicaciones de almacenamiento de los datos disponibles. Por ejemplo, en una matriz de almacenamiento local, en la nube. También pueden estar en los teléfonos de los usuarios.También hay que determinar los usuarios y grupos que tenemos. Y asegurarnos de que las listas de control de acceso, o ACL, otorguen solo los permisos necesarios para que los usuarios completen las tareas del trabajo, y nada más. La arquitectura de datos en la gobernanza también se ocupa de clasificar los activos de datos. Consiste en agregar información adicional, etiquetas o metadatos adicionales de forma que podamos asignar etiquetas de confidencialidad a los datos. Por tanto, podrían utilizarse categorías de clasificación. Por ejemplo, podríamos marcar como confidencial ciertos archivos almacenados en un servidor que contiene tarjetas de crédito. Existe una variedad de herramientas que podemos usar para hacer esto. ¿por qué tenemos que molestarnos en pasar por esto? ¿Por qué asignar una etiqueta de información confidencial a archivos que contienen información de tarjetas de crédito?
Es necesario porque luego, luego podemos asignar niveles de autorización de seguridad o permisos basados en esas etiquetas y la clasificación de esos datos. La arquitectura y la gobernanza de datos también se ocupa del cumplimiento de las leyes y regulaciones. Y esto variará en diferentes jurisdicciones legales alrededor del mundo. Por lo tanto, como especialistas de TI en datos, debemos estar bien informados sobre qué leyes y regulaciones protegen los datos. Dónde se recopilarán y utilizarán los datos de los que somos responsables. Privacidad de datos significa que tendremos que fortalecer los sistemas de TI que manejan esos datos. Eliminar los agujeros de seguridad haciendo cosas como aplicar actualizaciones. Deshabilitar servicios innecesarios, usar métodos de autenticación sólidos, etc. Dentro de una organización, sus políticas de seguridad a menudo provienen de leyes y regulaciones. Necesitamos algún tipo de forma centralizada en una empresa más grande para hacer cumplir y monitorear el cumplimiento de estas reglas.
Para gobernar adecuadamente los datos, también tenemos que pensar en minimizar el impacto de las filtraciones de datos. Una forma de hacerlo es mediante la realización de un análisis de impacto comercial o BIA por si ocurre algo de este tipo. Como resultado de esto, podemos implementar controles de seguridad efectivos sobre las amenazas que tienen más probabilidades de afectar los activos de datos más valiosos. Pero nuevamente, necesitamos monitorear continuamente los controles de seguridad que implementamos para proteger los datos y asegurarnos de que aún sean efectivos. Lo que es un control de seguridad efectivo hoy en día podría no ser efectivo unos meses después. También deberíamos considerar la redundancia del sistema de TI. Este es otro aspecto de ser un custodio de datos y asegurarse de que los datos estén disponibles. Podemos hacer esto mediante tecnologías de agrupación en clústeres y equilibrio de carga. La redundancia de datos también se puede lograr a través de copias de seguridad de datos y, por supuesto, replicación a otros hosts. Donde la diferencia es que la replicación de datos es una copia más actualizada de los datos que se replica entre hosts. Y podemos hacerlo a nivel del sistema de archivos. O también podemos hacerlo a nivel de base de datos creando, por ejemplo, réplicas de lectura de la base de datos en la nube.
Tipos de arquitectura de sistemas de datos de TI
La planificación es un concepto fundamental cuando se trata de analizar los tipos de arquitectura de sistemas de datos de TI. Un tipo es un diagrama de relación de entidades o ERD. Éste nos permite definir entidades así como atributos de datos. Una entidad, por ejemplo, podría ser una tabla de base de datos mientras planificamos la estructura de almacenamiento para nuestro entorno. El atributo de datos esta relacionado con las columnas dentro de la tabla y el tipo de datos de la columna. Los atributos también determinan cualquier restricción sobre lo que se permite almacenar dentro de esa columna. Por otro lado están las relaciones de datos. Es como una base de datos de tipo del entorno SQL donde podemos tener relaciones entre tablas. Pero debemos considerar los procesos comerciales que utilizarán estos datos. Lo que se utilizará para crear un diagrama de relación entre entidades. Hay muchas herramientas que permiten crear diagramas para esto. Utilizamos los modelos guardados para crear activamente una estructura de almacenamiento de base de datos desde nuestro ERD.
Cuando trabajamos con una planificación de la arquitectura de nuestro sistema de datos, tenemos que definir las entradas de datos, incluir los requisitos de datos técnicos en términos de qué tipo de datos son aceptables. Esos datos pueden provenir de bases de datos internas dentro de la organización o de fuentes externas, lo que significa que debe existir confianza en la validez de los datos que ingresaremos en nuestros sistemas. También tenemos que definir salidas de datos. Esto es importante porque se relacionará con los procesos comerciales que se ocupan de la gestión de datos. Eso implica el procesamiento de datos, la transmisión y el almacenamiento. Mientras hacemos esto, podemos identificar brechas. Y en nuestro contexto en el que hablamos de arquitectura de datos, hablamos de identificar problemas relacionados con la forma en que se gestionan los datos y detectar incumplimientos de regulaciones para la privacidad de los datos.
Las salidas de datos también incluyen resúmenes e informes informativos que pueden derivarse de los datos en bruto. Esto puede venir de fuentes internas y externas. El Open Group Architecture Framework, también llamado TOGAF, es una guía de mejores prácticas del sistema de información. Podemos utilizarlo para diseñar nuestra implementación guiada de una solución de arquitectura de datos real. También podemos mapear tareas de gobierno de datos con objetivos comerciales. Por ejemplo, el objetivo comercial podría ser recopilar los hábitos de compra de los clientes con fines de marketing. Pero al mismo tiempo tenemos que hacer el análisis mientras protegemos los datos. La protección de los datos puede significar que, si hay datos confidenciales, es necesario marcarlos como tales. Deben ser clasificados, marcados con los permisos apropiados y en algunos casos, es posible que deban encriptarse. Y eso podría ser necesario para el cumplimiento normativo. El Cuerpo de conocimiento del análisis empresarial, también llamado BABOK, es un conjunto de mejores prácticas relacionadas con el análisis empresarial. Es decir el análisis de estrategias comerciales y cómo se relaciona esto con el uso del sistema de TI. Necesitamos identificar las necesidades del negocio, los objetivos del negocio y las soluciones relacionadas que brindarán valor a las partes interesadas afectadas. Y esto, se relaciona con los datos que ingresan a estos sistemas. Los datos que se obtienen como resultado, donde podemos obtener valor de grandes conjuntos de datos sin procesar. Y cómo manejar esos datos de acuerdo con las leyes y regulaciones.
Informes y análisis de datos
Las organizaciones no tardan mucho en acumular grandes cantidades de datos. Pero, ¿qué hacer con esos datos? Ahí es donde entra en juego el análisis de datos. Al analizar los datos correctamente, podemos extraer información que de otro modo ni siquiera hubiéramos sabido que estaba allí, si hubiéramos dejado los datos sin procesar en su formato original. Pero antes de obtener todos estos conocimientos, tenemos que hacer un poco de trabajo de preparación. Los datos deben limpiarse y transformarse, de modo que podamos proceder con el modelado de datos para ver las relaciones. La limpieza y transformación de datos se considera un trabajo de preparación. Debemos prestar especial atención en asegurarnos de que nuestros datos brutos sean correctos y coherentes. Porque facilitará mucho el modelado y el análisis más adelante. Y, por supuesto, hará que los datos sean mucho más fiables.
Consiste en eliminar datos irrelevantes y duplicados, completar valores perdidos, asegurarse de que los valores numéricos sean realistas. ¿Están dentro de un rango aceptable? Corrección de errores tipográficos, mayúsculas y abreviaturas. Y cuando se trata de algunos tipos de datos como fechas, asegurarse de que estén en un formato de fecha consistente. A menudo, es posible escribir fórmulas o scripts para automatizar este tipo de limpieza y transformación de datos.
El análisis de datos, apoyará la toma de decisiones. Porque hemos limpiado los datos y los podemos modelar de diferentes maneras, observando relaciones, tendencias o patrones. Lo que significa que también pueden resultar en eficiencias en los procesos de negocio, y hacer esto, también significa, eficiencias de costos.
La analítica de datos siempre se beneficia del procesamiento paralelo (agrupación de escala horizontal), para trabajar con conjuntos de datos muy grandes y obtener estos conocimientos podemos utilizar una implementación de Apache Hadoop. El siguiente paso a considerar, es el origen de los datos con los que trabajaremos mientras realizamos nuestro análisis. Pueden venir de un sistema de procesamiento de transacciones en línea u OLTP. Donde se realizan operaciones estándar de creación, lectura, actualización y eliminación en los datos. La creación, lectura, actualización y eliminación se denomina a menudo CRUD, La otra cosa a tener en cuenta es la dispersión de datos sin procesar entre varios sistemas, ya sean locales, en la nube o ambos. En algunos casos, con organizaciones más grandes, cada departamento tiene una solución diferente o una forma diferente de administrar sus datos.
¿cómo vamos a reunir todos esos datos en una ubicación central? lo hacemos en un almacén de datos. (Data warehouse) Y es por eso que es importante, asegurarnos de que los datos se limpian y transforman, para que sean coherentes. No podemos realizar un modelado de datos adecuado sin coherencia en los datos subyacentes.
Por otro lado está el concepto de espacio aislado, que se aplica al análisis de datos. Esto significa que tenemos un entorno de análisis de datos independiente, escalable y siempre disponible. Esto se puede hacer mediante virtualización, o en la nube o también puede ser una partición lógica de un almacén de datos empresarial (Data warehouse) general más grande. Esto permite a los científicos y analistas de datos elegir qué herramientas quieren usar para realizar su análisis. Y al mismo tiempo, también sirve como un entorno de análisis de datos experimentales. Si recopilamos grandes cantidades de datos, queremos intentar sacarles el máximo valor posible.
Estamos hablando de inteligencia del negocio o BI. El análisis de datos también significa que deberíamos tener un portal de informes y análisis de autoservicio. Suele ser un portal web donde los analistas de datos pueden establecer una conexión y luego trabajar desde allí, para realizar su modelado de datos y ejecutar resúmenes e informes. Al hacer esto, podemos descubrir patrones ocultos, identificar correlaciones entre puntos de datos separados, identificar tendencias a lo largo del tiempo. También podemos ejecutar modelos de predicción. Y esto, por supuesto, será muy valioso para cosas como marketing o mirar los patrones de compra de los clientes, etc.