Mostrando entradas con la etiqueta Arquitectura de datos. Mostrar todas las entradas
Mostrando entradas con la etiqueta Arquitectura de datos. Mostrar todas las entradas

sábado, 4 de junio de 2022

Diseño de un proceso de gobierno de datos

El objetivo del gobierno de los datos es su protección, por lo que puede ser una buena idea considerar la nube. Al comienzo del proceso de diseño de una política de gobierno de datos, es importante identificar a los jugadores. La gobernanza de datos no necesita necesariamente experiencia técnica. Un equipo debe incluir experiencia técnica, pero debe estar equilibrado con otras habilidades, como experiencia empresarial, cumplimiento legal, comunicación, gestión y planificación de proyectos, etc.

Probablemente sea necesario un equipo de gobierno de datos que pueda hacer coincidir los objetivos comerciales con la recopilación de datos, con personal especializado en  cumplimiento de leyes y normativa, pero navegar por el espacio de big data es un desafío especial y no es recomendable tener una sola persona especializada en eso. Aunque al  menos, deberemos tener un recurso dedicado a ello. En la UE, por ejemplo, si estamos recopilando la información de residentes en la UE, entonces, según el RGPD, debemos tener un oficial de protección de datos. Debemos tener una buena representación de cualquier unidad organizativa interna o externa de nuestra empresa, que deba formar parte de la recopilación y el análisis de datos. 

Diseño de un proceso de gobierno de datos


Necesitamos personas capacitadas en la creación y mantenimiento de políticas. También necesitamos planificadores y expertos en proyectos. Son parte integral de los mecanismos que recopilan y analizan los datos. Debemos tener representadas las operaciones de TI, así como la seguridad de TI. Además, deberían participar las unidades de negocio que tengan interés en los datos. Así como el cumplimiento de leyes debe ser el principal punto de contacto entre la organización interna y la normativa externa.

Supervisión de una estrategia de gobernanza de datos

Hay cuatro pilares para una estrategia de gobernanza de datos exitosa. Primero tenemos que proteger nuestros datos. Esto es de suma importancia porque la alternativa puede ser devastadora para una empresa. Debemos garantizar la disponibilidad, porque los datos son tan buenos como la capacidad de acceso que tengamos a ellos, por eso es importante la velocidad de acceso porque estamos hablando de una cantidad significativa de datos complejos.

También es importante tener en cuenta la tasa de cambios. Los datos pueden cambiar con frecuencia. Especialmente cuando se recolectan las 24 horas del día, los 365 días del año.

La comunicación es clave para una estrategia de gobernanza de datos exitosa. Nuestro equipo debe establecer un hito y estar de acuerdo. Necesitamos empoderar a nuestro equipo y darle lo que necesite para tener éxito. Y en la medida de lo posible, planificar y ser proactivo. Intentar anticipar los problemas menores y evitarlos antes de que se conviertan en problemas importantes. Pero también necesitamos planes para reaccionar, desarrollando respuestas incluso ante los problemas más mínimos.

La coordinación y el seguimiento son elementos que deben incluirse en nuestra estrategia. Nuestro equipo, siempre debe tomar la iniciativa porque será el que más  estará al tanto de la recopilación y el análisis de datos. Seguridad, privacidad, cumplimiento, objetivos comerciales legales y cualquier otro elemento que podamos identificar como tarea del equipo de gobierno de datos.

El equipo también necesita tener un canal ascendente sin obstáculos hacia la alta dirección. El equipo también debe estar equipado para evaluar cómo se utilizan los datos, que se utilizan de acuerdo con las leyes y regulaciones. ¿Se está utilizando de la forma prevista en las políticas de datos y se está utilizando para lograr las métricas comerciales detalladas en la política de gobierno? Y la auditoría es, por supuesto, una actividad crucial, debe haber auditorías para fines comerciales y legales.

Mantener una estrategia de gobernanza de datos

La recopilación de datos es tan útil como la forma en que se utilizan. Debemos reconocer cuándo se están logrando resultados y cuándo debemos modificarlos. Así que aquí hay algunas cosas que podemos incorporar a su estrategia de gobierno de datos. Primero, no apresurarse a encontrar una solución para entregarla a los usuarios finales de nuestra empresa. Trabajaremos con las herramientas y los datos. Debemos construirlo y probarlo cuidadosamente en entornos sandbox para asegurarnos de que funciona y funcione bien. Esta es una de las razones por las que una pequeña prueba de concepto dirigida a un dominio específico es una muy buena idea. Podemos planear escalar más adelante, pero al principio, lo extenderemos para que funcione. Nuestras soluciones y resultados deben tener estructuras de monitoreo integradas, para que el monitoreo sea constante. Y planificaremos actualizar nuestra estrategia, políticas de gobierno y procedimientos en un ciclo. En algunos casos, el momento es indeterminado. Debemos reaccionar a los problemas según sea necesario. Luego está la medición. Debemos conocer nuestros resultados para determinar si vale la pena el esfuerzo. Revisar los resultados con regularidad. Construiremos una estructura que sea ágil y capaz de evolucionar junto con los resultados, nuestras necesidades y cambios comerciales. Definiremos métricas en las estrategias de datos y las utilizaremos para medir resultados. Y actualizaremos las políticas y procedimientos según sea necesario utilizando los resultados como guía. También mantendremos la disponibilidad de los datos. En este sentido, dejaremos que TI tome la iniciativa. Son los expertos en hacer que las herramientas funcionen y el flujo de datos. Evitaremos a toda costa puntos únicos de falla. Normalmente, los mecanismos de redundancia de datos, como los sitios espejo, mitigarán los problemas de disponibilidad. Y si nuestros datos residen en un centro de datos o un proveedor en la nube, esto no debería ser un problema. No obstante, trataremos estos datos como lo hace con el resto de datos. Siempre es prudente asegurarse de que esté respaldado y almacenado de manera segura. 


sábado, 14 de mayo de 2022

Arquitectura de datos. Identificación de las partes interesadas (Stakeholders)

Veremos cómo identificar a las partes interesadas que deben ser parte de un programa de gobierno de datos. El equipo lo es todo en una estrategia de gobierno de datos. Sus partes interesadas dan forma a la estrategia y las empresas quieren comprender quiénes se verán afectados por una nueva actividad porque eso ayudará a aplicar la geografía y los límites en torno a la política. Debemos alinear nuestras necesidades con las habilidades necesarias. Esto significa elegir a las personas que trabajarán con la tecnología o quienes realmente utilizarán los datos. 

Los técnicos no entenderán las necesidades del negocio y los analistas no entenderán la tecnología. La idea es darle a cada bando suficiente información para que entiendan que están haciendo. Para ello, el liderazgo es clave para cualquier grupo de partes interesadas (Stakeholders). Los líderes deben ser identificados y empoderados. No nos referimos a gerentes o superiores sino a personas que comprenden y llevan a otros con ellos. En términos generales, hay tres grupos principales que deseamos identificar como partes interesadas clave. 

Identificación de las partes interesadas (Stakeholders)

Primero, los creadores de datos, los técnicos. Luego están los usuarios de los datos, las gente que utilizará los datos. Y tercero los creadores de reglas de datos, aquellos que tienen interés en las políticas y procedimientos. 

Una vez identificadas estas tres partes interesadas, hay distintas categorías en cada una de ellas. Y también existe la necesidad de una combinación de personas técnicas y no técnicas interesadas en la gestión de datos. Tendremos guardianes. Los que guardan y mantienen los datos, ya sean técnicos o usuarios, específicamente los guardianes de datos y los analistas de negocios. También hay partes interesadas en las actividades de recopilación de datos y gobernanza que se expanden a la alta dirección, la Junta Directiva. Los oficiales legales y de cumplimiento ciertamente tienen un gran interés en la recopilación de datos. Y luego están los proveedores o vendedores e incluso nuestros clientes. 

Todo esto nos ayudará a evaluar a las partes interesadas y nuestro grupo estará directamente involucrado en la gobernanza y el manejo de datos. También tenemos a los que estarán interesados y afectados por estas actividades. Una vez que hayamos identificado a todas las partes interesadas, hay un modelo que podemos utilizar para incorporarlas y obtener su apoyo. Generalmente, debemos tener tres argumentos para  que se adapten a nuestras necesidades. 

Primero, debemos tener una respuesta a la pregunta, ¿qué gano yo? Cada tipo de actor tendrá diferentes intereses y necesidades. Por lo tanto, determinaremos cómo se beneficiará un ingeniero de software con estas actividades. Debemos asegurarnos de que sepan cómo la estrategia de gobernanza les facilitará la vida. Si es alguien en ventas o marketing, no debería ser difícil argumentar cómo tendrán información mejor y más útil para dirigirse a los clientes. Identificaremos el potencial y las oportunidades y haremos que estas actividades sean valiosas. La gobernanza puede parecer aburrida a primera vista, pero es una necesidad absoluta. Lo mismo ocurre con los datos. Encontrar el valor tanto en la recopilación de datos como en una política de gobernanza arrojará luz sobre nuevas oportunidades de negocio.

Tecnologías en la nube y gobernanza de datos

A continuación veremos  las formas en que las tecnologías en la nube afectan la gobernanza de datos.

Un gran beneficio de la nube es que es rentable para las empresas que no quieran mantener sus propios equipos para el almacenamiento de datos. Además ofrece un tiempo de actividad del 100%, una necesidad fundamental para cualquier empresa. Y eso se debe en parte a su escalabilidad, con nuevos servidores virtuales en marcha cuando aumenta el tráfico. La nube es una excelente manera para las empresas que desean descargarse de sus operaciones de datos y concentrarse en el negocio. Los proveedores de la nube ofrecen experiencia y análisis integrados, lo que hace que sea una transición fácil incluso para las organizaciones más grandes.

Hay consideraciones importantes para las empresas que utilizan la nube o que están considerando un salto a la nube. 

Intimidad

Mantener la privacidad de la información de una empresa y la información de los clientes que recopilan es de suma importancia por todo tipo de razones. La seguridad también va de la mano con la privacidad porque para mantener la privacidad de la información, debemos protegerla de filtraciones y piratas informáticos. 

Confíanza 

En el proveedor de la nube, en sus procesos y políticas y, en última instancia, que nuestros clientes confíen en nuestra empresa. Si perdemos esa confianza, es muy difícil recuperarla. 

Gobernanza

La gobernanza en una nube es diferente. Por ejemplo, los datos que solíamos guardar en el sótano en un servidor,  ahora dicho servidor puede encontrarse en San Francisco, Londres o Berlín. 

Tener los datos en la nube elimina la mayor parte de los errores generados por el usuario, pues en este caso es el proveedor de la nube quien garantiza la privacidad y la seguridad de estos.

Generalmente hay dos tipos de nubes. Nubes privadas, que se ubican in situ incluso si la ubicación física no está emparejada con la sede de una empresa. Nubes públicas, que son soluciones alojadas por proveedores que tienen centros de datos ubicados en múltiples ubicaciones alrededor del mundo. Y nubes híbridas, que son una mezcla de las dos primeras. Y así, la gobernanza de datos, en lo que respecta a la nube, puede ser un objetivo en constante movimiento porque, además de preocuparnos por los errores de usuario, debemos comprender dónde se encuentran físicamente nuestros datos porque pueden estar sujetos a leyes en diferentes partes de el mundo.

Para establecer un gobierno adecuado para los datos basados en la nube, nuestra empresa debe cultivar un cierto nivel de experiencia.  Para utilizar eficazmente la nube, las empresas deben desarrollar una estrategia empresarial para la nube.


sábado, 30 de abril de 2022

¿Por qué Big Data es diferente?

Vamos a ver las diferencias entre Big data y paradigmas de datos tradicionales. Big data no son solo datos. Si lo fueran, se llamaría datos y no Big data. Y la distinción no radica solo en su tamaño. Contiene múltiples activos sobre prácticamente cualquier pieza de información imaginable que pueda resultarnos útil. Es el tipo de datos a los que no teníamos acceso en el pasado. El término Big data existe desde la década de 1990 aunque en esa época el almacenamiento de datos resultaba complicado y costoso.

Todo eso cambió en la década de 2000  cuando pudimos recopilar conjuntos de datos de extrema complejidad y alcance. Pero los macrodatos no son independientes, es decir, no basta con tener los datos. También tenemos que tener el poder de procesamiento y una forma de analizarlos para que sean significativos. Eso también ha cambiado con un procesamiento más barato y rápido, y las herramientas necesarias para obtener significado de los datos. Ahora podemos recopilar grandes cantidades de información,  almacenarla y analizarla. Big data significa más grande, más rápido y mejor. Pero no sólo la tecnología en sí, sino la forma en que vemos y analizamos los datos.

¿Por qué Big Data es diferente?

Podemos aplicar análisis estadístico sobre innumerables atributos, compararlos y extraer significado de ellos. Otra tecnología que se ha beneficiado de una potencia de procesamiento y almacenamiento exponencialmente mayores ha sido la inteligencia artificial y el aprendizaje automático. Ahora podemos incorporar la automatización en el análisis de datos, utilizando IA. Y esto crea nuevas oportunidades para comprender el comportamiento humano de formas que nunca imaginamos posibles. Ahora estamos en un mundo 24 horas al día, 7 días a la semana, 365 días al año, donde la información es accesible todo el tiempo. 

Esto es importante para las actividades de análisis de datos que están en curso y están sujetas a cambios constantes. Con Big Data, estamos encontrando nuevos conocimientos que simplemente no estaban disponibles antes. Podemos utilizar la información que recopilamos para comprender mejor el comportamiento de la gente respecto al mercado o a los productos de nuestra empresa.

IoT, el Internet de las cosas, es un gran ejemplo de información a la que nadie podría haber imaginado tener acceso. Ahora, podemos entender cómo las personas navegan por internet o  cómo utilizan el refrigerador, etc. Tenemos una capacidad asombrosa no solo para recopilar y almacenar los datos, sino para comprender realmente lo que significan, y eso es poder. 

Datos identificativos

Para crear un plan de gobierno de datos, primero debemos identificar el dominio de datos que nos interesa. Hay que mirar la visión corporativa de nuestra empresa y preguntarnos por qué necesitamos estos datos. Y estar preparados para cambiar de rumbo si la experiencia o los datos nos llevan en otra dirección. Los macrodatos por definición son complejos, y también las herramientas y la metodología de análisis de datos que adoptemos.  Hay que planificar un aumento gradual, comenzando con pequeños datos manejables . También tenemos que presupuestar una progresión en aumento de manejo de más datos a lo largo del tiempo. Esto consiste en identificar la tecnología y las herramientas que necesitaremos para cumplir nuestros objetivos, incluso aunque falten 12 o 24 meses para nuestro objetivo. Y eso requiere que comprendamos las herramientas.  Debemos tener las herramientas adecuadas para alinear la tecnología a nuestras  necesidades y no al revés. 

Un concepto erróneo común sobre el Big data es que podemos analizar todo y mirarlo desde un sinfín de ángulos diferentes para encontrar la solución a todos nuestros problemas. El Big data es complejo y, por lo tanto, puede serlo el análisis de esos datos. Tan malo como no tener el conocimiento que necesitamos puede ser no poder obtener conocimiento de nuestros datos porque no sabemos dónde buscar. No hay que hacerlo al azar.

La gobernanza requiere una política escrita y un plan de recopilación de datos. Finalmente, necesitamos identificar a los jugadores que entienden. Nuestro equipo de gobierno de datos, será una combinación de personas técnicas y no técnicas. Algunos comprenderán la tecnología y otros comprenderán la información. Los requisitos y necesidades comerciales. Algunos pueden entender ambos. Necesitamos una buena representación de lo que quiere nuestra empresa en términos de valor de la información. 


sábado, 9 de abril de 2022

Gobernanza y su relación con Big Data

Antes de que podamos discutir la importancia de la gobernanza de datos, debemos echar un vistazo al Big Data y comprender por qué la gobernanza se ha convertido en un tema tan candente. Big data es el término general que se aplica a conjuntos de datos. Pero lo que hace que el Big data sea diferente a la forma en que manejamos los datos en el pasado es que el Big data es grande y complejo, a menudo está representado por cantidades masivas de datos muy granulares, que representan cosas que pueden no parecer útiles al pie de la letra. Big data también se refiere al acto de procesar esos datos porque el gran tamaño de los grandes datos hace que comprenderlos sea un desafío. Utilizamos el procesamiento estadístico para analizar y evaluar Big data con el entendimiento de que el conocimiento tiene poder. En otras palabras, podemos sacar conclusiones de esos datos aparentemente inocuos que no hubiéramos podido ni siquiera hace diez años.

Gobernanza y su relación con Big Data
Así que aquí está la razón fundamental. Es decir, ¿por qué estamos tan interesados en el Big data? ¿Por qué tantas empresas hacen todo lo posible para obtenerlo y comprenderlo? El poder analítico de las herramientas de Big data nos da la capacidad de recopilar el comportamiento del usuario a partir de estos grandes conjuntos de datos, nuevamente, en datos que no están disponibles o no se consideran útiles cuando se examinaban directamente sin procesar. Ahora, las empresas pueden utilizar el análisis predictivo para comprender ese comportamiento y brindar mejores servicios a los clientes o perfeccionar la forma en que hacen negocios o ambas cosas. Y eso es todo porque Big Data permite a las empresas extraer valor de los datos. Valor que no existía antes.

Pasemos al otro lado de la ecuación, la gobernanza. Nos referimos al gobierno corporativo porque el gobierno puede considerarse de diferentes maneras. Y la gobernanza en este sentido es el acto de desarrollar y adherirse a reglas, prácticas y procesos dentro de una estructura corporativa, ya sea que esa estructura sea una docena de personas o decenas de miles de personas. Cuando hablamos de la gobernanza de Big data, hay cuatro principios clave que debemos comprender y adoptar. 

El proceso

Las actividades bien definidas que realiza una organización. Están bien definidos para brindar consistencia y eficiencia. Estas actividades deben documentarse y revisarse periódicamente. 

Los empleados

En una empresa los empleados realizan los procesos. Pero en la gobernanza de big data, también es útil tener en cuenta otros dos grupos de personas, los proveedores de una organización y las personas representadas por los datos que se recopilan, generalmente los clientes. Eso es crucial en Big data porque los datos que maneja una organización pertenecen en muchos sentidos a las personas que los proporcionan. 

La tecnología

Es el facilitador y la razón por la que tenemos esto llamado Big data. Y aunque es la herramienta que hace girar la rueda, debemos tener cuidado de darle más énfasis del que merece. Después de todo, es una herramienta y, aunque es fácil poner la tecnología en un pedestal, el enfoque importante es y siempre debe estar en las personas que proporcionan los datos y las personas que tienen acceso a ellos. 

Mejores prácticas

Porque todo lo que hemos discutido aquí puede desmoronarse fácilmente si no existen procedimientos y políticas buenos y bien formados para garantizar un gobierno de datos responsable. 

Por qué Big Data requiere gobernanza

Big Data es grande tanto en alcance como en popularidad. Está en todas partes, en las noticias y en la vanguardia de la discusión corporativa. Y lo más importante, está en servidores en todas partes. Existe un gran conjunto de herramientas que se pueden usar para la recopilación de datos y el análisis estadístico.

¿Por qué Big Data requiere una estructura de gobierno? La primera razón es el peligro de que se abuse de los datos. La mayoría de las organizaciones son benevolentes y no planean hacer un mal uso de los datos que recopilan. Pero con Big data, la información puede ser mal utilizada, aunque las empresas tengan las mejores intenciones, existe la posibilidad de que se produzcan pérdidas de datos.

Los datos pueden salir a la luz mediante piratería o errores humanos. Una mala seguridad sería la culpable. Y eso puede ser un problema costoso para las empresas que no encriptan o custodian adecuadamente los datos que recopilan. También existe el riesgo de que los datos se vuelvan públicos, nuevamente, a través de piratería informática o error humano.  

Las empresas que recopilan cantidades masivas de datos deben comprender los riesgos y las consecuencias. La gobernanza de Big data puede ser una oportunidad de  implementar un buen gobierno que realmente ayude a las empresas. Aparte que brinda la oportunidad de tomar mejores decisiones, lo que da una ventaja competitiva, permitiendo utilizar los datos recopilados para ofrecer mejores servicios. Sin planificación Big data puede ser un riesgo. Pero cuando se implementa un buen gobierno, otorga credibilidad a la empresa. Y la credibilidad se traduce en valor real.


sábado, 18 de diciembre de 2021

Arquitectura de datos y gobernanza

La gestión adecuada de datos es fundamental en estos días. Estamos hablando de arquitectura de datos y gobernanza de datos. Esto se logra a través de políticas que se relacionan con cómo se crean o recopilan los datos y cómo se utilizan. Y esto a menudo está dictado por leyes y regulaciones. Por lo tanto, existen diferentes reglas en diferentes partes del mundo sobre cómo se recopilan y utilizan los datos. Como por ejemplo las leyes de protección de datos y otras políticas que se deben cumplir. Si esas políticas se diseñan correctamente y la concienciación y la capacitación de los usuarios, los hacen conscientes de esas políticas y la relevancia de las mismas. Entonces se puede lograr el cumplimiento normativo. Pero esto por sí solo no será efectivo, es necesario un  monitoreo continuo del uso de datos y cumplimiento de las políticas y controles de seguridad que protegen esos activos de datos. 

Arquitectura de datos  y gobernanza
Esto no es algo que se haga de una sola vez, lo primero que debemos hacer es identificar los activos de datos que tienen valor para la organización. A menudo, es difícil determinar esto hasta que organizamos esos datos en información. De modo que podemos inventariar las ubicaciones de almacenamiento de los datos disponibles. Por ejemplo, en una matriz de almacenamiento local, en la nube. También pueden estar en los teléfonos de los usuarios. 

También hay que determinar los usuarios y grupos que tenemos. Y asegurarnos de que las listas de control de acceso, o ACL, otorguen solo los permisos necesarios para que los usuarios completen las tareas del trabajo, y nada más. La arquitectura de datos en la gobernanza también se ocupa de clasificar los activos de datos. Consiste en agregar información adicional, etiquetas o metadatos adicionales de forma que podamos asignar etiquetas de confidencialidad a los datos. Por tanto, podrían utilizarse categorías de clasificación. Por ejemplo, podríamos marcar como confidencial ciertos archivos almacenados en un servidor que contiene tarjetas de crédito. Existe una variedad de herramientas que podemos usar para hacer esto. ¿por qué tenemos que molestarnos en pasar por esto? ¿Por qué asignar una etiqueta de información confidencial a archivos que  contienen información de tarjetas de crédito?

Es necesario porque luego, luego podemos asignar niveles de autorización de seguridad o permisos basados en esas etiquetas y la clasificación de esos datos. La arquitectura y la gobernanza de datos también se ocupa del cumplimiento de las leyes y regulaciones. Y esto variará en diferentes jurisdicciones legales alrededor del mundo. Por lo tanto, como especialistas de TI en datos, debemos estar bien informados sobre qué leyes y regulaciones protegen los datos. Dónde se recopilarán y utilizarán los datos de los que somos responsables. Privacidad de datos significa que tendremos que fortalecer los sistemas de TI que manejan esos datos. Eliminar los agujeros de seguridad haciendo cosas como aplicar actualizaciones. Deshabilitar servicios innecesarios, usar métodos de autenticación sólidos, etc. Dentro de una organización, sus políticas de seguridad a menudo provienen de leyes y regulaciones. Necesitamos algún tipo de forma centralizada en una empresa más grande para hacer cumplir y monitorear el cumplimiento de estas reglas.

Para gobernar adecuadamente los datos, también tenemos que pensar en minimizar el impacto de las filtraciones de datos. Una forma de hacerlo es mediante la realización de un análisis de impacto comercial o BIA por si ocurre algo de este tipo. Como resultado de esto, podemos implementar controles de seguridad efectivos sobre las amenazas que tienen más probabilidades de afectar los activos de datos más valiosos. Pero nuevamente, necesitamos monitorear continuamente los controles de seguridad que implementamos para proteger los datos y asegurarnos de que aún sean efectivos. Lo que es un control de seguridad efectivo hoy en día podría no ser efectivo unos meses después. También deberíamos considerar la redundancia del sistema de TI. Este es otro aspecto de ser un custodio de datos y asegurarse de que los datos estén disponibles. Podemos hacer esto mediante tecnologías de agrupación en clústeres y equilibrio de carga. La redundancia de datos también se puede lograr a través de copias de seguridad de datos y, por supuesto, replicación a otros hosts. Donde la diferencia es que la replicación de datos es una copia más actualizada de los datos que se replica entre hosts. Y podemos hacerlo a nivel del sistema de archivos. O también podemos hacerlo a nivel de base de datos creando, por ejemplo, réplicas de lectura de la base de datos en la nube. 

Tipos de arquitectura de sistemas de datos de TI 

La planificación es un concepto fundamental cuando se trata de analizar los tipos de arquitectura de sistemas de datos de TI. Un tipo es un diagrama de relación de entidades o ERD. Éste nos permite definir entidades así como atributos de datos. Una entidad, por ejemplo, podría ser una tabla de base de datos mientras planificamos la estructura de almacenamiento para nuestro entorno. El atributo de datos esta relacionado con las columnas dentro de la tabla y el tipo de datos de la columna. Los atributos también determinan cualquier restricción sobre lo que se permite almacenar dentro de esa columna. Por otro lado  están las relaciones de datos. Es como una base de datos de tipo del  entorno SQL donde podemos tener relaciones entre tablas. Pero debemos considerar los procesos comerciales que utilizarán estos datos. Lo que se utilizará para crear un diagrama de relación entre entidades. Hay muchas herramientas que permiten crear  diagramas para esto. Utilizamos los modelos guardados para crear activamente una estructura de almacenamiento de base de datos desde nuestro ERD. 

Tipos de arquitectura de sistemas de datos de TI

Cuando trabajamos con una planificación de la arquitectura de nuestro sistema de datos, tenemos que definir las entradas de datos, incluir los requisitos de datos técnicos en términos de qué tipo de datos son aceptables. Esos datos pueden provenir de bases de datos internas dentro de la organización o de fuentes externas, lo que significa que debe existir confianza en la validez de los datos que ingresaremos en nuestros sistemas. También tenemos que definir salidas de datos. Esto es importante porque se relacionará con los procesos comerciales que se ocupan de la gestión de datos. Eso implica el procesamiento de datos, la transmisión y el almacenamiento. Mientras hacemos esto, podemos identificar brechas. Y en nuestro contexto en el que hablamos de arquitectura de datos, hablamos de identificar problemas relacionados con la forma en que se gestionan los datos y detectar incumplimientos de regulaciones para la privacidad de los datos. 

Las salidas de datos también incluyen resúmenes e informes informativos que pueden derivarse de los datos en bruto. Esto puede venir de fuentes internas y externas. El Open Group Architecture Framework, también llamado TOGAF, es una guía de mejores prácticas del sistema de información. Podemos utilizarlo para diseñar nuestra implementación guiada de una solución de arquitectura de datos real. También podemos mapear tareas de gobierno de datos con objetivos comerciales. Por ejemplo, el objetivo comercial podría ser recopilar los hábitos de compra de los clientes con fines de marketing. Pero al mismo tiempo tenemos que hacer el análisis mientras protegemos los datos. La protección de los datos puede significar que, si hay datos confidenciales, es necesario marcarlos como tales. Deben ser clasificados, marcados con los permisos apropiados y en algunos casos, es posible que deban encriptarse. Y eso podría ser necesario para el cumplimiento normativo. El Cuerpo de conocimiento del análisis empresarial, también llamado BABOK, es un conjunto de mejores prácticas relacionadas con el análisis empresarial. Es decir el análisis de estrategias comerciales y cómo se relaciona esto con el uso del sistema de TI. Necesitamos identificar las necesidades del negocio, los objetivos del negocio y las soluciones relacionadas que brindarán valor a las partes interesadas afectadas. Y esto, se relaciona con los datos que ingresan a estos sistemas. Los datos que se obtienen como resultado, donde podemos obtener valor de grandes conjuntos de datos sin procesar. Y cómo manejar esos datos de acuerdo con las leyes y regulaciones.

Informes y análisis de datos

Las organizaciones no tardan mucho en acumular grandes cantidades de datos. Pero, ¿qué hacer con esos datos? Ahí es donde entra en juego el análisis de datos. Al analizar los datos correctamente, podemos extraer información que de otro modo ni siquiera hubiéramos sabido que estaba allí, si hubiéramos dejado los datos sin procesar en su formato original. Pero antes de obtener todos estos conocimientos, tenemos que hacer un poco de trabajo de preparación. Los datos deben limpiarse y transformarse, de modo que podamos proceder con el modelado de datos para ver las relaciones. La limpieza y transformación de datos se considera un trabajo de preparación. Debemos prestar especial atención en asegurarnos de que nuestros datos brutos sean correctos y coherentes. Porque facilitará mucho el modelado y el análisis más adelante. Y, por supuesto, hará que los datos sean mucho más fiables.

Informes y análisis de datos

Consiste en eliminar datos irrelevantes y duplicados, completar valores perdidos, asegurarse de que los valores numéricos sean realistas. ¿Están dentro de un rango aceptable? Corrección de errores tipográficos, mayúsculas y abreviaturas. Y cuando se trata de algunos tipos de datos como fechas, asegurarse de que estén en un formato de fecha consistente. A menudo, es posible escribir fórmulas o scripts para automatizar este tipo de limpieza y transformación de datos. 

El análisis de datos, apoyará la toma de decisiones. Porque hemos limpiado los datos y los podemos modelar de diferentes maneras, observando relaciones, tendencias o patrones. Lo que significa que también pueden resultar en eficiencias en los procesos de negocio, y hacer esto, también significa, eficiencias de costos.

La analítica de datos siempre se beneficia del procesamiento paralelo (agrupación de escala horizontal), para trabajar con conjuntos de datos muy grandes y obtener estos conocimientos podemos utilizar una implementación de  Apache Hadoop. El siguiente paso a considerar, es el origen de los datos con los que trabajaremos mientras realizamos nuestro análisis. Pueden venir de un sistema de procesamiento de transacciones en línea u OLTP. Donde se realizan operaciones estándar de creación, lectura, actualización y eliminación en los datos. La creación, lectura, actualización y eliminación se denomina a menudo CRUD, La otra cosa a tener en cuenta es la dispersión de datos sin procesar entre varios sistemas, ya sean locales, en la nube o ambos. En algunos casos, con organizaciones más grandes, cada departamento tiene una solución diferente o una forma diferente de administrar sus datos.

¿cómo vamos a reunir todos esos datos en una ubicación central? lo hacemos en un almacén de datos. (Data warehouse)  Y es por eso que es importante, asegurarnos de que los datos se limpian y transforman, para que sean coherentes. No podemos realizar un modelado de datos adecuado sin coherencia en los datos subyacentes.

Por otro lado está el concepto de espacio aislado, que se aplica al análisis de datos. Esto significa que tenemos un entorno de análisis de datos independiente, escalable y siempre disponible. Esto se puede hacer mediante virtualización, o en la nube o  también puede ser una partición lógica de un almacén de datos empresarial (Data warehouse) general más grande. Esto permite a los científicos y analistas de datos elegir qué herramientas quieren usar para realizar su análisis. Y al mismo tiempo, también sirve como un entorno de análisis de datos experimentales. Si recopilamos grandes cantidades de datos, queremos intentar sacarles el máximo valor posible.

Estamos hablando de inteligencia del negocio o BI. El análisis de datos también significa que deberíamos tener un portal de informes y análisis de autoservicio. Suele ser un portal web donde los analistas de datos pueden establecer una conexión y luego trabajar desde allí, para realizar su modelado de datos y ejecutar resúmenes e informes. Al hacer esto, podemos descubrir patrones ocultos, identificar correlaciones entre puntos de datos separados, identificar tendencias a lo largo del tiempo. También podemos ejecutar modelos de predicción. Y esto, por supuesto, será muy valioso para cosas como marketing o mirar los patrones de compra de los clientes, etc.


sábado, 20 de noviembre de 2021

Crear un diagrama de relación entre entidades

En esta demostración, veremos una herramienta que nos ayudará a crear un diagrama de relación de entidades, o ERD, para planificar la estructura de la base de datos. La herramienta se encuentra en el enlace https://www.visual-paradigm.com en un navegador, vamos a este sitio web donde hacemos clic en el enlace Download para descargar una prueba gratuita de 30 días. Entramos en la interfaz de Visual Paradigm, donde las pestañas de la parte superior identifican diferentes categorías de diagramas que podríamos querer crear con esta herramienta. Por ejemplo, ERD, que son diagramas de relación de entidades. Aunque si nos desplazamos hacia abajo, también tenemos otras opciones disponibles enumeradas a la derecha.  Hacemos  clic en la opción ERD. Aparece una nueva ventana con el encabezado Diagrama de relaciones entre entidades. 



Crear un diagrama de relación entre entidades
Tiene las siguientes opciones: En blanco, Álbum de fotos en línea, Alquiler de películas, etc. En la parte inferior están los botones, Next y Cancel. Podemos construir un diagrama de relación de entidades en blanco, o elegir una de las plantillas preexistentes, por ejemplo, si nos desplazamos hacia abajo, podemos elegir Bookstore Online. Podemos utilizar esta plantilla porque solo deseamos modificarla, y eso puede ser más rápido que construirla desde cero. La seleccionamos y hacemos clic en Siguiente. Le ponemos un nombre, y aceptamos. hacemos clic en el botón Next. Se abre el diagrama de tablas de la librería en línea. 

Crear un diagrama de relación entre entidades


Tiene las siguientes opciones en el panel de navegación: Cursor, Stored Procedures (Procedimientos almacenados), Triggers (Disparadores), etc. En el centro hay un diagrama de flujo de varias entidades como: Author, Book, Publisher, etc. Book está conectado al  Publisher,  Author, ShoppingBasket_Book y Warehouse_Book. Warehouse_Book está conectado a Warehouse. ShoppingBasket_Book está conectado a ShoppingBasket y ShoppingBasket está conectado al Customer. Podemos ver las diversas entidades. Esto sirve para diseñar la estructura de una base de datos, donde cada una de estas entidades, como las llamamos, representan una tabla de base de datos. Y dentro de cada una de ella, tenemos varias columnas. En el ejemplo de Publisher aquí, la tabla Publisher, tiene una columna Name que se define como  Primary Key (clave principal). Podemos verlo porque tiene una llave dorada. 


Crear un diagrama de relación entre entidades : Primary Key
Todo lo que debemos hacer para configurarlo es hacer clic derecho sobre el campo y luego incluir el campo en la clave principal. 

En el diagrama tenemos varias entidades o tablas. Esto define una estructura de base de datos. Por ejemplo, en la tabla Publisher, tiene una serie de columnas como Name, Adress, Telephone, URL.  Podemos realizar cambios en cualquiera de estos elementos. Por ejemplo, si hacemos doble clic en el nombre de una tabla en la parte superior, la selecciona y podemos escribir un nombre nuevo. 

Crear un diagrama de relación entre entidades: Modificar una tabla

Crear un diagrama de relación entre entidades: Modificar un campo


Lo mismo ocurre con una columna. Podemos cambiar lo que queramos. Por ejemplo, podría hacer clic con el botón derecho y escribir un nombre que deseemos. Cuando hacemos clic con el botón derecho en una columna, si elegimos Open Specification podemos determinar el tipo de datos de la lista desplegable Type. 

También podemos agregar nuevos elementos. Y también si estamos construyendo un diagrama de relación de entidades desde cero, podemos hacer clic con el botón derecho y hacer todo manualmente. Si hacemos clic derecho sobre una parte vacía del diagrama, y elegimos add Shape y luego Entity. De modo que se crea una nueva entidad (futura tabla de una base de datos)  

Crear un diagrama de relación entre entidades: Añadir nueva tabla


Una vez creada la tabla podemos definir columnas las columnas, si hacemos clic derecho dentro de esa tabla, podemos elegir New Column. 

Crear un diagrama de relación entre entidades: Nueva columna

Si hacemos clic derecho sobre la columna y elegimos Open Specification sale una lista desplegable donde podemos elegir por ejemplo el tipo de datos de la columna. 

Crear un diagrama de relación entre entidades: Nueva columna

Crear un diagrama de relación entre entidades: Incluir primary key

Crear un diagrama de relación entre entidades: Primary Key

También podemos hacer clic derecho sobre él y configurarlo como clave principal. 

Incluso tenemos la opción, de vincular estas columnas para establecer una relación. Por ejemplo, si colocamos el cursor sobre una tabla existente como Publisher. 

Crear un diagrama de relación entre entidades: Relaciones entre tablas


Contiene un icono que podemos usarlo para arrastrar una línea a la otra tabla. Y determinar si existe una relación de uno a uno con las filas de cada una de esas tablas, o de uno a muchos. Digamos que es uno a muchos.  Aparece una ventana emergente con 4 opciones de iconos de vinculación como: Relación uno a uno, Relación uno a muchos, etc. Hacemos clic en el icono que nos interese (en este caso Relación uno a muchos) y  aparece una ventana de especificación de relación. 

Crear un diagrama de relación entre entidades: Relaciones entre tablas


Tiene dos pestañas: Foreign Key Column Mapping (Asignación de columna de clave externa)  y General, donde se selecciona Asignación de columna de clave externa. Ahora, determinamos las columnas específicas que queremos vincular. Debajo en el combo se nos muestra la lista de columnas que podemos vincular con la clave principal en la tabla de Publisher, y podemos determinar a qué columna queremos  vincular nuestra tabla.

Podemos continuar con esto en el diseño de la estructura para nuestro almacenamiento de datos, y esto es parte de la arquitectura de datos. Hay muchas otras herramientas que hacen esto además de Visual Paradigm.

Si vamos al menú Herramientas en la parte superior y luego elegimos DB para base de datos. Y luego elegimos Configuración de la base de datos, podemos decirle que queremos hacer una conexión a un tipo específico de base de datos.

Crear un diagrama de relación entre entidades: Elegir base de datos

Crear un diagrama de relación entre entidades: Elegir base de datos


Hacemos clic en la opción Configuración de base de datos. Y sale un menú desplegable con el lenguaje de programación, en este caso está seleccionado Java y aparece una ventana que muestra: la Versión, el Driver, User, Engine, etc. y los botones de  Importar, (Import)  Exportar /Export), en la parte inferior.

Digamos que elegimos .NET como idioma, y Microsoft SQL Server. Podemos especificar el nombre del host. Así que la identidad de ese servidor a través de la red con un nombre de usuario y contraseña y prueba la conexión. 

Crear un diagrama de relación entre entidades: Probar la conexión

A la derecha está la Configuración de la base de datos con varias opciones. Nombre de la base de datos, nombre de usuario y contraseña. Justo debajo, hay un botón llamado Probar conexión. (test Connection) Nos encontraremos con muchas de estas herramientas no solo nos permitirán diagramar la relación entre nuestras entidades, las tablas de nuestra base de datos. En realidad, crearemos un sistema de base de datos dado, ya sea MySQL, Microsoft SQL Server, Oracle, DB2, etc. Por lo tanto, es importante tener una herramienta para realizar varios tipos de planificación de la arquitectura de datos en la empresa. 


sábado, 9 de octubre de 2021

Privacidad de datos

Uno de los mayores desafíos en el uso de los sistemas informáticos actuales se relaciona con la privacidad de los datos. Y esto se aplicaría a individuos, agencias gubernamentales y organizaciones. Por eso es importante que las organizaciones creen e implementen políticas de seguridad y privacidad. Los usuarios finales deben saber que existen políticas de seguridad. Y cuáles son los procedimientos adecuados en la protección de datos. Pero también, es importante que los usuarios comprendan la relevancia de por qué existen esas políticas de seguridad.

Privacidad de datos
La privacidad de los datos se puede lograr de muchas formas, incluida la seguridad física. Por ejemplo, cerraduras de puertas , ventanas y sistemas de alarma. Además, los controles técnicos de seguridad pueden proteger los datos en forma de cortafuegos, que pueden implementarse en el borde de la red para controlar el tráfico que entra y sale de la red. O firewalls implementados en todos y cada uno de los dispositivos informáticos para controlar el tráfico que entra y sale de esos dispositivos. También tenemos el cifrado y la codificación de datos. De modo que mientras se transmiten los datos, solo el poseedor de la clave de descifrado adecuada podrá ver los datos originales. Lo mismo se aplicaría a los datos en reposo o los datos que se están almacenandos y que deben protegerse de miradas indiscretas. También deberían estar cifrados. Para que las políticas de seguridad sigan siendo relevantes, debemos realizar una revisión periódica de las políticas. Pues las amenazas cambian con el tiempo y también las soluciones tecnológicas y los controles de seguridad existentes implementados para proteger los activos de datos podrían haber funcionado al mismo tiempo, pero podrían volverse cada vez menos efectivos con el tiempo. Es importante que revisemos estas cosas periódicamente para hacer mejoras para reforzar la seguridad. 

Información de identificación personal, o PII

Es cualquier cosa que identifique de forma única a un individuo. Puede ser el nombre, apellido, la dirección postal, el número de seguridad social, el número de la tarjeta de crédito. En cuanto a datos sanitarios, se conocen como información médica protegida o PHI. Esto incluiría los registros médicos de los pacientes, cómo se administró y pagó la atención médica, etc.

HIPAA, la Ley de responsabilidad de portabilidad de seguros médicos de Estados Unidos. Se ocupa de la protección de la PHI, información médica protegida o información médica. PIPEDA es una ley del Parlamento de Canadá. Significa Ley de Protección de Información Personal y Documentos Electrónicos. Y se ocupa de la recopilación y el uso del sector privado de información de identificación personal. GDPR es el Reglamento general de protección de datos 2016/679 de la Unión Europea. Es la recopilación y el uso de PII por parte del sector privado tanto dentro como fuera de la UE.

La Ley de Privacidad de 1988 se refiere a Australia. Una vez más, se trata de la protección de la PII. y es aplicable a agencias gubernamentales y al sector privado.  Estas leyes suelen incluir disposiciones relacionadas con la notificación de violación de datos a los usuarios afectados cuyos datos podrían haber sido comprometidos. PCI DSS no es una ley, son las siglas en inglés de Payment Card Industry Data Security Standard. Su enfoque es la protección de los datos de los titulares de tarjetas de débito y crédito para comercio a través de elementos como cifrado y firewalls, etc. El cifrado está realmente diseñado para proteger datos confidenciales, proporciona confidencialidad. Uno de sus requisitos, llamado 3.4, es el cifrado de los datos del titular de la tarjeta. Con el cifrado, los datos originales se denominan texto sin formato. Una vez que los datos se cifran o codifican, se denominan texto cifrado. 

Encriptado de datos
El texto sin formato se introduce en un algoritmo de cifrado. Un algoritmo de cifrado es realmente una fórmula matemática complicada. El texto sin formato se introduce en un algoritmo de cifrado con una clave y el resultado es texto cifrado. No podremos encontrar sentido a ese texto cifrado a menos que tengamos la clave de descifrado correcta.  

Suele utilizarse un cifrado simétrico esto significa que tenemos una clave única  que se usa para el cifrado y el descifrado. El problema es ¿cómo podemos hacer llegar esa clave de forma segura a través de Internet a todos los usuarios que la necesitan para el cifrado o descifrado? por eso encontraremos a menudo que el cifrado simétrico y asimétrico se utilizan juntos. 

Encriptación simétrica
El cifrado asimétrico, utiliza dos claves relacionadas matemáticamente. La clave pública se puede compartir públicamente con cualquier persona y no hay riesgo de seguridad. Está diseñada para esto. Sin embargo, no ocurre lo mismo con la clave privada. La clave privada debe mantenerse privada para el propietario de la clave. No debería compartirse con nadie. Imaginemos que estamos enviando un mensaje de correo electrónico encriptado a alguien. Para ello necesitamos la clave pública del destinatario. Para  descifrarlo, necesitamos la clave privada relacionada. Aquí es donde entra en juego el cifrado asimétrico. 

Encriptación asimétrica
Al final estamos hablando de privacidad de datos, y un aspecto de esto es cifrar los datos en reposo y los datos que se transmiten a través de una red. 


sábado, 25 de septiembre de 2021

Arquitectura de datos

Introducción 

Las decisiones comerciales modernas se derivan de la información obtenida de los datos, pero muchos de esos datos están sin procesar y sin refinar. Y esto hace que sea difícil proporcionar una interpretación significativa. Lo que es aún más evidente cuando se utilizan macrodatos (big data). Sin embargo, si tenemos una comprensión clara de los conceptos de arquitectura de datos y los aplicamos a los datos. Podemos organizar esos datos para poder proporcionar un contexto para una interpretación significativa e identificar correlaciones, generar resúmenes e informes útiles, y luego usarlos para respaldar diversas decisiones comerciales. 

Datos definidos 

Actualmente se manejan grandes volúmenes de datos, pero eso en sí mismo no es suficiente para que esos datos realmente tengan algún valor. Las decisiones comerciales  se derivan de la información obtenida con estos datos. Pero para ello es necesario, dar sentido a los datos que tenemos.  

Estos datos pueden provenir del uso de aplicaciones de dispositivos móviles. O bien  de representar los hábitos de compra de clientes o de sus preferencias. Cuando hablamos de grandes conjuntos de datos complejos, grandes volúmenes de datos que ingresan a un ritmo rápido, realmente estamos hablando de Big Data. Sin embargo, la información no es lo mismo que los datos. La información son datos organizados y, a partir de la información, se nos puede proporcionar una interpretación significativa de esos datos. Podemos hacer cosas como identificar correlaciones entre diferentes puntos de datos.

Datos Definidos

Las fuentes de datos y, en última instancia, las posibles correlaciones, podrían provenir de fuentes internas o externas. Podemos importar archivos proporcionados por un tercero, o una fuente externa. O podemos simplemente echar un vistazo al uso de datos, por ejemplo, para una línea personalizada de aplicación comercial dentro de la organización, que sería interna. Otro aspecto de los datos es cómo y dónde se almacenan. A menudo, cuando tratamos con grandes cantidades de datos, realmente estamos hablando de almacenarlos en una base de datos. Y así, un diseño de base de datos eficiente se vuelve primordial, ya sea que estemos hablando de una base de datos SQL o incluso una base de datos NoSQL. Otro aspecto del almacenamiento de datos y las bases de datos es si tenemos índices en la base de datos que nos permitan acelerar la búsqueda o si estamos usando clústeres. Por tanto, tenemos varios nodos informáticos que prestan servicio a los datos o incluso almacenan en caché la información de la base de datos en la memoria. Los datos son definitivamente un activo valioso, lo que realmente importa es asegurarse de que entendemos esos datos, para poder obtener valor de ellos.