Mostrando entradas con la etiqueta gobernanza. Mostrar todas las entradas
Mostrando entradas con la etiqueta gobernanza. Mostrar todas las entradas

sábado, 4 de junio de 2022

Diseño de un proceso de gobierno de datos

El objetivo del gobierno de los datos es su protección, por lo que puede ser una buena idea considerar la nube. Al comienzo del proceso de diseño de una política de gobierno de datos, es importante identificar a los jugadores. La gobernanza de datos no necesita necesariamente experiencia técnica. Un equipo debe incluir experiencia técnica, pero debe estar equilibrado con otras habilidades, como experiencia empresarial, cumplimiento legal, comunicación, gestión y planificación de proyectos, etc.

Probablemente sea necesario un equipo de gobierno de datos que pueda hacer coincidir los objetivos comerciales con la recopilación de datos, con personal especializado en  cumplimiento de leyes y normativa, pero navegar por el espacio de big data es un desafío especial y no es recomendable tener una sola persona especializada en eso. Aunque al  menos, deberemos tener un recurso dedicado a ello. En la UE, por ejemplo, si estamos recopilando la información de residentes en la UE, entonces, según el RGPD, debemos tener un oficial de protección de datos. Debemos tener una buena representación de cualquier unidad organizativa interna o externa de nuestra empresa, que deba formar parte de la recopilación y el análisis de datos. 

Diseño de un proceso de gobierno de datos


Necesitamos personas capacitadas en la creación y mantenimiento de políticas. También necesitamos planificadores y expertos en proyectos. Son parte integral de los mecanismos que recopilan y analizan los datos. Debemos tener representadas las operaciones de TI, así como la seguridad de TI. Además, deberían participar las unidades de negocio que tengan interés en los datos. Así como el cumplimiento de leyes debe ser el principal punto de contacto entre la organización interna y la normativa externa.

Supervisión de una estrategia de gobernanza de datos

Hay cuatro pilares para una estrategia de gobernanza de datos exitosa. Primero tenemos que proteger nuestros datos. Esto es de suma importancia porque la alternativa puede ser devastadora para una empresa. Debemos garantizar la disponibilidad, porque los datos son tan buenos como la capacidad de acceso que tengamos a ellos, por eso es importante la velocidad de acceso porque estamos hablando de una cantidad significativa de datos complejos.

También es importante tener en cuenta la tasa de cambios. Los datos pueden cambiar con frecuencia. Especialmente cuando se recolectan las 24 horas del día, los 365 días del año.

La comunicación es clave para una estrategia de gobernanza de datos exitosa. Nuestro equipo debe establecer un hito y estar de acuerdo. Necesitamos empoderar a nuestro equipo y darle lo que necesite para tener éxito. Y en la medida de lo posible, planificar y ser proactivo. Intentar anticipar los problemas menores y evitarlos antes de que se conviertan en problemas importantes. Pero también necesitamos planes para reaccionar, desarrollando respuestas incluso ante los problemas más mínimos.

La coordinación y el seguimiento son elementos que deben incluirse en nuestra estrategia. Nuestro equipo, siempre debe tomar la iniciativa porque será el que más  estará al tanto de la recopilación y el análisis de datos. Seguridad, privacidad, cumplimiento, objetivos comerciales legales y cualquier otro elemento que podamos identificar como tarea del equipo de gobierno de datos.

El equipo también necesita tener un canal ascendente sin obstáculos hacia la alta dirección. El equipo también debe estar equipado para evaluar cómo se utilizan los datos, que se utilizan de acuerdo con las leyes y regulaciones. ¿Se está utilizando de la forma prevista en las políticas de datos y se está utilizando para lograr las métricas comerciales detalladas en la política de gobierno? Y la auditoría es, por supuesto, una actividad crucial, debe haber auditorías para fines comerciales y legales.

Mantener una estrategia de gobernanza de datos

La recopilación de datos es tan útil como la forma en que se utilizan. Debemos reconocer cuándo se están logrando resultados y cuándo debemos modificarlos. Así que aquí hay algunas cosas que podemos incorporar a su estrategia de gobierno de datos. Primero, no apresurarse a encontrar una solución para entregarla a los usuarios finales de nuestra empresa. Trabajaremos con las herramientas y los datos. Debemos construirlo y probarlo cuidadosamente en entornos sandbox para asegurarnos de que funciona y funcione bien. Esta es una de las razones por las que una pequeña prueba de concepto dirigida a un dominio específico es una muy buena idea. Podemos planear escalar más adelante, pero al principio, lo extenderemos para que funcione. Nuestras soluciones y resultados deben tener estructuras de monitoreo integradas, para que el monitoreo sea constante. Y planificaremos actualizar nuestra estrategia, políticas de gobierno y procedimientos en un ciclo. En algunos casos, el momento es indeterminado. Debemos reaccionar a los problemas según sea necesario. Luego está la medición. Debemos conocer nuestros resultados para determinar si vale la pena el esfuerzo. Revisar los resultados con regularidad. Construiremos una estructura que sea ágil y capaz de evolucionar junto con los resultados, nuestras necesidades y cambios comerciales. Definiremos métricas en las estrategias de datos y las utilizaremos para medir resultados. Y actualizaremos las políticas y procedimientos según sea necesario utilizando los resultados como guía. También mantendremos la disponibilidad de los datos. En este sentido, dejaremos que TI tome la iniciativa. Son los expertos en hacer que las herramientas funcionen y el flujo de datos. Evitaremos a toda costa puntos únicos de falla. Normalmente, los mecanismos de redundancia de datos, como los sitios espejo, mitigarán los problemas de disponibilidad. Y si nuestros datos residen en un centro de datos o un proveedor en la nube, esto no debería ser un problema. No obstante, trataremos estos datos como lo hace con el resto de datos. Siempre es prudente asegurarse de que esté respaldado y almacenado de manera segura. 


sábado, 14 de mayo de 2022

Arquitectura de datos. Identificación de las partes interesadas (Stakeholders)

Veremos cómo identificar a las partes interesadas que deben ser parte de un programa de gobierno de datos. El equipo lo es todo en una estrategia de gobierno de datos. Sus partes interesadas dan forma a la estrategia y las empresas quieren comprender quiénes se verán afectados por una nueva actividad porque eso ayudará a aplicar la geografía y los límites en torno a la política. Debemos alinear nuestras necesidades con las habilidades necesarias. Esto significa elegir a las personas que trabajarán con la tecnología o quienes realmente utilizarán los datos. 

Los técnicos no entenderán las necesidades del negocio y los analistas no entenderán la tecnología. La idea es darle a cada bando suficiente información para que entiendan que están haciendo. Para ello, el liderazgo es clave para cualquier grupo de partes interesadas (Stakeholders). Los líderes deben ser identificados y empoderados. No nos referimos a gerentes o superiores sino a personas que comprenden y llevan a otros con ellos. En términos generales, hay tres grupos principales que deseamos identificar como partes interesadas clave. 

Identificación de las partes interesadas (Stakeholders)

Primero, los creadores de datos, los técnicos. Luego están los usuarios de los datos, las gente que utilizará los datos. Y tercero los creadores de reglas de datos, aquellos que tienen interés en las políticas y procedimientos. 

Una vez identificadas estas tres partes interesadas, hay distintas categorías en cada una de ellas. Y también existe la necesidad de una combinación de personas técnicas y no técnicas interesadas en la gestión de datos. Tendremos guardianes. Los que guardan y mantienen los datos, ya sean técnicos o usuarios, específicamente los guardianes de datos y los analistas de negocios. También hay partes interesadas en las actividades de recopilación de datos y gobernanza que se expanden a la alta dirección, la Junta Directiva. Los oficiales legales y de cumplimiento ciertamente tienen un gran interés en la recopilación de datos. Y luego están los proveedores o vendedores e incluso nuestros clientes. 

Todo esto nos ayudará a evaluar a las partes interesadas y nuestro grupo estará directamente involucrado en la gobernanza y el manejo de datos. También tenemos a los que estarán interesados y afectados por estas actividades. Una vez que hayamos identificado a todas las partes interesadas, hay un modelo que podemos utilizar para incorporarlas y obtener su apoyo. Generalmente, debemos tener tres argumentos para  que se adapten a nuestras necesidades. 

Primero, debemos tener una respuesta a la pregunta, ¿qué gano yo? Cada tipo de actor tendrá diferentes intereses y necesidades. Por lo tanto, determinaremos cómo se beneficiará un ingeniero de software con estas actividades. Debemos asegurarnos de que sepan cómo la estrategia de gobernanza les facilitará la vida. Si es alguien en ventas o marketing, no debería ser difícil argumentar cómo tendrán información mejor y más útil para dirigirse a los clientes. Identificaremos el potencial y las oportunidades y haremos que estas actividades sean valiosas. La gobernanza puede parecer aburrida a primera vista, pero es una necesidad absoluta. Lo mismo ocurre con los datos. Encontrar el valor tanto en la recopilación de datos como en una política de gobernanza arrojará luz sobre nuevas oportunidades de negocio.

Tecnologías en la nube y gobernanza de datos

A continuación veremos  las formas en que las tecnologías en la nube afectan la gobernanza de datos.

Un gran beneficio de la nube es que es rentable para las empresas que no quieran mantener sus propios equipos para el almacenamiento de datos. Además ofrece un tiempo de actividad del 100%, una necesidad fundamental para cualquier empresa. Y eso se debe en parte a su escalabilidad, con nuevos servidores virtuales en marcha cuando aumenta el tráfico. La nube es una excelente manera para las empresas que desean descargarse de sus operaciones de datos y concentrarse en el negocio. Los proveedores de la nube ofrecen experiencia y análisis integrados, lo que hace que sea una transición fácil incluso para las organizaciones más grandes.

Hay consideraciones importantes para las empresas que utilizan la nube o que están considerando un salto a la nube. 

Intimidad

Mantener la privacidad de la información de una empresa y la información de los clientes que recopilan es de suma importancia por todo tipo de razones. La seguridad también va de la mano con la privacidad porque para mantener la privacidad de la información, debemos protegerla de filtraciones y piratas informáticos. 

Confíanza 

En el proveedor de la nube, en sus procesos y políticas y, en última instancia, que nuestros clientes confíen en nuestra empresa. Si perdemos esa confianza, es muy difícil recuperarla. 

Gobernanza

La gobernanza en una nube es diferente. Por ejemplo, los datos que solíamos guardar en el sótano en un servidor,  ahora dicho servidor puede encontrarse en San Francisco, Londres o Berlín. 

Tener los datos en la nube elimina la mayor parte de los errores generados por el usuario, pues en este caso es el proveedor de la nube quien garantiza la privacidad y la seguridad de estos.

Generalmente hay dos tipos de nubes. Nubes privadas, que se ubican in situ incluso si la ubicación física no está emparejada con la sede de una empresa. Nubes públicas, que son soluciones alojadas por proveedores que tienen centros de datos ubicados en múltiples ubicaciones alrededor del mundo. Y nubes híbridas, que son una mezcla de las dos primeras. Y así, la gobernanza de datos, en lo que respecta a la nube, puede ser un objetivo en constante movimiento porque, además de preocuparnos por los errores de usuario, debemos comprender dónde se encuentran físicamente nuestros datos porque pueden estar sujetos a leyes en diferentes partes de el mundo.

Para establecer un gobierno adecuado para los datos basados en la nube, nuestra empresa debe cultivar un cierto nivel de experiencia.  Para utilizar eficazmente la nube, las empresas deben desarrollar una estrategia empresarial para la nube.


sábado, 30 de abril de 2022

¿Por qué Big Data es diferente?

Vamos a ver las diferencias entre Big data y paradigmas de datos tradicionales. Big data no son solo datos. Si lo fueran, se llamaría datos y no Big data. Y la distinción no radica solo en su tamaño. Contiene múltiples activos sobre prácticamente cualquier pieza de información imaginable que pueda resultarnos útil. Es el tipo de datos a los que no teníamos acceso en el pasado. El término Big data existe desde la década de 1990 aunque en esa época el almacenamiento de datos resultaba complicado y costoso.

Todo eso cambió en la década de 2000  cuando pudimos recopilar conjuntos de datos de extrema complejidad y alcance. Pero los macrodatos no son independientes, es decir, no basta con tener los datos. También tenemos que tener el poder de procesamiento y una forma de analizarlos para que sean significativos. Eso también ha cambiado con un procesamiento más barato y rápido, y las herramientas necesarias para obtener significado de los datos. Ahora podemos recopilar grandes cantidades de información,  almacenarla y analizarla. Big data significa más grande, más rápido y mejor. Pero no sólo la tecnología en sí, sino la forma en que vemos y analizamos los datos.

¿Por qué Big Data es diferente?

Podemos aplicar análisis estadístico sobre innumerables atributos, compararlos y extraer significado de ellos. Otra tecnología que se ha beneficiado de una potencia de procesamiento y almacenamiento exponencialmente mayores ha sido la inteligencia artificial y el aprendizaje automático. Ahora podemos incorporar la automatización en el análisis de datos, utilizando IA. Y esto crea nuevas oportunidades para comprender el comportamiento humano de formas que nunca imaginamos posibles. Ahora estamos en un mundo 24 horas al día, 7 días a la semana, 365 días al año, donde la información es accesible todo el tiempo. 

Esto es importante para las actividades de análisis de datos que están en curso y están sujetas a cambios constantes. Con Big Data, estamos encontrando nuevos conocimientos que simplemente no estaban disponibles antes. Podemos utilizar la información que recopilamos para comprender mejor el comportamiento de la gente respecto al mercado o a los productos de nuestra empresa.

IoT, el Internet de las cosas, es un gran ejemplo de información a la que nadie podría haber imaginado tener acceso. Ahora, podemos entender cómo las personas navegan por internet o  cómo utilizan el refrigerador, etc. Tenemos una capacidad asombrosa no solo para recopilar y almacenar los datos, sino para comprender realmente lo que significan, y eso es poder. 

Datos identificativos

Para crear un plan de gobierno de datos, primero debemos identificar el dominio de datos que nos interesa. Hay que mirar la visión corporativa de nuestra empresa y preguntarnos por qué necesitamos estos datos. Y estar preparados para cambiar de rumbo si la experiencia o los datos nos llevan en otra dirección. Los macrodatos por definición son complejos, y también las herramientas y la metodología de análisis de datos que adoptemos.  Hay que planificar un aumento gradual, comenzando con pequeños datos manejables . También tenemos que presupuestar una progresión en aumento de manejo de más datos a lo largo del tiempo. Esto consiste en identificar la tecnología y las herramientas que necesitaremos para cumplir nuestros objetivos, incluso aunque falten 12 o 24 meses para nuestro objetivo. Y eso requiere que comprendamos las herramientas.  Debemos tener las herramientas adecuadas para alinear la tecnología a nuestras  necesidades y no al revés. 

Un concepto erróneo común sobre el Big data es que podemos analizar todo y mirarlo desde un sinfín de ángulos diferentes para encontrar la solución a todos nuestros problemas. El Big data es complejo y, por lo tanto, puede serlo el análisis de esos datos. Tan malo como no tener el conocimiento que necesitamos puede ser no poder obtener conocimiento de nuestros datos porque no sabemos dónde buscar. No hay que hacerlo al azar.

La gobernanza requiere una política escrita y un plan de recopilación de datos. Finalmente, necesitamos identificar a los jugadores que entienden. Nuestro equipo de gobierno de datos, será una combinación de personas técnicas y no técnicas. Algunos comprenderán la tecnología y otros comprenderán la información. Los requisitos y necesidades comerciales. Algunos pueden entender ambos. Necesitamos una buena representación de lo que quiere nuestra empresa en términos de valor de la información. 


sábado, 18 de diciembre de 2021

Arquitectura de datos y gobernanza

La gestión adecuada de datos es fundamental en estos días. Estamos hablando de arquitectura de datos y gobernanza de datos. Esto se logra a través de políticas que se relacionan con cómo se crean o recopilan los datos y cómo se utilizan. Y esto a menudo está dictado por leyes y regulaciones. Por lo tanto, existen diferentes reglas en diferentes partes del mundo sobre cómo se recopilan y utilizan los datos. Como por ejemplo las leyes de protección de datos y otras políticas que se deben cumplir. Si esas políticas se diseñan correctamente y la concienciación y la capacitación de los usuarios, los hacen conscientes de esas políticas y la relevancia de las mismas. Entonces se puede lograr el cumplimiento normativo. Pero esto por sí solo no será efectivo, es necesario un  monitoreo continuo del uso de datos y cumplimiento de las políticas y controles de seguridad que protegen esos activos de datos. 

Arquitectura de datos  y gobernanza
Esto no es algo que se haga de una sola vez, lo primero que debemos hacer es identificar los activos de datos que tienen valor para la organización. A menudo, es difícil determinar esto hasta que organizamos esos datos en información. De modo que podemos inventariar las ubicaciones de almacenamiento de los datos disponibles. Por ejemplo, en una matriz de almacenamiento local, en la nube. También pueden estar en los teléfonos de los usuarios. 

También hay que determinar los usuarios y grupos que tenemos. Y asegurarnos de que las listas de control de acceso, o ACL, otorguen solo los permisos necesarios para que los usuarios completen las tareas del trabajo, y nada más. La arquitectura de datos en la gobernanza también se ocupa de clasificar los activos de datos. Consiste en agregar información adicional, etiquetas o metadatos adicionales de forma que podamos asignar etiquetas de confidencialidad a los datos. Por tanto, podrían utilizarse categorías de clasificación. Por ejemplo, podríamos marcar como confidencial ciertos archivos almacenados en un servidor que contiene tarjetas de crédito. Existe una variedad de herramientas que podemos usar para hacer esto. ¿por qué tenemos que molestarnos en pasar por esto? ¿Por qué asignar una etiqueta de información confidencial a archivos que  contienen información de tarjetas de crédito?

Es necesario porque luego, luego podemos asignar niveles de autorización de seguridad o permisos basados en esas etiquetas y la clasificación de esos datos. La arquitectura y la gobernanza de datos también se ocupa del cumplimiento de las leyes y regulaciones. Y esto variará en diferentes jurisdicciones legales alrededor del mundo. Por lo tanto, como especialistas de TI en datos, debemos estar bien informados sobre qué leyes y regulaciones protegen los datos. Dónde se recopilarán y utilizarán los datos de los que somos responsables. Privacidad de datos significa que tendremos que fortalecer los sistemas de TI que manejan esos datos. Eliminar los agujeros de seguridad haciendo cosas como aplicar actualizaciones. Deshabilitar servicios innecesarios, usar métodos de autenticación sólidos, etc. Dentro de una organización, sus políticas de seguridad a menudo provienen de leyes y regulaciones. Necesitamos algún tipo de forma centralizada en una empresa más grande para hacer cumplir y monitorear el cumplimiento de estas reglas.

Para gobernar adecuadamente los datos, también tenemos que pensar en minimizar el impacto de las filtraciones de datos. Una forma de hacerlo es mediante la realización de un análisis de impacto comercial o BIA por si ocurre algo de este tipo. Como resultado de esto, podemos implementar controles de seguridad efectivos sobre las amenazas que tienen más probabilidades de afectar los activos de datos más valiosos. Pero nuevamente, necesitamos monitorear continuamente los controles de seguridad que implementamos para proteger los datos y asegurarnos de que aún sean efectivos. Lo que es un control de seguridad efectivo hoy en día podría no ser efectivo unos meses después. También deberíamos considerar la redundancia del sistema de TI. Este es otro aspecto de ser un custodio de datos y asegurarse de que los datos estén disponibles. Podemos hacer esto mediante tecnologías de agrupación en clústeres y equilibrio de carga. La redundancia de datos también se puede lograr a través de copias de seguridad de datos y, por supuesto, replicación a otros hosts. Donde la diferencia es que la replicación de datos es una copia más actualizada de los datos que se replica entre hosts. Y podemos hacerlo a nivel del sistema de archivos. O también podemos hacerlo a nivel de base de datos creando, por ejemplo, réplicas de lectura de la base de datos en la nube. 

Tipos de arquitectura de sistemas de datos de TI 

La planificación es un concepto fundamental cuando se trata de analizar los tipos de arquitectura de sistemas de datos de TI. Un tipo es un diagrama de relación de entidades o ERD. Éste nos permite definir entidades así como atributos de datos. Una entidad, por ejemplo, podría ser una tabla de base de datos mientras planificamos la estructura de almacenamiento para nuestro entorno. El atributo de datos esta relacionado con las columnas dentro de la tabla y el tipo de datos de la columna. Los atributos también determinan cualquier restricción sobre lo que se permite almacenar dentro de esa columna. Por otro lado  están las relaciones de datos. Es como una base de datos de tipo del  entorno SQL donde podemos tener relaciones entre tablas. Pero debemos considerar los procesos comerciales que utilizarán estos datos. Lo que se utilizará para crear un diagrama de relación entre entidades. Hay muchas herramientas que permiten crear  diagramas para esto. Utilizamos los modelos guardados para crear activamente una estructura de almacenamiento de base de datos desde nuestro ERD. 

Tipos de arquitectura de sistemas de datos de TI

Cuando trabajamos con una planificación de la arquitectura de nuestro sistema de datos, tenemos que definir las entradas de datos, incluir los requisitos de datos técnicos en términos de qué tipo de datos son aceptables. Esos datos pueden provenir de bases de datos internas dentro de la organización o de fuentes externas, lo que significa que debe existir confianza en la validez de los datos que ingresaremos en nuestros sistemas. También tenemos que definir salidas de datos. Esto es importante porque se relacionará con los procesos comerciales que se ocupan de la gestión de datos. Eso implica el procesamiento de datos, la transmisión y el almacenamiento. Mientras hacemos esto, podemos identificar brechas. Y en nuestro contexto en el que hablamos de arquitectura de datos, hablamos de identificar problemas relacionados con la forma en que se gestionan los datos y detectar incumplimientos de regulaciones para la privacidad de los datos. 

Las salidas de datos también incluyen resúmenes e informes informativos que pueden derivarse de los datos en bruto. Esto puede venir de fuentes internas y externas. El Open Group Architecture Framework, también llamado TOGAF, es una guía de mejores prácticas del sistema de información. Podemos utilizarlo para diseñar nuestra implementación guiada de una solución de arquitectura de datos real. También podemos mapear tareas de gobierno de datos con objetivos comerciales. Por ejemplo, el objetivo comercial podría ser recopilar los hábitos de compra de los clientes con fines de marketing. Pero al mismo tiempo tenemos que hacer el análisis mientras protegemos los datos. La protección de los datos puede significar que, si hay datos confidenciales, es necesario marcarlos como tales. Deben ser clasificados, marcados con los permisos apropiados y en algunos casos, es posible que deban encriptarse. Y eso podría ser necesario para el cumplimiento normativo. El Cuerpo de conocimiento del análisis empresarial, también llamado BABOK, es un conjunto de mejores prácticas relacionadas con el análisis empresarial. Es decir el análisis de estrategias comerciales y cómo se relaciona esto con el uso del sistema de TI. Necesitamos identificar las necesidades del negocio, los objetivos del negocio y las soluciones relacionadas que brindarán valor a las partes interesadas afectadas. Y esto, se relaciona con los datos que ingresan a estos sistemas. Los datos que se obtienen como resultado, donde podemos obtener valor de grandes conjuntos de datos sin procesar. Y cómo manejar esos datos de acuerdo con las leyes y regulaciones.

Informes y análisis de datos

Las organizaciones no tardan mucho en acumular grandes cantidades de datos. Pero, ¿qué hacer con esos datos? Ahí es donde entra en juego el análisis de datos. Al analizar los datos correctamente, podemos extraer información que de otro modo ni siquiera hubiéramos sabido que estaba allí, si hubiéramos dejado los datos sin procesar en su formato original. Pero antes de obtener todos estos conocimientos, tenemos que hacer un poco de trabajo de preparación. Los datos deben limpiarse y transformarse, de modo que podamos proceder con el modelado de datos para ver las relaciones. La limpieza y transformación de datos se considera un trabajo de preparación. Debemos prestar especial atención en asegurarnos de que nuestros datos brutos sean correctos y coherentes. Porque facilitará mucho el modelado y el análisis más adelante. Y, por supuesto, hará que los datos sean mucho más fiables.

Informes y análisis de datos

Consiste en eliminar datos irrelevantes y duplicados, completar valores perdidos, asegurarse de que los valores numéricos sean realistas. ¿Están dentro de un rango aceptable? Corrección de errores tipográficos, mayúsculas y abreviaturas. Y cuando se trata de algunos tipos de datos como fechas, asegurarse de que estén en un formato de fecha consistente. A menudo, es posible escribir fórmulas o scripts para automatizar este tipo de limpieza y transformación de datos. 

El análisis de datos, apoyará la toma de decisiones. Porque hemos limpiado los datos y los podemos modelar de diferentes maneras, observando relaciones, tendencias o patrones. Lo que significa que también pueden resultar en eficiencias en los procesos de negocio, y hacer esto, también significa, eficiencias de costos.

La analítica de datos siempre se beneficia del procesamiento paralelo (agrupación de escala horizontal), para trabajar con conjuntos de datos muy grandes y obtener estos conocimientos podemos utilizar una implementación de  Apache Hadoop. El siguiente paso a considerar, es el origen de los datos con los que trabajaremos mientras realizamos nuestro análisis. Pueden venir de un sistema de procesamiento de transacciones en línea u OLTP. Donde se realizan operaciones estándar de creación, lectura, actualización y eliminación en los datos. La creación, lectura, actualización y eliminación se denomina a menudo CRUD, La otra cosa a tener en cuenta es la dispersión de datos sin procesar entre varios sistemas, ya sean locales, en la nube o ambos. En algunos casos, con organizaciones más grandes, cada departamento tiene una solución diferente o una forma diferente de administrar sus datos.

¿cómo vamos a reunir todos esos datos en una ubicación central? lo hacemos en un almacén de datos. (Data warehouse)  Y es por eso que es importante, asegurarnos de que los datos se limpian y transforman, para que sean coherentes. No podemos realizar un modelado de datos adecuado sin coherencia en los datos subyacentes.

Por otro lado está el concepto de espacio aislado, que se aplica al análisis de datos. Esto significa que tenemos un entorno de análisis de datos independiente, escalable y siempre disponible. Esto se puede hacer mediante virtualización, o en la nube o  también puede ser una partición lógica de un almacén de datos empresarial (Data warehouse) general más grande. Esto permite a los científicos y analistas de datos elegir qué herramientas quieren usar para realizar su análisis. Y al mismo tiempo, también sirve como un entorno de análisis de datos experimentales. Si recopilamos grandes cantidades de datos, queremos intentar sacarles el máximo valor posible.

Estamos hablando de inteligencia del negocio o BI. El análisis de datos también significa que deberíamos tener un portal de informes y análisis de autoservicio. Suele ser un portal web donde los analistas de datos pueden establecer una conexión y luego trabajar desde allí, para realizar su modelado de datos y ejecutar resúmenes e informes. Al hacer esto, podemos descubrir patrones ocultos, identificar correlaciones entre puntos de datos separados, identificar tendencias a lo largo del tiempo. También podemos ejecutar modelos de predicción. Y esto, por supuesto, será muy valioso para cosas como marketing o mirar los patrones de compra de los clientes, etc.