Mostrando entradas con la etiqueta Big Data. Mostrar todas las entradas

sábado, 9 de abril de 2022

Gobernanza y su relación con Big Data

Antes de que podamos discutir la importancia de la gobernanza de datos, debemos echar un vistazo al Big Data y comprender por qué la gobernanza se ha convertido en un tema tan candente. Big data es el término general que se aplica a conjuntos de datos. Pero lo que hace que el Big data sea diferente a la forma en que manejamos los datos en el pasado es que el Big data es grande y complejo, a menudo está representado por cantidades masivas de datos muy granulares, que representan cosas que pueden no parecer útiles al pie de la letra. Big data también se refiere al acto de procesar esos datos porque el gran tamaño de los grandes datos hace que comprenderlos sea un desafío. Utilizamos el procesamiento estadístico para analizar y evaluar Big data con el entendimiento de que el conocimiento tiene poder. En otras palabras, podemos sacar conclusiones de esos datos aparentemente inocuos que no hubiéramos podido ni siquiera hace diez años.

Así que aquí está la razón fundamental. Es decir, ¿por qué estamos tan interesados en el Big data? ¿Por qué tantas empresas hacen todo lo posible para obtenerlo y comprenderlo? El poder analítico de las herramientas de Big data nos da la capacidad de recopilar el comportamiento del usuario a partir de estos grandes conjuntos de datos, nuevamente, en datos que no están disponibles o no se consideran útiles cuando se examinaban directamente sin procesar. Ahora, las empresas pueden utilizar el análisis predictivo para comprender ese comportamiento y brindar mejores servicios a los clientes o perfeccionar la forma en que hacen negocios o ambas cosas. Y eso es todo porque Big Data permite a las empresas extraer valor de los datos. Valor que no existía antes.

Pasemos al otro lado de la ecuación, la gobernanza. Nos referimos al gobierno corporativo porque el gobierno puede considerarse de diferentes maneras. Y la gobernanza en este sentido es el acto de desarrollar y adherirse a reglas, prácticas y procesos dentro de una estructura corporativa, ya sea que esa estructura sea una docena de personas o decenas de miles de personas. Cuando hablamos de la gobernanza de Big data, hay cuatro principios clave que debemos comprender y adoptar.

El proceso

Las actividades bien definidas que realiza una organización. Están bien definidos para brindar consistencia y eficiencia. Estas actividades deben documentarse y revisarse periódicamente.

Los empleados

En una empresa los empleados realizan los procesos. Pero en la gobernanza de big data, también es útil tener en cuenta otros dos grupos de personas, los proveedores de una organización y las personas representadas por los datos que se recopilan, generalmente los clientes. Eso es crucial en Big data porque los datos que maneja una organización pertenecen en muchos sentidos a las personas que los proporcionan.

La tecnología

Es el facilitador y la razón por la que tenemos esto llamado Big data. Y aunque es la herramienta que hace girar la rueda, debemos tener cuidado de darle más énfasis del que merece. Después de todo, es una herramienta y, aunque es fácil poner la tecnología en un pedestal, el enfoque importante es y siempre debe estar en las personas que proporcionan los datos y las personas que tienen acceso a ellos.

Mejores prácticas

Porque todo lo que hemos discutido aquí puede desmoronarse fácilmente si no existen procedimientos y políticas buenos y bien formados para garantizar un gobierno de datos responsable.

Por qué Big Data requiere gobernanza

Big Data es grande tanto en alcance como en popularidad. Está en todas partes, en las noticias y en la vanguardia de la discusión corporativa. Y lo más importante, está en servidores en todas partes. Existe un gran conjunto de herramientas que se pueden usar para la recopilación de datos y el análisis estadístico.

¿Por qué Big Data requiere una estructura de gobierno? La primera razón es el peligro de que se abuse de los datos. La mayoría de las organizaciones son benevolentes y no planean hacer un mal uso de los datos que recopilan. Pero con Big data, la información puede ser mal utilizada, aunque las empresas tengan las mejores intenciones, existe la posibilidad de que se produzcan pérdidas de datos.

Los datos pueden salir a la luz mediante piratería o errores humanos. Una mala seguridad sería la culpable. Y eso puede ser un problema costoso para las empresas que no encriptan o custodian adecuadamente los datos que recopilan. También existe el riesgo de que los datos se vuelvan públicos, nuevamente, a través de piratería informática o error humano.

Las empresas que recopilan cantidades masivas de datos deben comprender los riesgos y las consecuencias. La gobernanza de Big data puede ser una oportunidad de implementar un buen gobierno que realmente ayude a las empresas. Aparte que brinda la oportunidad de tomar mejores decisiones, lo que da una ventaja competitiva, permitiendo utilizar los datos recopilados para ofrecer mejores servicios. Sin planificación Big data puede ser un riesgo. Pero cuando se implementa un buen gobierno, otorga credibilidad a la empresa. Y la credibilidad se traduce en valor real.

sábado, 4 de diciembre de 2021

Big Data

Big data significa que estamos trabajando con grandes cantidades de datos. Y eso es especialmente cierto en gran parte debido a la revolución de Internet. Desde mediados y finales de la década de 1990, de repente, el uso de Internet ha crecido exponencialmente. Hasta el punto en que solía ser algo que podíamos usar para buscar información en la web o tal vez para enviar algún correo electrónico ocasional. Pero hoy en día se usa para servicios de transmisión. Y las empresas realmente no pueden hacer negocios sin conectividad a Internet en todos sus dispositivos informáticos. Los expertos estiman que aproximadamente el 90% de los datos actuales tienen solo dos años.

Eso realmente pone las cosas en perspectiva, para mostrar que el volumen de datos sigue creciendo. Y así, de alguna forma, necesitamos una forma de capturar, recopilar, almacenar y procesar estos datos para que tengan sentido. Y eso es parte de lo que se tratan con Big data. Cuando tenemos datos que se organizan y obtenemos conocimientos de ellos, realmente estamos hablando de información. Así que todos hemos escuchado el antiguo término, la información es poder. Y eso es tan cierto ahora como siempre. Con Big data, estamos hablando de utilizar soluciones informáticas modernas que son realmente necesarias para procesar y organizar datos en información a esta escala.

Los sistemas tradicionales de administración de bases de datos simplemente podrían no ser capaces de manejar este volumen de datos. Las bases de datos tradicionales pueden manejar millones de filas o registros, y podemos ejecutar consultas en ellas y devuelven resultados con bastante rapidez. Pero, ¿qué pasa cuando se trata de miles de millones o billones de artículos almacenados? Bueno, los sistemas tradicionales simplemente no están diseñados para eso, y ahí es donde realmente entra el Big data. Con el Big data, también tenemos que considerar de dónde provienen los datos.

Estos datos pueden provenir de cámaras de vigilancia de seguridad, de dispositivos de IoT, o del uso de aplicaciones de teléfonos inteligentes, o de datos financieros, estamos hablando de los datos recopilados a lo largo del tiempo. Y sabemos que eso sigue creciendo exponencialmente. Los datos realmente pueden venir de cualquier lugar. Podrían ser feeds de redes sociales, registros militares, registros de llamadas telefónicas. Realmente, podrían provenir de cualquier parte. Y esa es una de las razones por las que estamos hablando de Big data. Porque hay mucho y muchas fuentes.

Big data tiene una serie de características, una de las cuales es la cantidad de datos con los que estamos trabajando. Tenemos que considerar no solo el espacio de almacenamiento, que podría estar en terabytes para grandes conjuntos de datos. Pero también cuántos datos se pueden procesar a la vez. Y eso puede ser especialmente importante si estamos utilizando una solución de almacenamiento en caché en memoria de base de datos como Redis. Solo podemos almacenar una cantidad determinada de datos en caché a la vez para acelerar las operaciones. La siguiente característica que tenemos que considerar es el ritmo al que se producen los datos. Eso va a variar de una organización a otra. Donde realmente depende de qué tipo de datos se consideran valiosos en una organización profesional, una agencia gubernamental o incluso una base de datos individual. Así que tenemos que pensar en cuántos datos se producen y de dónde proceden.

Existe una amplia variedad de tipos de datos. También tenemos que pensar en esto. Ya se trate de feeds de redes sociales o registros de llamadas telefónicas, medios de audio y video. Tenemos que considerar qué es lo que queremos recopilar, almacenar y procesar. La siguiente característica de Big data es, ¿cómo de precisos son los datos? ¿Se puede confiar en ellos? ¿De dónde provienen los datos? ¿Fue de un registro interno u otra base de datos, o se proporcionó externamente? ¿Se proporcionó de forma automatizada o lo proporcionaron los usuarios, lo que significa que podría estar sujeto a errores? O podríamos querer ejecutar algún tipo de reglas de transformación. Para asegurarnos de que cuando las personas ingresen, por ejemplo, diferentes variaciones de Estados Unidos ,E.E.U.U o EE.UU., Lo transformemos para que sea algo consistente para facilitar la búsqueda y obtener información significativa.

La precisión de los datos también es importante cuando se trata de transmitir datos a través de la red y almacenarlos. En otras palabras, protegerlo de manipulaciones, ya sea mediante cifrado y / o firmas digitales. Idealmente, deberían usarse ambos. La característica más importante de los datos es ¿cómo obtenemos valor de esos datos? Porque entonces se convierte en información. Así que tenemos que pensar, por ejemplo, en millones de transacciones de clientes minoristas por hora. Está bien, si estamos capturando esa información. Pero si no hacemos nada con ella, ¿cuál es el valor?, el valor vendría al mirarlo y determinar si hay alguna tendencia a lo largo del tiempo. O patrones para comprar, en diferentes lugares, diferentes momentos del día, diferentes tipos de productos. Además, mirar información, como de dónde son las personas. Y si existe algún tipo de correlación con nuestros hábitos de compra que sean similares para las personas de la misma zona. Ahí es donde el procesamiento de

Big Data y la obtención de valor de esos datos se vuelve muy frecuente.

Implementar una solución SQL en AWS

Vamos a implementar una instancia de base de datos de Microsoft SQL Server en la nube con Amazon Web Services. Para ello abrimos la consola de AWS

Tenemos una cuenta de Amazon Web Services o AWS, y hemos iniciado sesión en la Consola de administración de AWS. Nos desplazamos hacia abajo y debajo del encabezado Base de datos hacemos clic en RDS, que significa sistema de base de datos relacional.

Los servicios de base de datos de AWS tienen: RDS, DynamoDB, Neptune, etc. Lo que queremos es crear una nueva base de datos, así que hacemos clic en el botón Crear base de datos (Create database).

Implementar una solución SQL en Amazon Web Services

Con lo que aparece una nueva página para seleccionar el motor de BBDD. Entre otras tiene para elegir: Amazon Aurora, MySQL, MariaDB, etc. Elegimos Microsoft SQL Server, así que lo seleccionamos. De las opciones que nos permite elegimos SQL Server Express Edition. Y en la parte inferior derecha hacemos clic en Siguiente.

Hacemos clic en el botón Siguiente (Next). Se muestra una nueva página para especificar detalles de la base de datos. Tiene las siguientes secciones: Especificaciones de la instancia y Configuración. Las especificaciones de la instancia tienen un menú desplegable.

Para SQL Server Express, no tenemos todas las opciones disponibles, elegimos la clase de instancia de base de datos de la lista desplegable, elegimos db.t2.micro como la clase de instancia, que admite 1 vCPU y aproximadamente 1 gigabyte de RAM.

implementar SQL Server en Amazon Web Services

Y no cambiamos nada más en esta primera página, aparte de ir a Configuración (Settings), para especificar un identificador de instancia de base de datos que llamamos db1. Especificamos un nombre de usuario maestro de dbadmin, introducimos una contraseña y pulsamos continuar (next).

Escribimos db1, en el cuadro de entrada para el identificador de instancia de base de datos, dbadmin en el cuadro de entrada para el nombre de usuario y escribimos la contraseña en el cuadro de entrada para la contraseña.

Con esto vamos al tercer paso donde aparece una nueva página titulada Configurar página de configuración avanzada (Configure advanced settings).

Especificamos una red virtual en la nube en la que queremos implementar esto. Elegimos VPC-East.

Bajamos por la pantalla hasta accesibilidad pública (Public accessibility), seleccionamos Yes para poder acceder a la base de datos desde nuestra estación local para administrar la instancia de base de datos de SQL Server.

Podemos ver aquí que va a usar el puerto de escucha 1433, que Microsoft SQL Server normalmente utiliza. Pero no cambiamos nada aquí más, excepto que desactivaremos la protección contra eliminación.

Hacemos clic en Crear base de datos. Desactivamos la protección contra eliminación porque después de haber probado esta instancia de base de datos, queremos eliminarla rápidamente. De lo contrario, si la dejamos funcionando, incurriremos en grandes facturas mensuales por ejecutar una base de datos en la nube.

Aparece una nueva ventana con el siguiente mensaje: Se está creando su instancia de base de datos.

Pulsamos sobre el botón ver detalles de instancia de base de datos, (View DB instance details) Que nos lleva a la configuración de la instancia de la base de datos que se está creando. Al hacer clic en Bases de datos a la izquierda, vemos nuestra instancia de base de datos, db1.

Le damos unos minutos hasta que termine de crearse y después hacemos clic sobre Bases de datos en el panel de navegación. Verificamos el estado de la base de datos db1. Hacemos clic en el enlace db1 y aparece la hoja de detalles de db1 nos desplazamos hacia abajo en la hoja y copiamos la dirección del Endpoint de la parte de Conectividad (Connectivity)

Después abrimos el IDE de Microsoft SQL Server Management Studio (Administrador). Y pegamos el nombre del servidor que acabamos de copiar.

Utilizamos el autenticación de SQL Server. Especificamos un ID de inicio de sesión de dbadmin y le ponemos la contraseña que hemos especificado al principio al crearla, y finalmente hacemos clic en Conectar (Connect), esto permite conectamos a la nube con nuestra instancia de base de datos de SQL Server.

Implementar una solución NoSQL en AWS

A veces, nuestros requisitos de almacenamiento de datos aconsejarán el uso de una base de datos NoSQL. si sospechamos que vamos a almacenar una gran cantidad de datos y una variedad de diferentes tipos de datos en la misma ubicación.

Entramos en AWS Management Console (enlace a AWS in a Nutshell 1) nos desplazamos hacia abajo en la sección Base de datos y elegimos DynamoDB, que es un tipo de base de datos NoSQL.

Hacemos clic en el botón Crear tabla (Create table)

Introducimos un nombre de tabla (MiTabla) y especificamos una clave para identificar de manera única los datos. Le ponemos ItemID como nombre, y lo marcamos como de tipo String.

Utilizaremos las configuraciones predeterminadas para esta implementación, por lo que no pondremos índices adicionales para acelerar la búsqueda. Hacemos clic en Crear (Create). Después de crear la tabla podemos cambiar los valores elegidos si lo deseamos.

Entonces, en este punto, vemos que nuestra tabla DocumentDB está creada a medias.

Vamos a la pestaña Items para agregar elementos a nuestra tabla definida, que en realidad es equivalente a una fila en un tipo de tabla SQL estándar. Hacemos clic en Crear elemento (Create item).

Elegimos un nombre para el objeto al que va asignando los números 001, 002 etc y hacemos clic en Guardar(Save). Para añadir una nueva fila pulsamos en el combo desplegable sobre añadir (Append) y elegimos el tipo de dato también.

Con NoSQL cada elemento almacenado en una tabla puede tener diferentes tipos de datos de almacenamiento. Esto significa, que cada vez que hacemos clic en Crear elemento y agregamos, digamos, un segundo ItemID de 002 de otro elemento para nuestra columnas, este elemento puede ser de un tipo diferente al anterior. Así que ahora tenemos dos elementos completamente diferentes que comparten el mismo tipo de valor de clave principal, pero eso es todo.

La clave principal debe ser única. Si hacemos clic en Crear elemento e intentamos crear un nuevo ItemID de 001 nos dará un error.

sábado, 29 de octubre de 2016

Big Data de Microsoft

¿Qué es Big Data?

Datawarehousing, el antepasado del bigdata

"Big Data" es un término para la recolección de conjuntos de datos tan grandes y complejos que no pueden ser fácilmente manejados por tecnologías tradicionales de almacenamiento de datos. Big Data es el mundo de datos que existe fuera del almacén de datos tradicional. Es generado por dispositivos; blogs, redes sociales; aplicaciones móviles; clickstreams; ATM, RFID y sensores; tiempo meteorológico, tráfico, y cotizaciones de los mercados; y mucho más. Big Data es des-estructurado, no filtrado y no relacional. Big Data no se genera por las operaciones propias de la empresa.

Big Data es valioso para el negocio, ya que aporta datos a la empresa de su entorno en el mundo en el que opera, compite, y vende. Big Data ofrece la oportunidad a la empresa de obtener datos externos en tiempo real para mejorar, optimizar y mover el negocio hacia nuevos objetivos.

Big Data es alto volumen, alta velocidad y / o activos de gran variedad de información que requieren nuevas formas de procesamiento de cualquier tipo de dato, permitir la toma de decisiones mejorada, así como la visión y la optimización de procesos.

Los escenarios comunes para Big Data

La popularidad de los grandes volúmenes de datos se basa predominantemente en una oleada de nuevos escenarios, fuentes de datos y oportunidades para integrar los datos no relacionales desde fuera de la empresa en su análisis de negocio.

sábado, 15 de octubre de 2016

El Data Warehousing en la actualidad

El Data Warehouse es un marco para gestionar mejor, entender y sacar provecho de los datos generados por el negocio. El almacén de datos tradicional tiraba de los datos en un "depósito de la verdad", esquema impulsado para el análisis y la presentación de informes, y funcionó muy bien durante muchos años. Sin embargo, el mundo de los datos está evolucionando rápidamente en formas que están transformando la industria y las empresas están considerando nuevos enfoques de inteligencia empresarial (BI).

El data Warehouse tradicional está siendo presionado por el creciente peso del volumen explosivo de datos, la variedad de tipos de datos y la velocidad de procesamiento en tiempo real así también de cómo estos los datos se están utilizando para crecer y operar el negocio.

El almacenamiento de datos ha alcanzado el punto de inflexión más importante desde su creación. La empresa moderna necesita una arquitectura lógica que pueda escalar sin problemas para satisfacer estas demandas de volumen con una potencia de procesamiento en tiempo real y capacidad de manejar cualquier tipo de datos para conectar rápidamente el negocio con información valiosa. Esto significa que el data warehouse tradicional tiene que evolucionar hacia un data warehouse moderno.

El data warehouse tradicional fue diseñado para ser un repositorio central de todos los datos de una empresa. Los datos dispares de sistemas transaccionales como ERP, CRM y aplicaciones de línea de negocio debían ser adaptadas para extraer los datos (ETL) e introducirlo en el almacén dentro de un esquema relacional global. La estructura de datos era predecible y el procesamiento y presentación de informes de calidad optimizada. Sin embargo para la preparación de consultas se necesitaba gran medida el apoyo de tecnologías de la información TI basadas en el procesamiento por lotes programados.

La llegada de la Web 2.0 aumentó significativamente los datos relacionados con la empresa generados a través de comercio electrónico, registros web, marketing en buscadores, y otras fuentes. Las Empresas ampliaron las operaciones de ETL para compensar las nuevas fuentes de datos, en última instancia, también expandieron el modelo.

Sin embargo, incluso con estas complejidades crecientes, el valor de negocio principal del almacén de datos tradicional era la capacidad de realizar un análisis histórico y la presentación de informes procedentes de una fuente confiable y completa de datos.

sábado, 9 de julio de 2016

Big Data: características técnicas y operativas de los diferentes proveedores

Vamos a realizar un vistazo rápido de los principales proveedores de equipos y servicios bigdata que actualmente operan en el mercado, con el objetivo de evaluar las ventajas e inconvenientes de cada operador y al mismo tiempo tener una visión general del estado actual de la oferta para Bigdata.

Actualmente las organizaciones requieren soluciones de gestión de datos para análisis que sean capaces de gestionar y procesar los datos internos y externos de diversos tipos en diversos formatos, en combinación con datos de fuentes internas tradicionales. Los datos pueden incluso incluir la interacción y los datos de observación, procedentes del internet de las cosas, sensores, por ejemplo. Este requisito constituye un reto para el software en este mercado ya que los clientes están buscando características y funciones que representan un aumento importante de las estrategias de almacenamiento de datos empresariales existentes.

Bigdata: Características técnicas y operativas de los diferentes proveedores.

El almacenamiento de datos y soluciones de gestión de datos para el análisis, (DMSA) son sistemas que realizan el procesamiento necesario para soportar la analítica. Estos pueden ser extendidos para soportar nuevas estructuras y tipos de datos, tales como XML, texto, documentos y datos geoespaciales, y el acceso a sistemas de archivos gestionados externamente. Deben apoyar la disponibilidad de datos de software de aplicación de interfaces independientes, incluir mecanismos para aislar los requisitos de carga de trabajo, y controlar diversos parámetros de acceso del usuario final dentro de los casos administrados de datos.

Estos son los requisitos necesarios para este tipo de sistemas.

• Un almacén de datos puede formar parte de un sistema más amplio que sirve de DMSA más amplio.

• Un DMSA es simplemente un sistema para el almacenamiento, el acceso y la entrega de los datos destinados a un caso de uso principal que soporta la analítica.

• Un DMSA no es una clase o tipo de tecnología específica.

• Un DMSA puede consistir en muchas tecnologías diferentes en combinación. Sin embargo, cualquier sistema debe disponer de la capacidad de proporcionar acceso a los archivos o tablas bajo la gestión de herramientas de acceso libre.

• Un DMSA debe ser compatible con la disponibilidad de datos de software de la aplicación de interfaces independientes, incluir mecanismos para aislar los requisitos de carga de trabajo y controlar diversos parámetros de acceso del usuario final dentro de la administración de datos.

• Un DMSA debe gestionar el almacenamiento y acceso de datos en algún tipo de medio de almacenamiento, que puede incluir (pero no se limita) unidades de disco duro, memorias flash, unidades de estado sólido e incluso DRAM.

A continuación pasamos a realizar una breve evaluación por separado de cada sistema.

1010data

1010data es un proveedor de servicios de almacenamiento de datos gestionado. Su solución integrada DBMS e inteligencia de negocio (BI) está dirigido a sectores de servicios financieros, venta al por menor/bienes de consumo envasados, telecomunicaciones, gobierno y salud.

Ventajas

• Facilidad de uso de 1010data para el análisis interactivo, específicamente su rendimiento en las consultas, facilidad de carga de datos y capacidades analíticas.

Inconvenientes

• 1010data tiene un enfoque limitado en el almacén de datos lógicos (LDW). Se centra principalmente en el apoyo a las necesidades de análisis de datos gestionados en su propia nube.

Inconvenientes

• 1010data está todavía basado principalmente en Estados Unidos. Sin embargo, recientemente ha inaugurado un centro de datos en Alemania para operaciones en Europa.

• La integración global de 1010data con su ecosistema de BI y análisis, acceso a datos e integración, requiere una mejora.

Amazon Web Services

Amazon Web Services (AWS) ofrece un servicio de almacenamiento de datos en la nube, AWS Kinesis para la transmisión de datos, Amazon Simple Service) y Amazon Elastic MapReduce (EMR).

Ventajas

• AWS es considerado el proveedor de almacén de los principales datos en la nube como un servicio. Logra una adopción fuerte, impulsada por su amplia aceptación de la nube, flexibilidad y agilidad, tanto desde el técnico y el punto de vista financiero.

• AWS es compatible con una amplia variedad de casos de uso cuando se combina con otras soluciones de gestión de datos.

• Buena experiencia del cliente y rápida penetración en el mercado.

Inconvenientes

• Una competencia cada vez mayor en las capacidades funcionales y opciones en la nube para elegir.

• Como AWS es un proveedor en la nube, carece de soporte para las combinaciones de almacenamiento de datos.

• AWS maduran en el uso de Redshift, y se están empezando a reportar limitaciones en relación a sus expectativas para la gestión mixta de carga de trabajo.

Cloudera

Cloudera proporciona una plataforma de almacenamiento y procesamiento de datos basado en el ecosistema Apache Hadoop, así como las herramientas del sistema de propiedad y de gestión de datos para el diseño, implementación, operación y gestión de la producción.

Ventajas

• Cloudera se diferencia de otros proveedores de distribución de Hadoop en que sigue invirtiendo en capacidades específicas, tales como mejoras adicionales como Cloudera Navigator (que proporciona la gestión de metadatos, linaje y la auditoría), mientras que al mismo tiempo trata de mantenerse al día con el proyecto de código abierto Hadoop.

• Cloudera ha colocado con éxito su solución como complemento al almacén de datos tradicional y ha hecho uso de sus relaciones con los proveedores de DBMS tradicionales, sobre todo de Oracle.

• Cloudera ha continuado su expansión geográfica.

• La modularidad Hadoop permite añadir nuevos componentes fácilmente, y Cloudera continúa expandiendo su conjunto de componentes para cumplir con los nuevos casos y las necesidades de uso. Esto permite a Cloudera ofrecer nuevas capacidades sin interrumpir los sistemas existentes.

Inconvenientes

• A pesar de que las organizaciones tienen un interés cada vez mayor en implementaciones en la nube, Cloudera se refiere a la nube utilizando un enfoque de infraestructura como un servicio que no ofrece soporte de servicio escalable, elástico y administrado. Sin embargo, Cloudera se dirige a estas necesidades con mejoras para facilitar la implementación de clusters elásticos en la nube.

• Se considera que la disponibilidad de recursos de apoyo de servicios se está reduciendo. Cloudera ha reconocido que esto es un problema, y ha trabajado para abordar estos puntos en 2015.

Exasol

Exasol ofrece una columna de memoria de DBMS, que está disponible como un solo nodo libre, una solución agrupada. También se ofrece como una solución completamente gestionada en EXACloud y los proveedores de servicios cloud de terceros, tales como AWS, Microsoft (Azure) y Rackspace.

Ventajas

• Exasol introdujo el desarrollo virtual del esquema (para fuentes de datos externas) y el uso de contenedores de lenguajes de guiones, junto con la distribución paralela existente. Esta combinación permite desarrollar, desplegar y ejecutar algoritmos de análisis desarrollados por los clientes sobre Exasol en cualquier idioma (por ejemplo, R, Scala, Java, Python y Lua).

• Buena relación calidad-precio de EXASOL. Se aprecian sus resultados.

Inconvenientes

• Exasol sufre de una falta de visibilidad en el mercado. Exasol redujo sus operaciones de Estados Unidos en 2015.

• Falta de capacidad de despliegue y gestión del ciclo de vida, como la reducción del tamaño del clúster y la funcionalidad de cliente de SQL.

• La documentación es a veces insuficiente y la disponibilidad limitada de las habilidades del mercado dificulta la adopción.

Hitachi

Hitachi entró en el mercado de almacenamiento de datos y DMSA en 2014 con la avanzada Carpeta de Datos de Hitachi (HADB). Se ofrece en tres configuraciones, incluyendo escritorio, modelo de "entrada" y el modelo "estándar".

Ventajas

• HADB posee una alta velocidad, soluciones para el análisis de datos estructurados tradicional combinado con datos de sensores con un enfoque en casos de uso industriales.

• Grandes volúmenes de datos comerciales, incluso los datos de sensores y datos geológicos estructurados con datos para el análisis con HADB. Hay una opción de HADB llamada "fuera de servicio" en la que la ejecución, no pasa por las operaciones tradicionales, síncronas lo que aumenta el grado de paralelización de los procesos de E/S.

• Autosuficiencia y facilidad de acceso a los registros de seguimiento.

Inconvenientes

• Hitachi ofrece una solución madura, eficiente, pero a veces básica para el almacenamiento de datos.

• Hitachi tiene sólo un pequeño número de referencias de producción.

• El posicionamiento de HADB de Hitachi se centra en análisis de alto rendimiento para grandes volúmenes de datos estructurados y no aborda, por sí mismo, el enfoque de LDW. Sin embargo, Hitachi comercializa su adquisición Pentaho como una alternativa al enfoque LDW que se ha establecido en el mercado.

Hortonworks

Hortonworks ofrece una plataforma de datos Hortonworks (HDP) en Linux y Windows. También ofrece Hortonworks DataFlow (HDF) en Linux en una base local y a través de varios proveedores en la nube. Hortonworks con Microsoft (por su servicio Azure HDInsight) para implementaciones híbridas locales y en la nube.

Ventajas

• Hortonworks ha ganado fuerza de mercado con un mayor número de socios reconocidos, incluyendo proveedores tradicionales de DBMS.

• Hortonworks con la plataforma Open Data es compatible con el crecimiento de nuevos proyectos de la Fundación Apache. Hortonworks se diferencia de otros proveedores de distribución mediante la adopción de código abierto.

Inconvenientes

• Será un reto para Hortonworks mantener la integración con un ecosistema de análisis más amplio, como Teradata.

• Incluso con la deriva de la demanda hacia soluciones de código abierto, no seleccionan sólo proveedores o soluciones en base a este único aspecto.

HPE

Hewlett Packard Enterprise hace frente a soluciones de gestión de datos para análisis, HPE Vertica, se basa en el núcleo Vertica DBMS. Está disponible como solución en la nube, como una opción de sólo software y como máquina física. Ofrece integración con Hadoop con HPE Vertica para SQL en Hadoop.

Ventajas

• HPE Vertica tiene una alta relación calidad-precio. Esto lo diferencia de otros proveedores.

• HPE Vertica posee una gran variedad de casos de uso y tipos de datos.

• HPE Vertica abastece a las principales tendencias del mercado, con soporte para la prestación en la nube, el LDW (con Vertica SQL en Hadoop) y ricas capacidades de análisis de bases de datos.

Inconvenientes

• Poca visibilidad del producto en el mercado.

• Problemas con la administración y la gestión de los DBMS de HPE, aunque se está mejorando gradualmente.

• HPE OnDemand ofrece un conjunto de gestión de datos en la nube y servicios de análisis, pero es independiente de la oferta Vertica, y como resultado demuestra una estrategia fragmentada a través de los dos.

IBM

IBM ofrece soluciones DBMS independientes, dispositivos de almacenamiento de datos, una solución z/OS, y una distribución de Hadoop con BigInsights. Sus máquinass incluyen el sistema PureData IBM para Analytics y para análisis de operaciones, el acelerador IBM DB2 Analytics (IDAA) y el IBM Smart Analytics System. IBM ofrece IBM DB2 con aceleración Blu, así como servicios gestionados de almacenamiento de datos.

Ventajas

• IBM ha lanzado dashDB y DataWorks como ofertas en la nube. Estos ofrecen la oportunidad de desplegar rápidamente modelos analíticos y de datos en un entorno elástico. Se dirigen a la creciente demanda de soluciones en la nube.

• IBM ha introducido dispositivos de conexión a fuentes relacionales y NoSQL. Se permite el acceso al procesamiento a través de una amplia variedad de entornos.

• IBM con el proyecto de código abierto Apache Spark añade valor a los productos de IBM por streaming que permite, aprendizaje automático y análisis avanzados. Puede ayudar a una maduración más rápida de Spark.

Inconvenientes

• El nivel de adopción de dashDB es incierta.

• La reducción de personal de IBM reposiciona su oferta para el mercado de soluciones en la nube y de gestión de datos modernos.

• IBM queda en el tercio inferior de relación calidad-precio. Los productos en la nube de IBM no tienen un precio competitivo.

Infobright

Infobright es una compañía global que ofrece una columna con vectores, DBMS altamente comprimidos con MySQL- o una capa API basada en PostgreSQL. Se comercializa el comercial Infobright Enterprise Edition (EEI), para los cuales hay una descarga de prueba.

Ventajas

• La velocidad de procesamiento es el diferenciador de Infobright. Sus tasas de compresión, carga y ausencia de necesidad de indexación.

• Reducción de compromisos hacia los productos que se determinaron como insostenibles en términos de costo.

• Internet de las cosas (IO) presenta una clara oportunidad para Infobright, y planea diversas innovaciones tecnológicas en esta área. Se ha aumentado su carga distribuida de procesador (DLP) para dar cabida a la ingestión corriente, que es fundamental para la adopción de la IO. También ofrece oportunidades en áreas relacionadas como telecomunicaciones y redes.

Inconvenientes

• Algunos tipos de datos MySQL no son compatibles con el software de Infobright, pero esto puede reflejar el uso de diferentes versiones. Ausencia de ciertas características (como limpieza de las tablas), y el proceso de actualización de versiones que se considera engorroso.

• Floja penetración del mercado de la IO de Infobright aunque parece estar haciendo las adaptaciones adecuadas.

Kognitio

Kognitio ofrece la plataforma analítica Kognitio tanto como un motor DBMS de almacén de datos de software y como máquina física. Kognitio ofrece una solución en la nube con Kognitio Analytical Services; También está disponible en la nube pública de AWS.

Ventajas

• Kognitio permite ejecutar soluciones de análisis tradicionales, como mercados de datos y almacenes de datos, junto con distribuciones de Hadoop (incluyendo el motor de análisis de Kognitio para los datos que residen en Hadoop) en una sola gestión de datos para el entorno de análisis - el LDW.

• Con planes de mejorar la convivencia en los nodos de Hadoop y la integración con Apache Hadoop y Kerberos, así como análisis de JSON, Kognitio probablemente aumente su atractivo como motor de procesamiento universal para el procesamiento de análisis distribuido.

• Kognitio se centra en gran parte en la tecnología. Además, se adapta a las nuevas demandas de los clientes de última generación, tales como las que requieren un motor analítico sobre las distribuciones de Hadoop. Esto incluye secuencias de comandos externos para apoyo, Python, Java y C para mejorar la distribución de los enfoques de tratamiento.

Inconvenientes

• Es difícil encontrar personas con conocimientos de Kognitio, sobre todo debido a que es una empresa de pequeño tamaño y su solución está poco implantada.

• Falta de integración con muchos productos de terceros BI y de datos.

• Problemas de administración de bases de datos, tales como la gestión de memoria. Además, observaron que la interfaz de usuario administrativa, se debe mejorar.

MAPR

MAPR Technologies ofrece una distribución de Hadoop con rendimiento y almacenamiento optimizado, mejoras de alta disponibilidad y las herramientas administrativas y de gestión.

Ventajas

• MapR posee alta disponibilidad y gestión de clusters. MapR ha mejorado estas capacidades con la adición de funciones de autorización y auditoría.

• MapR se centra en abordar una amplia gama de casos de uso. Es compatible con streaming, casos de uso operativos y analíticos, todo desde la misma plataforma, con el apoyo y capacidades de SQL.

• MapR se ha estado expandiendo por todo el mundo. Dispone de soluciones conjuntas con los principales actores, como AWS, Google, HPE, IBM, Microsoft, SAP, SAS y Teradata.

Inconvenientes

• Todavía carece de una falta de visibilidad en el mercado.

• En general poco avanzado. Los usuarios crean los análisis que se implementan como productos de datos completos para su uso en producción.

• Problemas con actualizaciones e instalaciones. Para hacer frente a estos retos, MapR ahora ofrece a los instaladores interfaz gráfica de usuario, libros de utilización, un instalador de parches y paquetes de actualización.

MarkLogic

MarkLogic ofrece una base de datos NoSQL que utiliza XML, JSON, texto, Resource Description Framework (RDF) y almacenamiento binario, proporciona una capa de gestión de entidad semántica basada en metadatos. El producto incluye índices, almacenamiento por niveles, apoyo Hadoop Distributed File System (HDFS), soporte de Amazon S3, replicación móvil, búsqueda de texto completo, capacidades geoespaciales, y SQL / ODBC de apoyo.

Ventajas

• Mejoras en el producto, mejor posición en capacidad de ejecución.

• Útil cuando se trata de trabajar con diversas formas de activos de datos semiestructurados (y otros más estructurados). Introducción de estadísticas de casos de uso y cómo se relacionan con los datos bajo gestión, Aumento de las capacidades administrativas y de diseño de MarkLogic.

• MarkLogic como capa de datos se apoya en la entrega de datos en arquitecturas e implementaciones centradas en servicios Web. Soporte para la atomicidad, coherencia, aislamiento y durabilidad (ACID) en NoSQL y completo integración e indexación de texto.

Inconvenientes

• MarkLogic es un pequeño proveedor.

• Falta de expertos especializados en MarkLogic, lo que representa un riesgo para las implementaciones de usuario. Brechas de funcionalidad (falta de declarativa) y falta de herramientas maduras de gestión / administrativas.

MemSQL

MemSQL ofrece un DBMS en memoria para casos de uso transaccionales, combinado con una columna basada en disco para la analítica.

Ventajas

• La estrategia de MemSQL se centra en el apoyo a los casos de uso transaccional y analítico con requisitos de baja latencia. Su integración con Spark Apache permite el procesamiento de transacciones y análisis.

• Posee almacén de datos y DMSA abordando análisis de operaciones.

• Su tecnología es bastante flexible.

Inconvenientes

• Mala relación calidad-precio. Sin embargo, MemSQL ofrece una edición gratuita y no cobra por el almacenamiento en disco en su almacén.

• Poca demanda en el mercado DBMS operativo.

• La oferta de MemSQL se puede utilizar sólo para casos de uso de análisis, como de almacén de datos tradicional.

Microsoft

Microsoft SQL Server comercializa, una arquitectura de referencia, el Sistema de Plataforma Microsoft Analytics (que combina SQL Server Parallel Data Warehouse y HDInsight), una oferta en la nube con SQL Azure de almacenamiento de datos y HDInsight para Hadoop.

Ventajas

• Las soluciones basadas en la nube de Microsoft incluyen un entorno de análisis de datos con SQL Azure Data Warehouse. Aunque el almacenamiento de datos de SQL Azure se encuentra todavía en vista previa. Además, las amplias opciones para el despliegue y el enfoque "solución completa" de Microsoft suponen un reto para los proveedores tradicionales con fortalezas en capacidades en la nube y experiencia de usuario y autoservicio.

• Microsoft Azure ofrece consulta y aprendizaje automático Azure. Introduce un ambiente cada vez mayor de gestión de datos de análisis de auto-servicio para los usuarios de Microsoft. Con la disponibilidad adicional de Data Lake y Azure Data Analytics Lake.

• Se elogia su seguridad, la escala y la familiaridad. T-SQL se convierte en una característica polybase para el análisis de datos estructurados y no estructurados, que incluye R e interoperabilidad con funciones de fuente abierta en base de datos R. SQL Server 2016 es compatible con las implementaciones en las instalaciones combinadas en la nube.

Inconvenientes

• Cuestiones de infraestructura ocasionales y poca funcionalidad en recuperación de desastres, la integración de SMP y MPP, y la plataforma de problemas de gestión de exposiciones y despliegue.

• No está claro el posicionamiento de Microsoft para las soluciones de gestión de datos para el análisis en la nube.

Más información en

Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics

sábado, 7 de mayo de 2016

Trabajar con Microsoft ® Power BI para escritorio

Microsoft ® Power BI para escritorio es una nueva herramienta de Microsoft, que a partir de datos (normalmente múltiples fuentes de datos), y utiliza estos para crear informes que se pueden compartir por diferentes medios.

Cuando se han completado los pasos de conexión a los datos se puede guardar el trabajo en formato de archivo de Power BI de (extensión .pbx). y compartirse como cualquier otro archivo, pero la forma más útil de compartir archivos con Power BI es subirlos al servicio de alimentación de Power BI. Power BI centraliza, simplifica, agiliza y une datos que de otro modo podrían estar dispersados e inconexos.

Trabajar con Microsoft ® Power BI para escritorio

Tomado de blog.directionstraining.com

Instalar y ejecutar Power BI para escritorio

You can download Power BI Desktop from the Power BI service, by selecting the gear icon, then select Power BI Desktop.

Se puede descargar Power BI de forma gratuita y elegir el idioma o si lo queremos para 32 o 64 bits, esto nos descarga a nuestro equipo un archivo .msi que haciendo doble click sobre él instala en nuestro equipo la versión elegida de Power BI.

Las pantallas de instalación nos guiarán a través de unas sencillas pantallas hasta que esta finalice. Esto crea en nuestro escritorio el icono de arranque de la aplicación.

Haciendo doble click sobre el icono se arrancará la aplicación y nos mostrará la pantalla de inicio.

Hay tres vistas en Power BI de escritorio: Vista de informes, de datos, y de relaciones. Power BI también incluye un editor de consultas, que se abre en una ventana separada. El Editor de consultas, puede crear consultas y transformar los datos, lo que permite cargar ese modelo de datos en Power BI y crear informes.

La siguiente pantalla muestra los tres iconos en el panel izquierdo.

La vista que se muestra actualmente se indica mediante la barra amarilla en la parte izquierda. En este caso, se está mostrando la vista informe. Se pueden cambiar las vistas seleccionando cualquiera de los tres iconos.

Una de las primeras cosas que necesitamos para comenzar es obtener datos.

Conectar a los datos

Hay todo tipo de fuentes de datos disponibles en la ventana de conexión, en la barra superior pulsamos sobre el icono obtener datos y se despliega una serie de opciones para conectarse a fuentes de datos.

Si por ejemplo queremos sacar datos de una página web elegimos la opción web y ponemos la url deseada. En este caso de ejemplo esta en concreto:

http://www.bankrate.com/finance/retirement/best-places-retire-how-state-ranks.aspx

Cuando se seleccionamos OK, la funcionalidad de consulta del Power BI busca los recursos que contiene la Web elegida, y la ventana del navegador muestra lo que ha encontrado en esa página web. En este caso, se encontró una tabla (tabla 0) y el Documento de Web en general. Estamos interesados en la tabla, por lo que la seleccionamos en la lista.

En este punto podemos editar la consulta antes de cargar la tabla, si seleccionamos el botón Editar, el editor de consultas presenta una vista de la tabla. Si ya le hemos dado a cargar, siempre podemos obtener una vista de la tabla pulsando en el panel vista de datos explicado anteriormente. Esto muestra el panel de Configuración de la consulta.

Podemos quitar las columnas o filas que no deseemos o hacer cualquier otro cambio. Si no deseamos hacer cambios podemos cargar directamente la tabla.

Ajuste de datos

Ahora que hemos conectado a una fuente de datos, tenemos que ajustar los datos para satisfacer nuestras necesidades. Estas pueden ser cambiar el nombre de columnas o tablas, cambiar de texto a número, eliminación de filas, el establecimiento de la primera fila de encabezado, etc.

La mayor parte de los cambios comunes se pueden seleccionar en el menú superior, también están disponibles en un menú pulsando sobre una fila o columna con el botón derecho del ratón.

Al dar forma a los datos la fuente de datos original no se ve afectada; Sólo se ajusta el punto de vista particular de los datos.

Los pasos que se especifican (cambiar el nombre de una tabla, transformar un tipo de datos o eliminar columnas) son registrados por el Editor de consultas, y cada vez que esta consulta se conecta a la fuente de datos estas etapas se llevan a cabo de manera automática y los datos siempre se muestran tal cual se especificó. Este proceso se produce cada vez que utilice la consulta en Power BI o para cualquier persona que utilice esta consulta si es compartida.

En el panel derecho aparece nuestra consulta y una lista secuencial de las operaciones realizadas sobre ella.

Volvamos a nuestros datos, que hemos enlazado mediante la conexión a una fuente de datos Web. Para empezar, la mayoría de las calificaciones fueron introducidas como números enteros, pero no todos ellos (una columna contiene texto y números, por lo que no se convierte automáticamente). Necesitamos que estos datos sean numéricos. Para ellos basta con hacer clic en la cabecera de la columna y seleccionar Cambiar tipo y Número entero.

Antes de cambiar el tipo en la columna Health care quality debemos eliminar cualquier texto, para ello posicionados sobre la columna, con el botón derecho del ratón elegimos reemplazar valores.

Esto nos abre un cuadro donde le decimos que sustituya 27 (tied) por 27 para que sea numérico, y pulsamos aceptar.

Si necesitámos elegir más de una columna, podemos seleccionar primero una columna y mantener presionada la tecla SHIFT, seleccionar las columnas que necesitemos y hacer clic en un encabezado de columna para cambiar todas las columnas adyacentes seleccionadas. También se puede utilizar la tecla CTRL para seleccionar columnas no adyacentes.

Si necesitamos eliminar un cambio ya realizado basta con posicionarnos en el cambio realizado mostrado en el panel de la derecha y pulsar sobre él, esto mostrará una pantalla de confirmación de eliminación del cambio ejecutado.

Finalmente podemos hacer algunos cambios más para obtener la consulta que deseamos así por ejemplo necesitamos:

Quitar la primera columna que no necesitamos, pues sólo incluye filas redundantes

Cambiar el nombre de tabla - Tabla que 0 no es una descriptor útil. Sobre el nombre de la tabla a la izquierda del editor, botón derecho del ratón, propiedades nos muestra un cuadro de diáogo con el nombre actual donde es posible editar el nuevo nombre.

Basado en: Power BI desktop getting started

Páginas

sábado, 9 de abril de 2022

El proceso

Los empleados

La tecnología

Mejores prácticas

Por qué Big Data requiere gobernanza

sábado, 4 de diciembre de 2021

Implementar una solución SQL en AWS

Implementar una solución NoSQL en AWS

sábado, 29 de octubre de 2016

¿Qué es Big Data?

Los escenarios comunes para Big Data

sábado, 15 de octubre de 2016

sábado, 9 de julio de 2016

1010data

Ventajas

Inconvenientes

Amazon Web Services

Ventajas

Inconvenientes

Cloudera

Ventajas

Inconvenientes

Exasol

Ventajas

Inconvenientes

Hitachi

Ventajas

Inconvenientes

Hortonworks

Ventajas

Inconvenientes

HPE

Ventajas

Inconvenientes

IBM

Ventajas

Inconvenientes

Infobright

Ventajas

Inconvenientes

Kognitio

Ventajas

Inconvenientes

MAPR

Ventajas

Inconvenientes

MarkLogic

Ventajas

Inconvenientes

MemSQL

Ventajas

Inconvenientes

Microsoft

Ventajas

Inconvenientes

sábado, 7 de mayo de 2016

Instalar y ejecutar Power BI para escritorio

Conectar a los datos

Ajuste de datos