sábado, 29 de octubre de 2016

Big Data de Microsoft

¿Qué es Big Data?



"Big Data" es un término para la recolección de conjuntos de datos tan grandes y complejos que no pueden ser fácilmente manejados por tecnologías tradicionales de almacenamiento de datos. Big Data es el mundo de datos que existe fuera del almacén de datos tradicional. Es generado por dispositivos; blogs, redes sociales; aplicaciones móviles; clickstreams; ATM, RFID y sensores; tiempo meteorológico, tráfico, y cotizaciones de los mercados; y mucho más. Big Data es des-estructurado, no filtrado y no relacional. Big Data no se genera por las operaciones propias de la empresa.

Big Data es valioso para el negocio, ya que aporta datos a la empresa de su entorno en el mundo en el que opera, compite, y vende. Big Data ofrece la oportunidad a la empresa de obtener datos externos en tiempo real para mejorar, optimizar y mover el negocio hacia nuevos objetivos.
Big Data es alto volumen, alta velocidad y / o activos de gran variedad de información que requieren nuevas formas de procesamiento de cualquier tipo de dato, permitir la toma de decisiones mejorada, así como la visión y la optimización de procesos. 

Los escenarios comunes para Big Data


La popularidad de los grandes volúmenes de datos se basa predominantemente en una oleada de nuevos escenarios, fuentes de datos y oportunidades para integrar los datos no relacionales desde fuera de la empresa en su análisis de negocio.

Big Data de Microsoft


  
El Big Data puede aportar valor en una amplia gama de escenarios emergentes donde las nuevas fuentes de datos o usos están cambiando la forma de hacer negocios. Escenarios de ejemplo incluyen la optimización de TI de infraestructura, optimización de procesos de fabricación, el análisis legal, análisis de redes sociales, optimización de flujos, optimización de aplicaciones web, integración de información basada en la ubicación, la exploración de recursos naturales, la predicción del tiempo, la salud, la detección de fraudes, ciencias de la vida, investigación, análisis de la publicidad, y el seguimiento de los datos aportados por sensores.

¿Qué es Hadoop?


Apache Hadoop es un marco de solución de código abierto que soporta aplicaciones distribuidas de datos intensivos en grandes grupos de productos de hardware. El beneficio clave de Hadoop es la capacidad de procesar datos no relacionales.
Hay varias soluciones de mercado que personalizan el paquete de datos Hadoop plataformas, tales como Hortonworks, MapaR, Cloudera, IBM y otros. El marco de Hadoop se compone de una serie de componentes, incluyendo:

- El almacenamiento de datos basado en HDFS, hbase, NFS y cloudstore.
- procesamiento de consultas basado en el framework MapReduce.

- El acceso de datos tipo SQL,  Avro (JSON), Pig (flujo de datos), mahout (aprendizaje automático), y Sqoop (conector de datos).

- La gestión de datos basada en Oozie (flujo de trabajo), EMR (servicios gestionados), Chukwa o Flume (gestión de datos), y Zookeeper (gestión del sistema).

El marco MapReduce es un modelo de programación para la toma de datos en un sistema de archivos Hadoop y procesarla como conjuntos de pares de valores clave. Las aplicaciones escritas para Hadoop utilizan principalmente las interfaces mapper and reducer, incluyendo herramientas como Apache Hive que proporciona una infraestructura de almacenamiento de datos en la parte superior de los archivos, junto con un lenguaje de consulta parecido a SQL, llamado HiveQL.

Integración perfecta de datos no relacionales en Hadoop


La adopción de Hadoop significa la creación y el mantenimiento de un almacén de datos side-by-side por separado junto a un almacén de datos relacional. Esto aumenta significativamente la curva y los costos asociados con el desarrollo y el mantenimiento de aprendizaje, mientras que la disminuye el tiempo de generación de valor.
El almacén de datos de Microsoft Moderno integra Hadoop para proporcionar la capacidad de manejar a la perfección los datos relacionales y no relacionales a partir de un modelo de consulta compartida.

Big data con microsoft


Hortonworks HDP para Windows


La plataforma de datos Hortonworks (HDP) para Windows es una solución de software Apache Hadoop 100% con arquitectura para la empresa que implementa un entorno Hadoop autónomo mediante agrupaciones de hardware rentables. HDP para Windows aglutina el poder de Hadoop con la sencillez de gestión de Microsoft. HDP para Windows permite una perfecta integración con el ecosistema de herramientas de BI de Microsoft y es la única distribución de Hadoop disponible para Windows Server.

HDInsight dentro de la aplicación PDW


HDInsight es HDP para Windows oferta de software basado en una aplicación de  servidor SQL PDW (almacén de datos paralelo). HDInsight instala una región dedicada Hadoop directamente junto al motor de consulta PDW, con lo que  los recursos se comparten y distribuyen entre la CPU y la memoria de almacenamiento. HDInsight es una capa lógica con límites en la carga de trabajo, seguridad, medición y mantenimiento. HDInsight permite el procesamiento de datos no relacionales procedentes de Hadoop directamente en una red de procesamiento distribuido paralelizado. Esto permite el procesamiento continuo y la escalabilidad dentro de un ecosistema integrado.
La región HDInsight aborda las necesidades del cliente para las estrategias de datos relacionales y no relacionales dentro de un marco lógico. HDInsight soporta un número de escenarios clave, que incluyen su uso como una zona de espera para el procesamiento relacional, lo que permite la carga, o el uso de Hadoop como almacenamiento de datos en frío.

HDInsight incluye los siguientes componentes: Almacenamiento integración M / R + abstracciones de empleo de presentación de datos.

Integración de almacenamiento
HDFS
web HDFS
Mapa reduce

Abstracciones y M/R
Map Reduce
Hive (SQL sobre Hadoop)
Pig (flujo de datos)
Job Submission
WebHCat
Oozie (flujo de trabajo)

Datos
Hive ODBC
Sqoop (conectores)

Windows Azure HDInsight


HDInsight es una solución Apache Hadoop compatible al 100 % con la nube. El servicio HDInsight es una solución basada en la empresa y  basado en la nube.
El servicio HDInsight permite a la empresa procesar en la nube los datos de manera transparente con Hadoop. La integración con herramientas de BI permite a los usuarios de negocios y tomadores de decisiones para analizar fácilmente los datos de Hadoop.

Datos relacionales integrados y no relacionales


Para integrar el almacenamiento de datos tradicional con soluciones Hadoop con su almacén de datos existente, es necesario rellenar previamente el almacén de datos con Hadoop a través de un proyecto de mapeo y movimiento extensivo de datosde datos. Además existe la necesidad de formar a los usuarios en MapReduce con el fin de consultar sus datos de Hadoop.

Microsoft introdujo polybase para hacer frente a la unificación del almacén de datos tradicional y las nuevas ofertas de Hadoop con los datos relacionales y no relacionales con un único modelo de consulta, a base de Transact SQL apoyado tanto datos relacionales como no relacionales en paralelo, lo que resulta en mejoras de rendimiento. Polybase admite la distribución de multiples Hadoop de terceros incluyendo la plataforma de datos Hortonworks, Hortonworks para  Linux, Linux y Cloudera. También es compatible con la integración de BI en Excel Services, Power BI y SQL Server reporting services con lo que tiene la posibilidad de consultar cualquier tercero Hadoop a través de las herramientas familiares.
Polybase es un procesador de consultas integrado disponible dentro de SQL Server Parallel Data Warehouse 2012. Polybase hace posible importar y exportar datos entre HDFS y fuentes relacionales utilizando una única transacción de SQL  sin necesidad de aprender MapReduce o HiveQL. Polybase DMS (Data Movement Service) trabaja con HDInsight HDFS para paralelizar y distribuir el procesamiento de consultas no relacionales complejas, mejorando el rendimiento y permitiendo el tratamiento de datos de Hadoop in-situ, sin la la necesidad de costosos procesos ETL.



Polybase para Microsoft



Polybase permite reducir costes de formación y desarrollo, eliminar el costo de mantener un sistema adicional y mejora el tiempo global para valorar los nuevos datos.
La base de software para el almacén de datos moderno es SQL Server que ya es un estándar de la industria, SQL Server cuenta con mejoras para tecnologías como el almacenamiento en columnas.

Microsoft Polybase


Microsoft SQL Server Fast Track, es una arquitectura de referencia y un conjunto de guías prescriptivas ideadas para simplificar el proceso de construcción de un almacén de datos y su integración con más de 10 socios de hardware. Fast Track ofrece instrucciones paso a paso de cómo construir servidores de hardware con la combinación adecuada de CPU, E/S, y almacenamiento. También proporciona una guía para optimizar el software para un rendimiento óptimo. 

La Plataforma de Datos Hortonworks (HDP) y Apache Hadoop proporcionan una solución Hadoop que integra herramientas y aplicaciones para potenciar el negocio y acceder a datos de Hadoop utilizando herramientas familiares. Hortonworks y la plataforma de datos para Windows ofrecen opciones sin precedentes para la implementación de Hadoop.
Un appliance (accesorio) es un hardware creado previamente con software preinstalado, configurado y ajustado para su uso. El valor de un appliance es la capacidad de añadir rápidamente los recursos de plug-and-play incrementales sintonizados para un rendimiento óptimo.

El almacenamiento de datos en paralelo de SQL Server se basa en la arquitectura MPP configurada con el almacén de columnas In-Memory en columnas, polybase, y HDInsight. La configuración es muy simple, y las empresas pueden simplemente enchufar el aparato sin la implementación de infraestructura especializada de hardware dispar o la búsqueda de expertos para instalar y ajustar el software. Esto ahorra tiempo y dinero en el despliegue y reduce al mínimo la necesidad de contratar costosos consultores técnicos.
SQL Server 2012 Parallel Data Warehouse proporciona una arquitectura de hardware altamente escalable, permitiendo comienzar con un pequeño almacén de datos de 1 terabyte que se escala linealmente hasta un máximo de 6 petabytes de almacenamiento de datos. Está diseñado para funcionar con 2 hasta 64 nodos para una máxima escalabilidad. Cada nodo ejecuta su propia instancia de Microsoft SQL Server 2012 con CPU dedicada, memoria, redes y almacenamiento configurable para cualquier combinación de Hadoop o procesamiento relacional. Esto significa que se puede añadir capacidad y, si es necesario, basta con añadir más bastidores.

Parallel Data Warehouse también ofrece:

- Una arquitectura que integra tanto los almacenes de datos MPP y SMP distribuida.
- HDInsight dedicado con Hadoop dentro del dispositivo de almacenamiento de datos en paralelo.
- Polybase integrando datos relacionales/no relacionales al modelo de procesamiento de consultas.
- Integración con herramientas de BI, incluyendo Analysis Services, Integration Services y Microsoft SharePoint con BI opcional de alimentación para Office 365.
- amplio conjunto de herramientas de ETL, BI, MDM, y el flujo de datos con StreamInsight.
- Interoperabilidad con herramientas ETL, como SAP Business Objects, SAS, Informatica etc.

En el pasado, la implementación de un almacén de datos era un esfuerzo costoso. La organización de TI consistía en comprar e instalar servidores de hardware de manera óptima y equilibrada para la CPU, E/S, y el almacenamiento. También sería instalar el software y ajustarlo para el rendimiento.
El despliegue en la nube implementa la misma estrategia de BI, pero sustituyendo la infraestructura de las instalaciones con una infraestructura de nube de Windows Azure mantenida por Microsoft. 
El moderno depósito de datos Microsoft ofrece la opción de desplegar directamente a la nube con la escalabilidad elástica de Windows Azure. SQL Server Enterprise para almacenamiento de datos puede ser instalado y alojado en la nube de Windows Azure Virtual Machines. Esta imagen se aprovecha de las mejores prácticas de la arquitectura de referencia Fast Track afinar SQL Server para el almacenamiento de datos en Windows Azure la implementación basada en la nube.

Es posible beneficiarse de la implementación de datos de Hadoop no relacionales en la nube utilizando el Servicio HDInsight en Windows Azure. El Servicio HDInsight proporciona una solución Hadoop sin fisuras que puede procesar datos de todo tipo a través de la plataforma de Microsoft moderna de datos, que ofrece la simplicidad, facilidad de manejo y servicio Hadoop. 

Es posible desplegar un clúster Hadoop HDInsight en cuestión de minutos en lugar de horas o días con escalabilidad elástica completa de Windows Azure.
Windows Azure puede mantener los datos de origen y reducir los gastos operativos mediante el uso de escenarios hibridos en la nube como una sencilla copia de seguridad inteligente, recuperación de desastres, y la extensión de  aplicaciones de correo locales.
Las oportunidades de grandes volúmenes de datos son tan grandes como los desafíos. El más sofisticado almacenamiento de datos tradicional está cambiando para satisfacer las necesidades de la empresa de datos moderna. 













No hay comentarios:

Publicar un comentario