lunes, 15 de agosto de 2016

Problemas y soluciones de seguridad con SQL Server

Seguridad física


A la hora de definir la seguridad de un sistema SQL server la primera consideración obvia es la seguridad física de la máquina servidora SQL, a menudo se pasa por alto. No se trata simplemente si la máquina puede ser robada o no, sino también de la disponibilidad del acceso físico al sistema de almacenamiento de los archivos de base de datos, los discos de backup, o cualesquier servidor que aloje copias redundantes de la base de datos. Sólo aquellas personas con una necesidad real de tocar físicamente estos sistemas deben tener acceso a ellos; cualquier persona que necesite acceso temporal debe ir acompañado y supervisado.

Problemas y soluciones de seguridad con SQL Server

Una consideración menos obvia es la seguridad son los terminales de las personas que tienen acceso o altos privilegios en SQL Server. Si alguien tiene acceso al administrador de sistemas de SQL Server y deja su escritorio desbloqueado, toda la seguridad no va a evitar que alguien fuera de supervisión acceda a datos potencialmente sensibles. Un problema más insidioso sería si alguien utilizó el escritorio para cambiar alguna instancia de datos o algún dato de forma inadvertida o intencionada y no somos capaces de darnos cuenta del cambio.

Seguridad de red


A pesar de que los servidores pueden ser físicamente inaccesibles, lo más probable es que estén conectados a una red de algún tipo. Podría ser una empresa aislada con una LAN sin conexiones externas, o podría ser una conexión directa a Internet. No importa cuál sea la situación, hay algunas cosas que hay que considerar:

Hay que asegurarse de que el servidor de Windows tiene configurada la seguridad de red adecuada y decidir qué protocolos de red se implementarán para permitir o desactivar los accesos que no sean necesarios.
Asegúrarse que haya un cortafuegos y configurarlo para permitir el acceso a SQL Server. Decidir si desea cifrar las conexiones a SQL Server y configurar el acceso adecuadamente.

Si se utiliza Kerberosregistrar un nombre principal de servidor. Decidir si desea utilizar el servicio Explorador de SQL Server para ayudar a los clientes a encontrar las instancias de SQL Server instaladas, y decidir si desean ocultar algunos casos. Ocultar una instancia implica que las aplicaciones cliente y los usuarios tendrán que conocer los detalles de la conexión de la instancia de SQL Server, esto no impide que la gente busque instancias de SQL Server.


Minimizar las oportunidades de ataque


Cuantos más servicios y funciones que estén habilitadas hay más oprtunidades para atacar el sistema. Con SQL Server 2005 se puso en estado  "off por defecto" por lo que las características de acceso con implicaciones de seguridad están desactivados por defecto y sólo serán habilitadas por el DBA cuando sea necesario. (Este proceso de habilitar y deshabilitar los servicios que comúnmente se llama surface area configuration.) 

Un buen ejemplo de función que es posible que se desee deshabilitar es xp_cmdshell, que proporciona una manera de ejecutar comandos desde el sistema Windows dentro del contexto de una instancia de SQL Server. Si un intruso dispone de privilegios elevados puede comprometer la instancia de SQL Server, también se puede utilizar xp_cmdshell para obtener acceso al sistema de Windows.

Hay una serie de métodos para establecer la surface area configuration.  el Administrador de configuración de SQL Server para la configuración de servicios y protocolos de red. Tambien podemos establecer esta configuración con el procedimiento almacenado sp_configure. A modo de ejemplo, este código desactivará la función xp_cmdshell:

-- Permitir opciones avanzadas para ser cambiados
EXEC sp_configure 'show advanced options', 1;
GO
-- Para actualizar el valor configurado actualmente para - opciones avanzadas
RECONFIGURE;
GO
-- Para deshabilitar xp_cmdshell
EXEC sp_configure 'xp_cmdshell', 0;
GO
-- Para actualizar el valor configurado actualmente para esta - función
RECONFIGURE;
GO

Para más información se puede consultar 


Cuentas de servicio 


SQL Server se ejecuta como uno o más servicios de Windows, y cada servicio tiene que tener una cuenta de Windows que se utiliza para ejecutarlo. La cuenta debe tener acceso a varios recursos en el sistema Windows (tales como la red y varios directorios del sistema de archivos). Lo más recomendable es que la cuenta tenga los privilegios mínimos posibles necesarios para permitir que SQL Server funcione correctamente. Esto es parte de lo que se llama el principio de mínimo privilegio, que establece que un sistema puede hacerse más seguro a través de la concesión de un usuario o proceso sólo con los permisos requeridos y nada más.

Como tal, una cuenta de servicio de SQL Server no debe ser una cuenta de altos privilegios (como administrador local) porque si SQL Server se ve comprometido, existe la posibilidad de que el sistema Windows también esté en peligro. Si SQL Server requiere el acceso a otros recursos de dominio, se debe crear una nueva cuenta de usuario de dominio con los privilegios mínimos y accesos requiera de recursos. 


Restricción de uso de privilegios del administrador


La mayor exposición a entradas inadecuadas en el sistema se produce con el usuario sa o la función de servidor sysadmin. Hay algunas buenas prácticas a seguir.

Reducir al mínimo el número de personas que tienen acceso a la cuenta sa y restringir el número de miembros de la función sysadmin de modo que sólo aquellas personas que realmente necesiten privilegios de administrador de sistemas los tiengan. No revelar la contraseña de sa a cualquiera que necesite acceso temporal a SQL Server o a un usuario de SQL que quiera realizar alguna tarea rápida. En estas situaciones, es mejor crear una nueva sesión de SQL y concederle privilegios para lo que se requiera.

Es mejor tener personas como miembros de la función sysadmin en lugar de utilizar la cuenta sa. De esta forma, se puede quitar de inicio de sesión de un usuario sin tener que cambiar la contraseña de la cuenta sa. Si hay que hacerse cargo de un servidor viejo y no se sabe quien tuvo acceso a él antes, cambiar la contraseña de sa.

Una cuestión que provoca el debate es si se debe quitar el grupo de Windows BUILTIN / a los administradores de la función sysadmin (se agrega de forma predeterminada). Puede darse el caso de que un administrador de Windows sea capaz de consultar las  bases de datos.  Si se decide quitarlo, hay que tener cuidado. En un entorno agrupado si no se toman las medidas correctas, puede que el servidor de SQL Server no se inicie. 

Para aquellos que tengan acceso al administrador de sistemas, animarlos a no iniciar sesión con privilegios elevados a menos que sea absolutamente necesario. Una buena práctica es  dar a cada uno usuario dos inicios de sesión, uno con privilegios y otro no.  Y utilizar la cuenta con menos privilegios de forma predeterminada ayudando de este modo a minimizar la posibilidad de errores, también reduce la probabilidad de que un terminal de Windows desbloqueado tenga una ventana con privilegios de administrador de sistemas abiertos en él.

Evitar tener aplicaciones que requieran privilegios de administrador de sistemas. Por desgracia, esta es una práctica común e inevitable con algunas aplicaciones, pero se debe evitar esta práctica en aplicaciones de producción propia, es necesario advertir a los desarrolladores que realicen aplicaciones que requieran los mínimos privilegios para acceder al servidor.

Autenticación 


Hay dos modos de autenticación disponibles: Autenticación de Windows y de modo mixto (que es la autenticación de Windows en combinación con la autenticación de SQL Server).

Autenticación de Windows utiliza cuentas de red / dominio validar la cuenta de Windows que se utiliza para conectarse a SQL Server. Si se selecciona esta opción durante la instalación, la cuenta sa se crea con una contraseña generada al azar, pero efectivamente deshabilitada. Inmediatamente después de la instalación, se debe cambiar la contraseña de sa a una contraseña fuerte y segura.

La autenticación de SQL Server se basa en que cada usuario tiene una cuenta de SQL Server definida y la contraseña almacenada en SQL Server. Y, por supuesto, esto significa que la cuenta de sa está habilitada y debe tener una contraseña definida. Con la autenticación de SQL Server, los usuarios tienen al menos dos nombres de usuario y contraseñas (uno para la red y otro para SQL Server). En general se recomienda que sólo se utilice la autenticación de Windows siempre que sea posible, ya que es una solución más segura. 

Si se usa la autenticación de SQL, todos los usuarios deben tener una contraseña, y que sea suficientemente compleja como para ser segura. Esto es especialmente importante para las cuentas de altos privilegios, como sa y los miembros de la función sysadmin. 

Autorización


Uno de los principios de protección de los sistemas es utilizar el principio del mínimo privilegio. Un usuario en una base de datos no debe ser capaz de acceder a los datos de otra base de datos. El propietario de un conjunto de tablas no debe ser capaz de entrar en las tablas de otro usuario. Los usuarios sólo deben ser capaces de acceder a los datos que se supone tienen acceso, e incluso entonces sólo deben ser capaces de realizar las acciones requeridas en los datos (por ejemplo, SELECT, pero no actualizar o borrar).

Todo esto se puede lograr dentro de SQL Server mediante un sistema integral, permisos jerárquicos donde los usuarios o roles (llamados principales) conceden o deniegan ciertos permisos específicos sobre determinados recursos (llamados elementos protegibles) como un objeto, esquema o base de datos. Una visión general de la jerarquía de permisos de SQL Server se ilustra en la imagen. 

Permisos SQL Server




Esto también implica que se siga principio del mínimo privilegio. Por ejemplo, no hacer que todos los desarrolladores accedan a la función db_owner de la base de datos. Restringir los permisos públicos y sólo conceder permisos en los niveles más bajos (usuario o rol) para minimizar el acceso directo. 

Para permitir que más permisos separados y una mejor separación de roles dentro de una base de datos, SQL Server introdujo la separación de esquemas de usuario, donde los esquemas son independientes de los usuarios de bases de datos y son sólo contenedores de objetos. Esto permite una mayor precisión para la gestión de permisos. Por ejemplo puede crearse un esquema que tienga permisos de control para desarrolladores de bases de datos. Se pueden hacer que les permita crear, modificar y eliminar todos los objetos dentro de los esquemas que controlan pero no tienen permisos implícitos a cualquier otro esquema dentro de la base de datos y ya no tienen derechos de db_owner para el desarrollo de bases de datos. Además, la separación de esquemas de usuario permite a los usuarios de bases de datos darles de baja sin tener que recodificar todos los objetos relacionados con el usuario dado de baja.  

Otra forma de evitar que los usuarios hagan cosas no permitidas es no permitir el acceso directo a sus tablas base. Esto puede hacerse proporcionando procedimientos y funciones que se utilizan para encapsular, controlar y aislar operaciones como las actualizaciones y eliminaciones almacenados, y proporcionando vistas que permiten controlar y seleccionar los datos óptimos.


Uno de los métodos más comunes de obtener acceso no autorizado a los datos es utilizar un ataque de inyección SQL. La inyección de SQL puede tomar muchas formas, pero el enfoque principal es aprovechar  el código que utiliza cadenas construidas de forma dinámica e "inyectar" código inesperado en la query. Por ejemplo, el siguiente ataque de inyección se aprovecha de la lógica mal escrita para validar la entrada de usuario para engañar a SQL Server y obligarlo a aceptar la entrada al incluir caracteres de escape en la cadena de entrada. Aunque artificial, este ejemplo pone de relieve lo que puede suceder cuando el código se construye dinámicamente usando cadenas de entrada no es validadas a fondo:

DECLARE @ password VARCHAR (20);
DECLARE @input VARCHAR (20);
DECLARE @ExecStr VARCHAR (1000);

SELECT @ password = 'Mi_Password';

-- Asume que la aplicación obtiene de entrada 'OR' '='
SELECT @input = '' 'O' '' '=' '';

SELECT @ExecStr = 'SI' '' + @ password + '' 'LIKE' '' + @input + '' 'Imprimir' 'Contraseña Aceptada' '';

EXEC (@ExecStr);
GO

Si ejecuta este código, se imprimirá la frase "Contraseña aceptada" a pesar de que la entrada del usuario claramente no coincide con la cadena de contraseña. La entrada del usuario contenía una secuencia de escape que cambió la lógica de SQL porque la entrada no fue debidamente analizada y controlada. La inyección SQL no debería ser un problema para una aplicación bien escrita y hay algunos trucos específicos (como el uso de identificadores delimitados por comillas). Pero si se hereda una aplicación antigua, Se debe probar específicamente para ver si es vulnerable a ataques de inyección SQL. 

Recuperación de desastres


Los problemas de seguridad pueden ocurrir en muchos niveles. Existen algunas preocupaciones cuando la recuperación de desastres implica la conmutación a otro servidor SQL Server pero no se ha tenido la precaución de replicar los logins de sesión en el otro servidor por lo que los usuarios pierden el acceso, también hay un problema cuando surge la necesidad de restaurar una base de datos que contiene los datos cifrados.

En el primer caso, los problemas se producen cuando los inicios de sesión necesarios para acceder a la base de datos no se han duplicado en el servidor replicado por error, por ejemplo, cuando se utiliza el trasvase de registros. Si en la base de datos replicada la aplicación intenta conectarse a través de una entrada específica que no existe en el servidor replicado, la aplicación recibirá un error "acceso fallido". Los inicios de sesión son parte del sistema de aplicaciones y deben ser definidos en la instancia de la base de datos.

En el segundo caso, los problemas se producen cuando la copia de seguridad de base de datos contiene datos cifrados y la clave de cifrado (o teclas) que se utiliza para cifrar los datos no fueron replicados o no están disponibles en la instancia de SQL Server desde donde se está restaurando la base de datos. El mejor caso es si sólo una parte de los datos en la base de datos está encriptada por lo que sólo el subconjunto de datos encriptados no se podrá acceder. El peor escenario es que la totalidad de la base de datos esté cifrada. En ese caso, si el certificado de servidor utiliza para proteger la clave de cifrado de base de datos no fue replicado o no está disponible, la totalidad base de datos no puede ser restaurada y devolverá los siguientes errores:

No se puede encontrar el certificado del servidor con la huella digital

Uno de los objetivos de cifrar una base de datos es precisamente que no se podrá copiar y restaurar para evitar robos de datos, pero si se desea restaurar una base de datos cifrada,  entonces se debe disponer del certificado de servidor o si no,  se pierden los datos.

Revisión de cuentas


Una de las cosas más importantes que se debe hacer para mejorar la seguridad de un sistema es la implementación de una auditoría. Con esto, se sabrá quién está haciendo qué. 
Como mínimo, se deben auditar los intentos fallidos y exitosos de manera que se puede saber si, por ejemplo, cinco intentos de acceso fallidos fueron seguidos por un éxito.  De este modo es posible saber cuando alguien está tratando de entrar en la instancia de SQL Server (y con el que inicio de sesión). La figura muestra la configuración de auditoría de inicio de sesión a través del cuadro de diálogo Propiedades del servidor en SQL Server 2014.
Sobre El servidor en el explorador de objetos pulsamos el botón derecho del ratón y elegimos Propiedades 

Seguridad de SQL Server



Seguridad SQL Server


Y elegimos la carpeta Seguridad.


Aquí hay más información sobre cómo auditar los inicios de sesión. 

sábado, 23 de julio de 2016

Administración de la seguridad con SQL Server (1º parte)

El servidor debe proporcionar al administrador de sistema los medios necesarios para que este conozca quién accede a los datos y así encontrarse en disposición de limitar dicho acceso a las personas adecuadas, y para realizar estrictamente las operaciones que se estimen oportunas. Esta tarea de preservar de deterioros o usos indeseados los datos de la base es decir, de gestionar la seguridad del servidor, es una de las más importantes labores que debe realizar el administrador del sistema.

Capas del sistema de seguridad


La seguridad en SQL Server es una tarea que se desarrolla en varias capas. Para acceder a los datos es necesario pasar por un buen número de puertas, que será necesario saber abrir. Podríamos hablar entonces de cuatro capas de seguridad. 

Administración de la seguridad con SQL Server


sábado, 16 de julio de 2016

Construyendo informes con Power BI

Para realizar informes, el panel izquierdo de Microsoft ® Power BI contiene un icono para abrir el área de informes.

Área de informes de Power BI

sábado, 9 de julio de 2016

Big Data: características técnicas y operativas de los diferentes proveedores


Vamos a realizar un vistazo rápido de los principales proveedores de equipos y servicios bigdata que actualmente operan en el mercado, con el objetivo de evaluar las ventajas e inconvenientes de cada operador y al mismo tiempo tener una visión general del estado actual de la oferta para Bigdata.

Actualmente las organizaciones requieren soluciones de gestión de datos para análisis que sean capaces de gestionar y procesar los datos internos y externos de diversos tipos en diversos formatos, en combinación con datos de fuentes internas tradicionales. Los datos pueden incluso incluir la interacción y los datos de observación, procedentes del internet de las cosas, sensores, por ejemplo. Este requisito constituye un reto para el software en este mercado ya que los clientes están buscando características y funciones que representan un aumento  importante de las estrategias de almacenamiento de datos empresariales existentes.

Bigdata: Características técnicas y operativas de los diferentes proveedores.

El almacenamiento de datos y soluciones de gestión de datos para el análisis, (DMSA) son sistemas que realizan el procesamiento necesario para soportar la analítica. Estos pueden ser extendidos para soportar nuevas estructuras y tipos de datos, tales como XML, texto, documentos y datos geoespaciales, y el acceso a sistemas de archivos gestionados externamente. Deben apoyar la disponibilidad de datos de software de aplicación de interfaces independientes, incluir mecanismos para aislar los requisitos de carga de trabajo, y controlar diversos parámetros de acceso del usuario final dentro de los casos administrados de datos.
Estos son los requisitos necesarios para este tipo de sistemas.
• Un almacén de datos puede formar parte de un sistema más amplio que sirve de DMSA más amplio.
• Un DMSA es simplemente un sistema para el almacenamiento, el acceso y la entrega de los datos destinados a un caso de uso principal que soporta la analítica.
• Un DMSA no es una clase o tipo de tecnología específica.
• Un DMSA puede consistir en muchas tecnologías diferentes en combinación. Sin embargo, cualquier sistema debe disponer de la capacidad de proporcionar acceso a los archivos o tablas bajo la gestión de herramientas de acceso libre.
• Un DMSA debe ser compatible con la disponibilidad de datos de software de la aplicación de interfaces independientes, incluir mecanismos para aislar los requisitos de carga de trabajo y controlar diversos parámetros de acceso del usuario final dentro de la administración de datos.
• Un DMSA debe gestionar el almacenamiento y acceso de datos en algún tipo de medio de almacenamiento, que puede incluir (pero no se limita) unidades de disco duro, memorias flash, unidades de estado sólido e incluso DRAM.
A continuación pasamos a realizar una breve evaluación por separado de cada sistema.

1010data

1010data es un proveedor de servicios de almacenamiento de datos gestionado. Su solución integrada DBMS e inteligencia de negocio (BI) está dirigido a  sectores de servicios financieros, venta al por menor/bienes de consumo envasados, telecomunicaciones, gobierno y salud.

Ventajas

• Facilidad de uso de 1010data para el análisis interactivo, específicamente su rendimiento en las consultas, facilidad de carga de datos y capacidades analíticas.
Inconvenientes
• 1010data tiene un enfoque limitado en el almacén de datos lógicos (LDW). Se centra principalmente en el apoyo a las necesidades de análisis de datos gestionados en su propia nube.

Inconvenientes

• 1010data está todavía basado principalmente en Estados Unidos. Sin embargo, recientemente ha inaugurado un centro de datos en Alemania para operaciones en Europa.
• La integración global de 1010data con su ecosistema de BI y análisis, acceso a datos e integración, requiere una mejora.

Amazon Web Services

Amazon Web Services (AWS) ofrece un servicio de almacenamiento de datos en la nube, AWS Kinesis para la transmisión de datos, Amazon Simple Service) y Amazon Elastic MapReduce (EMR).

Ventajas

• AWS es considerado el proveedor de almacén de los principales datos en la nube como un servicio. Logra una adopción fuerte, impulsada por su amplia aceptación de la nube, flexibilidad y agilidad, tanto desde el técnico y el punto de vista financiero.
• AWS es compatible con una amplia variedad de casos de uso cuando se combina con otras soluciones de gestión de datos. 
• Buena experiencia del cliente y  rápida penetración en el mercado.

Inconvenientes

• Una competencia cada vez mayor en las capacidades funcionales y opciones en la nube para elegir.
• Como AWS es un proveedor en la nube, carece de soporte para las combinaciones de almacenamiento de datos. 
• AWS maduran en el uso de Redshift, y se están empezando a reportar limitaciones en relación a sus expectativas para la gestión mixta de carga de trabajo.

Cloudera

Cloudera proporciona una plataforma de almacenamiento y procesamiento de datos basado en el ecosistema Apache Hadoop, así como las herramientas del sistema de propiedad y de gestión de datos para el diseño, implementación, operación y gestión de la producción.

Ventajas

• Cloudera se diferencia de otros proveedores de distribución de Hadoop en que  sigue invirtiendo en capacidades específicas, tales como mejoras adicionales como  Cloudera Navigator (que proporciona la gestión de metadatos, linaje y la auditoría), mientras que al mismo tiempo trata de mantenerse al día con el proyecto de código abierto Hadoop.
• Cloudera ha colocado con éxito su solución como complemento al almacén de datos tradicional y ha hecho uso de sus relaciones con los proveedores de DBMS tradicionales, sobre todo de Oracle.
• Cloudera ha continuado su expansión geográfica.
• La modularidad Hadoop permite añadir nuevos componentes fácilmente, y Cloudera continúa expandiendo su conjunto de componentes para cumplir con los nuevos casos y las necesidades de uso. Esto permite a Cloudera ofrecer nuevas capacidades sin interrumpir los sistemas existentes.

Inconvenientes

• A pesar de que las organizaciones tienen un interés cada vez mayor en implementaciones en la nube, Cloudera se refiere a la nube utilizando un enfoque de infraestructura como un servicio que no ofrece soporte de servicio escalable, elástico y administrado. Sin embargo, Cloudera se dirige a estas necesidades con mejoras para facilitar la implementación de clusters elásticos en la nube.
• Se considera que la disponibilidad de recursos de apoyo de servicios se está reduciendo. Cloudera ha reconocido que esto es un problema, y ha trabajado para abordar estos puntos en 2015. 

Exasol

Exasol ofrece una columna de memoria de DBMS, que está disponible como un solo nodo libre, una solución agrupada. También se ofrece como una solución completamente gestionada en EXACloud y los proveedores de servicios cloud de terceros, tales como AWS, Microsoft (Azure) y Rackspace.

Ventajas

• Exasol introdujo el desarrollo virtual del esquema (para fuentes de datos externas) y el uso de contenedores de lenguajes de guiones, junto con la distribución paralela existente. Esta combinación permite desarrollar, desplegar y ejecutar algoritmos de análisis desarrollados por los clientes sobre Exasol en cualquier idioma (por ejemplo, R, Scala, Java, Python y Lua).
• Buena relación calidad-precio de EXASOL. Se aprecian sus resultados.

Inconvenientes

• Exasol sufre de una falta de visibilidad en el mercado. Exasol redujo sus operaciones de Estados Unidos en 2015. 
• Falta de capacidad de despliegue y gestión del ciclo de vida, como la reducción del tamaño del clúster y la funcionalidad de cliente de SQL.
• La documentación es a veces insuficiente y la disponibilidad limitada de las habilidades del mercado dificulta la adopción.

Hitachi

Hitachi entró en el mercado de almacenamiento de datos y DMSA en 2014 con la avanzada Carpeta de Datos de Hitachi (HADB). Se ofrece en tres configuraciones, incluyendo escritorio, modelo de "entrada" y el modelo "estándar".

Ventajas

• HADB posee una alta velocidad, soluciones para el análisis de datos estructurados tradicional combinado con  datos de sensores con un enfoque en casos de uso industriales.
• Grandes volúmenes de datos comerciales, incluso los datos de sensores y datos geológicos estructurados con datos para el análisis con HADB. Hay una opción de HADB llamada "fuera de servicio" en la que la ejecución, no pasa por las operaciones tradicionales, síncronas lo que aumenta el grado de paralelización de los procesos de E/S.
• Autosuficiencia y facilidad de acceso a los registros de seguimiento.

Inconvenientes

• Hitachi ofrece una solución madura, eficiente, pero a veces básica para el almacenamiento de datos. 
• Hitachi tiene sólo un pequeño número de referencias de producción. 
• El posicionamiento de HADB de Hitachi se centra en análisis de alto rendimiento para grandes volúmenes de datos estructurados y no aborda, por sí mismo, el enfoque de LDW. Sin embargo, Hitachi comercializa su adquisición Pentaho como una alternativa al enfoque LDW que se ha establecido en el mercado.

Hortonworks

Hortonworks ofrece una plataforma de datos Hortonworks (HDP) en Linux y Windows. También ofrece Hortonworks DataFlow (HDF) en Linux en una base  local y a través de varios proveedores en la nube. Hortonworks con Microsoft (por su servicio Azure HDInsight) para implementaciones híbridas locales y en la nube. 

Ventajas

• Hortonworks ha ganado fuerza de mercado con un mayor número de socios reconocidos, incluyendo proveedores tradicionales de DBMS. 
• Hortonworks con la plataforma Open Data es compatible con el crecimiento de nuevos proyectos de la Fundación Apache. Hortonworks se diferencia de otros proveedores de distribución mediante la adopción de código abierto.

Inconvenientes

• Será un reto para Hortonworks mantener la integración con un ecosistema de análisis más amplio,  como Teradata.
• Incluso con la deriva de la demanda hacia soluciones de código abierto, no seleccionan sólo proveedores o soluciones en base a este único aspecto.

HPE

Hewlett Packard Enterprise hace frente a soluciones de gestión de datos para análisis, HPE Vertica, se basa en el núcleo Vertica DBMS. Está disponible como solución en la nube, como una opción de sólo software y como máquina física. Ofrece integración con Hadoop con HPE Vertica para SQL en Hadoop.

Ventajas

• HPE Vertica tiene una alta relación calidad-precio. Esto lo diferencia de otros proveedores.
• HPE Vertica posee una gran variedad de casos de uso y tipos de datos.
• HPE Vertica abastece a las principales tendencias del mercado, con soporte para la prestación en la nube, el LDW (con Vertica SQL en Hadoop) y ricas capacidades de análisis de bases de datos.

Inconvenientes

•  Poca visibilidad del producto en el mercado. 
• Problemas con la administración y la gestión de los DBMS de HPE, aunque se está mejorando gradualmente.
• HPE OnDemand ofrece un conjunto de gestión de datos en la nube y servicios de análisis, pero es independiente de la oferta Vertica, y como resultado demuestra una estrategia fragmentada a través de los dos. 

IBM

IBM ofrece soluciones DBMS independientes, dispositivos de almacenamiento de datos, una solución z/OS, y una distribución de Hadoop con BigInsights. Sus máquinass incluyen el sistema PureData IBM para Analytics y para análisis de operaciones, el acelerador IBM DB2 Analytics (IDAA) y el IBM Smart Analytics System. IBM ofrece IBM DB2 con aceleración Blu, así como servicios gestionados de almacenamiento de datos. 

Ventajas

• IBM ha lanzado dashDB y DataWorks como ofertas en la nube. Estos ofrecen la oportunidad de desplegar rápidamente modelos analíticos y de datos en un entorno elástico. Se dirigen a la creciente demanda de soluciones en la nube.
• IBM ha introducido dispositivos de conexión a fuentes relacionales y NoSQL. Se permite el acceso al procesamiento a través de una amplia variedad de entornos.
• IBM con el proyecto de código abierto Apache Spark añade valor a los productos de IBM por streaming que permite, aprendizaje automático y análisis avanzados. Puede ayudar a una maduración más rápida de Spark.

Inconvenientes

• El nivel de adopción de dashDB es incierta. 
• La reducción de personal de IBM reposiciona su oferta para el mercado de soluciones en la nube y de gestión de datos modernos.
• IBM queda en el tercio inferior de relación calidad-precio. Los productos en la  nube de IBM no tienen un precio competitivo.

Infobright

Infobright es una compañía global que ofrece una columna con vectores, DBMS altamente comprimidos con MySQL- o una capa API basada en PostgreSQL. Se comercializa el comercial Infobright Enterprise Edition (EEI), para los cuales hay una descarga de prueba.

Ventajas

• La velocidad de procesamiento es el diferenciador de Infobright. Sus tasas de compresión, carga y ausencia de necesidad de indexación.
• Reducción de compromisos hacia los productos que se determinaron como insostenibles en términos de costo.
• Internet de las cosas (IO) presenta una clara oportunidad para Infobright, y planea diversas innovaciones tecnológicas en esta área. Se ha aumentado su carga distribuida de procesador (DLP) para dar cabida a la ingestión corriente, que es fundamental para la adopción de la IO. También ofrece oportunidades en áreas relacionadas como telecomunicaciones y redes.

Inconvenientes

• Algunos tipos de datos MySQL no son compatibles con el software de Infobright, pero esto puede reflejar el uso de diferentes versiones. Ausencia de ciertas características (como limpieza de las tablas), y el proceso de actualización de versiones que se considera engorroso.
• Floja penetración del mercado de la IO de Infobright aunque parece estar haciendo las adaptaciones adecuadas. 

Kognitio

Kognitio ofrece la plataforma analítica Kognitio tanto como un motor DBMS de almacén de datos de software y como máquina física. Kognitio ofrece una solución en la nube con Kognitio Analytical Services; También está disponible en la nube pública de AWS.

Ventajas

• Kognitio permite ejecutar soluciones de análisis tradicionales, como mercados de datos y almacenes de datos, junto con distribuciones de Hadoop (incluyendo el motor de análisis de Kognitio para los datos que residen en Hadoop) en una sola gestión de datos para el entorno de análisis - el LDW.
• Con planes de mejorar la convivencia en los nodos de Hadoop y la integración con Apache Hadoop y Kerberos, así como análisis de JSON, Kognitio probablemente aumente su atractivo como motor de procesamiento universal para el procesamiento de análisis distribuido.
• Kognitio se centra en gran parte en la tecnología. Además, se adapta a las nuevas demandas de los clientes de última generación, tales como las que requieren un motor analítico sobre las distribuciones de Hadoop. Esto incluye secuencias de comandos externos para apoyo, Python, Java y C para mejorar la distribución de los enfoques de tratamiento.

Inconvenientes

•  Es difícil encontrar personas con conocimientos de Kognitio, sobre todo debido a que es una empresa de pequeño tamaño y su solución está poco implantada. 
• Falta de integración con muchos productos de terceros BI y de datos.
• Problemas de administración de bases de datos, tales como la gestión de memoria. Además, observaron que la interfaz de usuario administrativa, se debe mejorar.

MAPR 

MAPR Technologies ofrece una distribución de Hadoop con rendimiento y almacenamiento optimizado, mejoras de alta disponibilidad y las herramientas administrativas y de gestión.

Ventajas

• MapR posee alta disponibilidad y gestión de clusters. MapR ha mejorado estas capacidades con la adición de funciones de autorización y auditoría.
• MapR se centra en abordar una amplia gama de casos de uso. Es compatible con streaming, casos de uso operativos y analíticos, todo desde la misma plataforma, con el apoyo y capacidades de SQL.
• MapR se ha estado expandiendo por todo el mundo. Dispone de soluciones conjuntas con los principales actores, como AWS, Google, HPE, IBM, Microsoft, SAP, SAS y Teradata.

Inconvenientes

• Todavía carece de una falta de visibilidad en el mercado.
• En general poco avanzado. Los usuarios crean los análisis que se implementan como productos de datos completos para su uso en producción. 
• Problemas con actualizaciones e instalaciones. Para hacer frente a estos retos, MapR ahora ofrece a los instaladores interfaz gráfica de usuario, libros de utilización, un instalador de parches y paquetes de actualización.

MarkLogic

MarkLogic ofrece una base de datos NoSQL que utiliza XML, JSON, texto, Resource Description Framework (RDF) y almacenamiento binario, proporciona una capa de gestión de entidad semántica basada en metadatos. El producto incluye índices, almacenamiento por niveles, apoyo Hadoop Distributed File System (HDFS), soporte de Amazon S3, replicación móvil, búsqueda de texto completo, capacidades geoespaciales, y SQL / ODBC de apoyo.

Ventajas

• Mejoras en el producto, mejor posición en capacidad de ejecución. 
• Útil cuando se trata de trabajar con diversas formas de activos de datos semiestructurados (y otros más estructurados). Introducción de estadísticas de casos de uso y cómo se relacionan con los datos bajo gestión, Aumento de las capacidades administrativas y de diseño de MarkLogic.
• MarkLogic como capa de datos se apoya en la entrega de datos en arquitecturas e implementaciones centradas en servicios Web. Soporte para la atomicidad, coherencia, aislamiento y durabilidad (ACID) en NoSQL y completo integración e indexación de texto.

Inconvenientes

• MarkLogic es un pequeño proveedor. 
• Falta de expertos especializados en MarkLogic, lo que representa un riesgo para las implementaciones de usuario. Brechas de funcionalidad (falta de declarativa) y falta de herramientas maduras de gestión / administrativas.

MemSQL

MemSQL ofrece un DBMS en memoria para casos de uso transaccionales, combinado con una columna basada en disco para la analítica.

Ventajas

• La estrategia de MemSQL se centra en el apoyo a los casos de uso transaccional y analítico con requisitos de baja latencia. Su integración con Spark Apache permite el procesamiento de transacciones y análisis.
• Posee almacén de datos y DMSA abordando análisis de operaciones.
• Su tecnología es bastante flexible.

Inconvenientes

• Mala relación calidad-precio. Sin embargo, MemSQL ofrece una edición gratuita y no cobra por el almacenamiento en disco en su almacén.
• Poca demanda en el mercado DBMS operativo.
• La oferta de MemSQL se puede utilizar sólo para casos de uso de análisis, como de almacén de datos tradicional. 

Microsoft

Microsoft SQL Server comercializa, una arquitectura de referencia, el Sistema de Plataforma Microsoft Analytics (que combina SQL Server Parallel Data Warehouse y HDInsight), una oferta en la nube con SQL Azure de almacenamiento de datos y HDInsight para Hadoop.

Ventajas

• Las soluciones basadas en la nube de Microsoft incluyen un entorno de análisis de datos con SQL Azure Data Warehouse. Aunque el almacenamiento de datos de SQL Azure se encuentra todavía en vista previa. Además, las amplias opciones para el despliegue y el enfoque "solución completa" de Microsoft suponen un reto para los proveedores tradicionales con fortalezas en capacidades en la nube y experiencia de usuario y autoservicio.
• Microsoft Azure ofrece consulta y aprendizaje automático Azure. Introduce un ambiente cada vez mayor de gestión de datos de análisis de auto-servicio para los usuarios de Microsoft. Con la disponibilidad adicional de Data Lake y Azure Data Analytics Lake.
• Se elogia su seguridad, la escala y la familiaridad. T-SQL se convierte en una característica polybase para el análisis de datos estructurados y no estructurados, que incluye R e interoperabilidad con funciones de fuente abierta en base de datos R. SQL Server 2016 es compatible con las implementaciones en las instalaciones combinadas en la nube.

Inconvenientes

• Cuestiones de infraestructura ocasionales y poca funcionalidad en recuperación de desastres, la integración de SMP y MPP, y la plataforma de  problemas de gestión de exposiciones y despliegue.
• No está claro el posicionamiento de Microsoft para las soluciones de gestión de datos para el análisis en la nube.

Más información en 

Magic Quadrant for Data Warehouse and Data Management Solutions for Analytics




sábado, 2 de julio de 2016

Combinar datos con Power BI


Una vez creada nuestra primera consulta vamos a combinarla con otra tabla.

Los datos acerca de los diversos estados de los Estados Unidos utilizan una abreviatura de dos letras para los códigos de cada estado, en lugar del nombre completo del estado. Necesitamos encontrar una manera de asociar los nombres de estado con sus abreviaturas.
Existe una fuente de datos pública que hace precisamente eso, pero necesitamos adaptarlo antes de que poder conectarlo a nuestro informe. El recurso Web para abreviaturas de los estados es este:


En el menú, seleccionamos Obtener datos -> Web y escribimos la dirección de arriba.


Combinar datos con Power BI

sábado, 25 de junio de 2016

Generalidades de bases de datos SQL Server

Qué es una base de datos en SQL Server

Una base de datos, como ya se ha  visto en entradas  que trataban aspectos generales de arquitectura y diseño, no es más que una colección organizada y estructurada de datos. Esta definición, no expresa la idea de una base de datos en SQL Server. 

Generalidades de las bases de datos SQL Server
Bloques de colores.