Select the search type
 
  • Site
  • Web
Search
Data deduplication en Windows Server 2012

Autor: Michele Betelli
Fecha: 20 Julio 2012

Introducción

Windows Server 2012 nos trae diversas novedades en el ámbito de lo storage, una de estas se llama "Data deduplication", el objetivo de esta tecnología es de ahorrar espacio disco guardando las informaciones "iguales" una sola vez.

Como funciona data deduplication

Como primera cosa, tenemos que decir que data deduplication trabaja a nivel de volumen, así que podremos decidir donde activar la funcionalidad.
Cuando está habilitada, viene lanzada una tarea en background que trabaja en low-priority (por ese motivo no tendremos problemas de performance) y escanea todos los ficheros del volumen segmentando cada uno de estos en pequeños "chunks", el tamaño de estos últimos puede variar de 32 a 128 KB.
Una vez segmentados todos los ficheros, el paso siguente es verificar si existen chunks duplicados, si fuera así, viene guardada una copia de estos chunks y todos los demás vienen borrados y sustituidos con una referencia a esta única copia que se hizo antes de borrar.
Todas las informaciones vienen guardadas en la carpeta "System Volume Information" del mismo volumen, os recuerdo que la carpeta es de sistema y está oculta, por defecto permite el acceso solo a SYSTEM.

Prerrequisitos

Para utilizar data deduplication tenemos que tener en cuenta diversas cosas, entre las cuales:

  • El volumen no tiene que ser un volumen de sistema o de arranque.
  • El volumen tiene que ser particionado usando MBR o GPT.
  • El volumen tiene que ser formateado con NTFS.
  • El volumen no puede ser un disco removible.
  • El volumen puede ser uno storage compartido como una LUN conectada en FC, SAS, SCSI o iSCSI.
  • Los volúmenes Cluster Shared Volumes (CSV)  no están soportados.
  • No está soportado el nuevo file system ReFS.

Como implementar data deduplication

El primer paso para poder configurar la deduplicación es la instalación de la funcionalidad, lo podemos hacer desde la Server Manager o desde PowerShell con estos comandos:

Add-WindowsFeature FS-Data-Deduplication

Una vez la tengamos instalada, tenemos que ir a la administración de los volumenes y con el boton derecho encontraremos "Configure Data deduplication":

Imagen 1 - Configure Data deduplication

Podemos  notar las varias opciones disponibles donde podemos decidir cuales ficheros elaborará la tarea. Por defecto verán analizados los ficheros más viejos de 5 días.
Seleccionando el botón de Schedule nos encontraremos con esta ventana: 

Imagen 2 - Set deduplication schedule

La tarea de background está habilitada por defecto, nosotros tenemos la posibilidad de habilitar tareas programadas donde daremos una prioridad mas elevada a la deduplicación, en modo tal que pueda aprovechar de los recursos hardware mientras tanto los usuarios no estén trabajando, por ejemplo podríamos programar una tareas en las horas nocturnas y otra para el fin de semana.

Utilidades

Hay que recordar que también esta nueva feature es manejable desde PowerShell, existe el modulo DataDeduplication con sus relativos comandos, para ver el elenco de todos los comandos disponibles podemos lanzar un:

Get-Command –Module DataDeduplication

Otra herramienta a linea de comando que nos viene muy bien es DDPEVAL que nos permite evaluar con antelación cual seria el resultado sobre un determinado volumen.
La utilidad la podemos encontrar en la carpeta System32, obviamente tenemos que tener instalado la funcionalidad.

Cuando usar data deduplication

Microsoft aconseja el utilizo de esta tecnología en los siguientes escenarios:
  • File shares. Están incluidos todos los ficheros del nuestro file server, home folders y profile redirection. Se estima un ahorro del 30-50%
  • Deployment shares. Carpetas que utilizamos para desplegar software, imágenes de sistemas operativos y actualizaciones. Se estima un ahorro del 70-80%
  • Virtual hard disk (VHD) libraries. Librerías que utilizamos para desplegar ficheros VHDs. Se estima un ahorro del 80-95%

Conclusión

La deduplicación ya viene utilizada desde hace tiempo desde los proveedores mas importantes de storage, ahora finalmente podremos utilizarla en modo nativo con Windows y sin ulteriores costes.

Recursos útiles

Data Deduplication Overview:
http://technet.microsoft.com/en-us/library/hh831602