Personal tools

Formación BIGS en UCentral

From hpcwiki

Jump to: navigation, search

Curso de Introducción a BIGS

Large Scale Machine Learning Framework

  1. Fundamentos
    1. Conceptos básicos: Big Data, paralelismo por datos, NoSQL, etc.
    2. Modelo de computación de BIGS
    3. Aprendizaje automático a gran escala: Procesos iterativos, exploiting locality, comparación con Hadoop
    4. Taller: Instalación de BIGS
    5. Ciclo experimental
      1. Conceptos de BIGS: Jobs, Tasks, Workers, Datasets locales, Particiones
      2. Jobs de ejemplos Simple, FE + KMeans, Cross Validation, Bootstrapping, Curvas de aprendizaje, grafos de los jobs
      3. Taller: carga de datasets, ejecución de jobs de ejemplo, visualización de resultados
      4. BIGS en distribuido
        1. Paralelismo por datos: Relación particiones vs. workers, datasets generados, sincronización de particiones generadas, estrategias de workers, recuperación de fallos.
        2. Modelo de almacenamiento: NoSQL, implementaciones
        3. Taller: uso de BD central, y workers entre los participantes, curva de escalabildiad
        4. Programación de procesos
          1. Arquitectura de BIGS: Descripción de APIs, jars y despliegue
          2. API de procesos (modelo de computación de BIGS)
          3. Procesos de ejemplo: KMeans, Logistic Regression
          4. APIs adicionales: Feature Extraction, Importación de datos, Almacenamiento
          5. Taller: Desarrollo de un proceso
          6. Requerimientos conceptuales para el tutorial

            • Conocimientos básicos de Java y programación orientada a objetos
            • Conocimientos a nivel de usuario de Linux (uso del shell)

            Requerimientos técnicos del laboratorio donde se impartirá el tutorial

            • PCs de escritorio o portátiles con Virtual Box instalado
            • Conectividad de red local y Servidor
              • HBase
              • DHCP
              • Visibilidad entre máquinas físicas y virtuales