componente de weka (mineria datos ing. software)

21
INTRODUCCIÓN PRÁCTICA A INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOS LA MINERÍA DE DATOS

Upload: alexander-jimenez

Post on 05-Jul-2015

6.374 views

Category:

Education


5 download

DESCRIPTION

mineria de datos

TRANSCRIPT

Page 1: Componente de weka (mineria datos ing. software)

INTRODUCCIÓN PRÁCTICA A INTRODUCCIÓN PRÁCTICA A LA MINERÍA DE DATOSLA MINERÍA DE DATOS

Page 2: Componente de weka (mineria datos ing. software)

2

WEKA

Waikato Environment forKnowledge Analysis

Page 3: Componente de weka (mineria datos ing. software)

CaracterísticasCaracterísticas

• Software Libre desarrollado en JavaSoftware Libre desarrollado en Java• Técnicas:Técnicas:

– PreprocesadoPreprocesado– Clasificación Clasificación – AgrupamientoAgrupamiento– AsociaciónAsociación– VisualizaciónVisualización

Page 4: Componente de weka (mineria datos ing. software)

OpcionesOpciones • ExplorerExplorer:: Es la opción que permite Es la opción que permite llevar a cabo la ejecución de los llevar a cabo la ejecución de los algoritmos de análisis implementados algoritmos de análisis implementados sobre los ficheros de entrada, una sobre los ficheros de entrada, una ejecución independiente por cada ejecución independiente por cada prueba.prueba.

• Experimenter: Experimenter: esta opción permite esta opción permite definir experimentos más complejos, definir experimentos más complejos, con objeto de ejecutar uno o varios con objeto de ejecutar uno o varios algoritmos sobre uno o varios algoritmos sobre uno o varios conjuntos de datos de entrada, y conjuntos de datos de entrada, y comparar estadísticamente los comparar estadísticamente los resultados resultados

• Simple CLI: la interfaz Simple CLI: la interfaz "Command-Line : "Command-Line : Interfaz" es Interfaz" es simplemente una ventana de simplemente una ventana de comandos java para ejecutar las clases comandos java para ejecutar las clases de WEKAde WEKA

KnowledgeFlow: esta opción es unaesta opción es unanovedad de WEKA 3-4 que permite llevar a cabo novedad de WEKA 3-4 que permite llevar a cabo las mismas acciones del "Explorer", con una las mismas acciones del "Explorer", con una configuración totalmente gráfica, inspirada en configuración totalmente gráfica, inspirada en herramientas de tipo "data-flow" para herramientas de tipo "data-flow" para seleccionar componentes y conectarlos en un seleccionar componentes y conectarlos en un proyecto de minería de datosproyecto de minería de datos

Page 5: Componente de weka (mineria datos ing. software)

Weka ExplorerWeka Explorer

Page 6: Componente de weka (mineria datos ing. software)

Open FileOpen File

• Formato ARFF(Formato ARFF(Attribute-Relation File Attribute-Relation File Format)Format)

• Carga de los datosCarga de los datos– Archivos de Texto Archivos de Texto – Bases de Datos (JDBC)Bases de Datos (JDBC)– Dirección URL (ServidorDirección URL (Servidor

Page 7: Componente de weka (mineria datos ing. software)

Formato ARFFFormato ARFF• Estructura del Archivo texto Estructura del Archivo texto

(extensión .arff)(extensión .arff)– % comentarios% comentarios– @relation NOMBRE_RELACION@relation NOMBRE_RELACION– @attribute r1 real@attribute r1 real– @attribute i1 integer@attribute i1 integer– @attribute s1 {v1_s1, v2_s1,…vn_s1}@attribute s1 {v1_s1, v2_s1,…vn_s1}– ……– @data@data– DATOSDATOS

Page 8: Componente de weka (mineria datos ing. software)

Formato ARFFFormato ARFF

Page 9: Componente de weka (mineria datos ing. software)

Pre-procesado de los datosPre-procesado de los datos

• Esta es la primera parte por la que se Esta es la primera parte por la que se debe pasar antes de realizar ninguna debe pasar antes de realizar ninguna otra operación, ya que se precisan otra operación, ya que se precisan datos para poder llevar a cabo cualquier datos para poder llevar a cabo cualquier análisis.análisis.

• Filtros de atributosFiltros de atributos– Filtros de selección (remove)Filtros de selección (remove)– Filtros de discretización (Filtro Discretiza R Filtros de discretización (Filtro Discretiza R

(#atribut)(#atribut)– Filtros de instanciasFiltros de instancias– Filtro AddExpression (Filtro AddExpression ((a3^3.4)*a1+sqrt(floor(tan(a4)))(a3^3.4)*a1+sqrt(floor(tan(a4)))

Page 10: Componente de weka (mineria datos ing. software)

Pre-procesado de los datosPre-procesado de los datos

• Filtros de atributosFiltros de atributos

Page 11: Componente de weka (mineria datos ing. software)

VisualizaciónVisualización• La herramienta de visualización de WEKA permite La herramienta de visualización de WEKA permite

presentar gráficas 2D que relacionen pares de presentar gráficas 2D que relacionen pares de atributos, con la opción de utilizar además los colores atributos, con la opción de utilizar además los colores para añadir información de un tercer atributo.para añadir información de un tercer atributo.

Page 12: Componente de weka (mineria datos ing. software)

ClasificaciónClasificación• Si queremos realizar una clasificación lo primero será Si queremos realizar una clasificación lo primero será

elegir un clasificador y configurarlo a nuestro gusto, elegir un clasificador y configurarlo a nuestro gusto, para ello pulsaremos sobre el botón para ello pulsaremos sobre el botón Choose dentro Choose dentro del área del área Classifier. Classifier. Una vez pulsado se desplegará Una vez pulsado se desplegará un árbol que nos permitirá seleccionar el clasificador un árbol que nos permitirá seleccionar el clasificador deseado. Una vez seleccionado aparecerá, en la deseado. Una vez seleccionado aparecerá, en la etiqueta contigua al botón etiqueta contigua al botón Choose, Choose, el filtro el filtro seleccionado y los argumentos con los que se seleccionado y los argumentos con los que se ejecutará. Esta información es muy útil si queremos ejecutará. Esta información es muy útil si queremos utilizar el interfaz de consola ya que podremos utilizar el interfaz de consola ya que podremos configurar nuestro filtro con la interfaz y luego configurar nuestro filtro con la interfaz y luego obtener el resultado apto para línea de mandato.obtener el resultado apto para línea de mandato.

Page 13: Componente de weka (mineria datos ing. software)

ClasificaciónClasificación• la aplicación de algoritmos de clasificación a la aplicación de algoritmos de clasificación a

diferentes problemas de predicción de atributos diferentes problemas de predicción de atributos definidos sobre los datos de entrada en este ejemplo. definidos sobre los datos de entrada en este ejemplo. El problema de clasificación siempre se realiza El problema de clasificación siempre se realiza sobre un atributo simbólicosobre un atributo simbólico, en el caso de utilizar , en el caso de utilizar un atributo numérico se precisa por tanto un atributo numérico se precisa por tanto discretizarlodiscretizarlo antes en intervalos que representarán antes en intervalos que representarán los valores de clase.los valores de clase.

• Clasificador “OneR”: Clasificador “OneR”: Este es uno de los clasificadores más sencillos y rápidos, Este es uno de los clasificadores más sencillos y rápidos, aunque en ocasiones sus resultados son sorprendentemente buenos en aunque en ocasiones sus resultados son sorprendentemente buenos en comparación con algoritmos mucho más complejos. Simplemente selecciona el comparación con algoritmos mucho más complejos. Simplemente selecciona el atributo que mejor “explica” la clase de salida. Si hay atributos numéricos, busca atributo que mejor “explica” la clase de salida. Si hay atributos numéricos, busca los umbrales para hacer reglas con mejor tasa de aciertoslos umbrales para hacer reglas con mejor tasa de aciertos

Page 14: Componente de weka (mineria datos ing. software)

ClasificaciónClasificación• Clasificador como árbol de decisión: J48Clasificador como árbol de decisión: J48• El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los El algoritmo J48 de WEKA es una implementación del algoritmo C4.5, uno de los

algoritmos de minería de datos que más se ha utilizado en multitud de algoritmos de minería de datos que más se ha utilizado en multitud de aplicaciones. No vamos a entrar en los detalles de todos los parámetros de aplicaciones. No vamos a entrar en los detalles de todos los parámetros de configuración, dejándolo para el lector interesado en los detalles de este configuración, dejándolo para el lector interesado en los detalles de este algoritmo, y únicamente resaltaremos uno de los más importantes, el factor de algoritmo, y únicamente resaltaremos uno de los más importantes, el factor de confianza para la poda, confidence level, puesto que influye notoriamente en el confianza para la poda, confidence level, puesto que influye notoriamente en el tamaño y capacidad de predicción del árbol construido.tamaño y capacidad de predicción del árbol construido.

Page 15: Componente de weka (mineria datos ing. software)

ClasificaciónClasificación

Page 16: Componente de weka (mineria datos ing. software)

AsociaciónAsociación• Los algoritmos de asociación permiten la búsqueda Los algoritmos de asociación permiten la búsqueda

automática de reglas que relacionan conjuntos de automática de reglas que relacionan conjuntos de atributos entre sí. Son algoritmos no supervisados, atributos entre sí. Son algoritmos no supervisados, en el sentido de que no existen relaciones conocidas en el sentido de que no existen relaciones conocidas a priori con las que contrastar la validez de los a priori con las que contrastar la validez de los resultados, sino que se evalúa si esas reglas son resultados, sino que se evalúa si esas reglas son estadísticamente significativas.estadísticamente significativas.

Page 17: Componente de weka (mineria datos ing. software)

AsociaciónAsociación• El principal algoritmo de asociación implementado en El principal algoritmo de asociación implementado en

WEKA es el algoritmo WEKA es el algoritmo "Apriori". "Apriori". Este algoritmo Este algoritmo unicamente puede buscar reglas entre atributos unicamente puede buscar reglas entre atributos simbólicos, razón por la que se requiere haber d simbólicos, razón por la que se requiere haber d discretizado todos los atributos numéricos.discretizado todos los atributos numéricos.

Page 18: Componente de weka (mineria datos ing. software)

AGrupamientoAGrupamiento• La opción La opción Cluster del Cluster del Experimenter Experimenter nos permite nos permite

aplicar algoritmos de agrupamiento de instancias a aplicar algoritmos de agrupamiento de instancias a nuestros datos. Estos algoritmos buscan grupos de nuestros datos. Estos algoritmos buscan grupos de instancias con características "similares", según un instancias con características "similares", según un criterio de comparación entre valores de atributos de criterio de comparación entre valores de atributos de las instancias definidos en los algoritmos discretizado las instancias definidos en los algoritmos discretizado todos los atributos numéricos.todos los atributos numéricos.

Page 19: Componente de weka (mineria datos ing. software)

AGrupamientoAGrupamiento• Agrupamiento numéricoAgrupamiento numérico• En primer lugar utilizaremos el algoritmo de En primer lugar utilizaremos el algoritmo de

agrupamiento K-medias, por ser uno de los más agrupamiento K-medias, por ser uno de los más veloces y eficientes, si bien uno de los más limitados. veloces y eficientes, si bien uno de los más limitados. Este algoritmo precisa únicamente del número de Este algoritmo precisa únicamente del número de categorías similares en las que queremos dividir el categorías similares en las que queremos dividir el conjunto de datosconjunto de datos

Page 20: Componente de weka (mineria datos ing. software)

20

KnowledgeFlowKnowledgeFlow

Page 21: Componente de weka (mineria datos ing. software)

21

Referencias

DR. NICOLAS KEMPER VALVERDEUniversidad Nacional Autónoma de México