Evaluación de exactitud de Naive Bayes y Regresión Logística para clasificación con atributos y clases binarios

López-Pezoa, Edgar; Cáceres-Estigarribia, Antoliano; Grillo, Sebastián Alberto; Herrera, Edher

doi:10.18004/rcfacen.2022.13.1.73

Services on Demand

Journal

Article

Indicators

Cited by SciELO

Reportes científicos de la FACEN

Print version ISSN 2222-145X

Abstract

LOPEZ-PEZOA, Edgar; CACERES-ESTIGARRIBIA, Antoliano; GRILLO, Sebastián Alberto and HERRERA, Edher. Evaluación de exactitud de Naive Bayes y Regresión Logística para clasificación con atributos y clases binarios. Rep. cient. FACEN [online]. 2022, vol.13, n.1, pp.73-84. ISSN 2222-145X. https://doi.org/10.18004/rcfacen.2022.13.1.73.

En ciencia de los datos, la mayoría de los modelos de clasificación están en la categoría de modelos discriminativos o de modelos generativos. Los modelos discriminativos solamente capturan la relación entre los atributos de una instancia y su clase, mientras que los modelos generativos buscan representar toda la distribución de datos. Aunque la mayoría de los modelos de clasificación sean discriminativos, no se puede asegurar que este tipo de modelos sea mejor que los modelos generativos. En ese sentido, se aborda la comparación de los algoritmos Naive Bayes y Regresión Logística como modelos muy representativos de los clasificadores discriminativos y generativos, respectivamente. En este trabajo son evaluadas la exactitud de los modelos de Naive Bayes y Regresión Logística en función al número de atributos e instancias de un conjunto de datos artificiales, donde tanto los atributos como las clases son binarios. A diferencia de otras metodologías que emplean los conjuntos de datos para aproximar el error de clasificación, este trabajo solo emplea los conjuntos de datos para realizar el entrenamiento de los modelos, mientras que el error de clasificación es calculado de forma exacta para la distribución de los datos. Los experimentos muestran una exactitud de clasificación binaria que tiende a ser levemente mejor para la Regresión Logística usando 50 a 500 instancias de entrenamiento, cuando promediamos los resultados de distribuciones generadas aleatoriamente con 1 a 6 atributos binarios.

Keywords : Naive Bayes; regresión logística; clasificación; aprendizaje supervisado.

· abstract in English · text in Spanish · Spanish (

pdf )