REVISTA ECIPERU 9 (2012) 69– 74

Clasificación de datos basado en compresión

Data classification based on compression

Avid Roman Gonzalez

TELECOM ParisTech, 46 rue Barrault, 75013 – Paris, Francia

German Aerospace Center – DLR, Remote Sensing Institute, Oberpfaffenhofen 82234 Wessling, Germany Centre National d’Etudes Spatiales – CNES, Francia

DOI: https://doi.org/10.33017/RevECIPeru2012.0012/

RESUMEN

El incremento del volumen de datos en esta era digital es enorme, la tarea de analizarlos, procesarlos, identificarlos para luego poder clasificarlos y así tener un buen sistema de minería de datos donde poder indexar la información que contienen sin importar la cantidad y el tipo de dato, resulta una tarea nada fácil. Debido a esto, cada vez se hace más necesario el desarrollo de métodos más efectivos que faciliten estas tareas de manera automática. En este articulo se presenta un vista general de diferentes trabajos realizados a lo largo del mundo que utilizan técnicas de compresión de datos como base para el desarrollo de un método de clasificación, estas técnicas se basan en la Complejidad de Kolmogorov y la utilización de esta para implementar una medida de similaridad entre datos. El aporte principal de estos métodos es la no necesidad de un proceso de extracción de características para realizar la clasificación, lo cual hace que sea un método libre de parámetros, por lo que se puede aplicar a cualquier tipo de datos, ya sean texto, imágenes, audio, etc.

Descriptores: clasificación, NCD, compresión de datos, similaridad métrica.

ABSTRACT

The increased volume of data in this digital age is enormous, the task of analyzing, processing, identifying and classify them for to have a good data mining system where we can index the information contained regardless the amount and data type, it is no easy task. That is the reason for it is becoming more necessary to develop more effective methods to facilitate these tasks automatically. This paper presents an overview of different works performed throughout the world that use data compression techniques as a basis for developing a classification method, these techniques are based on Kolmogorov Complexity and use this complexity for implement a similarity metrics between data. The main contribution of these methods is, no need a feature extraction process for classification, which makes it a parameter-free method, so it can be applied to any type of data, whether text, images, audio, etc.

Keywords: classification, NCD, data compression, metric similarity.

Trabajo Completo en Pdf

Deja un comentario