domingo, 6 de noviembre de 2011

Modelos de Éxito-Fracaso en Empresas- Grupo Los Aprendices

Los modelos de predicción matemáticos, tanto lineales como no lineales, son herramientas altamente útiles para predecir el comportamiento de factores que afectan un determinado aspecto. Al analizar mediante esto situaciones dadas, tenemos la facultad de tener ideas acertadas de como se comportarán las variables que se desean medir.
Para un ingeniero de producción, es bastante provechoso el tener conocimiento respecto a las técnicas de modelos de predicción, puesto que son herramientas muy útiles en el campo laboral en el cual se desenvuelva. Esto debido a que permiten idear estrategias eficaces y eficientes para buscar optimizar los procesos en los cuales trabaja. Ya sea a nivel gerencial o industrial. En particular, presentaremos acá cuatro de estas herramientas de predicción.
Actualmente existe una enorme cantidad de datos en todo el mundo que el ser humano no es capaz de asimilar por completo, por lo que se utilizan máquinas (inteligencia artificial) para resolver este tipo de problemas. Por ejemplo, cuando vamos a un supermercado se generan muchísimos datos acerca de los compradores que nos pueden brindar cierta información que normalmente no podemos ver; esta situación se pudo ver en un establecimiento en EEUU en el cual, por medio de la utilización de máquinas y modelos computacionales se pudo notar que los días viernes iban compradores en busca de pañales y cerveza, razón por la cual se concluyó que la mayoría de las parejas jóvenes normalmente planeaban pasar el fin de semana en casa cuidando de sus hijos. Esto permitió al supermercado hacer una reestructuración del establecimiento de manera tal que las cervezas se ubicaran cerca de los pañales, de forma tal que se pudieran favorecer las compras compulsivas.
A través de este ejemplo definimos entonces lo que se llama minería de datos; se quiere encontrar todo el conocimiento valioso posible dentro de un grupo enorme de datos que inicialmente se ven carentes de sentido. La utilización de modelos matemáticos y programas que se formulan con la intención de predecir o simular cómo se comportan los datos, es lo que se conoce como aprendizaje automático.
Los casos que vamos a estudiar a continuación son modelos de aprendizaje automático entrenado de forma supervisada. Es decir, cada modelo se “probará” con datos iniciales cuyas salidas ya se conocen, de manera tal que se pueda evaluar la precisión del mismo y minimizar los errores de aprendizaje para finalmente dar con un modelo correcto al cual se le podrán introducir nuevos datos.
Máquinas de soporte vectorial (Support Vector Machine)
Las máquinas de soporte vectorial son modelos de aprendizaje supervisado, como ya explicamos previamente, inicialmente desarrollados por Vapnik en 1995 para clasificación binaria y regresión. Lo que busca el método es separar los datos que le entran en diferentes clasificaciones, las cuales deberán estar lo suficientemente separadas entre sí como para que el modelo sea bastante acertado.
Formalmente hablando, se tiene un conjunto de puntos, subconjunto de otro mayor, ubicados en dos categorías diferentes; se quiere saber en qué categoría entrará un nuevo punto. La máquina de soporte vectorial, busca entonces un hiperplano que separe de forma óptima los puntos de una clase de los puntos de la otra clase, por lo que se quiere que los puntos más cercanos al hiperplano estén a la máxima distancia posible del mismo.
De esta forma, las máquinas de soporte vectorial operan a través de una transformación de los datos de entrada en otra representación dentro del espacio de características con la intención de que, puntos no separables inicialmente en el espacio de entrada, sí lo sean en el espacio de características. Así, esta técnica emplea Kernels (o transformaciones del espacio de las características que deben construirse cumpliendo condiciones especiales) no lineales, a través de los cuales las máquinas aprenden la superficie de decisión de dos clases distintas de los puntos de entrada a un espacio de clasificación de dimensión mayor, lo cual facilita esta separación lineal cuando los conjuntos de entrada no son linealmente separables.
Este modelo de clasificación a través de las máquinas de soporte vectorial es aplicable a la predicción del éxito o fracaso de las empresas debido a que el principal objetivo de dicha predicción es diferenciar las empresas que tienen una elevada probabilidad de fracasar de las empresas sanas.
La clasificación de las empresas en grupos en función de su riesgo de fracaso se realiza habitualmente a partir de sus características financieras, utilizando información derivada de los estados financieros disponibles (balance de situación y cuenta de pérdidas y ganancias). Así pues, la máquina evaluará los datos disponibles acerca de las características financieras de las empresas y en base a ello y a las categorías ya existentes en el modelo y separadas por el hiperplano, colocará a la empresa a evaluar a un lado u otro de dicho hiperplano, prediciendo de esta forma si tendrá éxito o fracasará.
Este es, por supuesto, un ejemplo sencillo de los datos que podría utilizar la máquina, mas los datos a evaluar pueden ser mucho más complicados.

Método multi-superficies (Multi Surface Method)
Los Métodos Multi-superficies son también modelos de aprendizaje supervisado. Emplean la Programación Lineal para la separación binaria de patrones. Sus algoritmos inducen más de una superficie de separación, típicamente hiperplanos, pero puede ser usada cualquier otra superficie cuyos parámetros sean lineales (como una superficie cuadrática). Debido a que tienen mayor cantidad de hiperplanos o superficies de separación, su aplicación puede extenderse a la clasificación multi-categoría.
Formalmente hablando, el método de multi-superficie resuelve en cada iteración un problema de programación lineal para separación de dos conjuntos mediante un hiper-plano, luego de lo cual genera dos planos paralelos adicionales entre los cuales quedan los elementos que no se pueden clasificar, y que pasan a la siguiente iteración en la que (de ser necesario) se agrega un nuevo par de planos paralelos.
Este método tiene como ventaja el hecho de que evita el reajuste de parámetros al emplear Modelos de Programación Lineal para definir las superficies de separación. Asimismo, logra esquivar el problema de Programación Cuadrática y la escogencia de la transformación Kernel en Máquinas de Vectores de Soporte.
Como es un método de clasificación, al igual que las máquinas de soporte vectorial, también es aplicable a la predicción del éxito o del fracaso en las empresas, al clasificarlas en una categoría u otra.

Redes Neuronales.
El Ing. De producción siempre ha tenido la necesidad de predecir un conjunto de datos a lo largo de su vida profesional, como por ejemplo: las ventas de cierto producto ya que debe saber cuánto producir y cuando hacerlo. En este caso nos enfocaremos en un distinto tipo de predicción: éxito-fracaso de las empresas.
En la actualidad existen muchos modelos de predicción, más que todo estadísticos, y el deseo de mejorar los resultados que se alcanzaban ha motivado a diversos autores a introducir en este campo de estudio un modelo denominado: “redes neuronales”. Las propiedades globales de las redes neuronales surgen de la cooperación de los componentes individuales (neuronas), muy sencillos si se consideran aisladamente.

Las redes neurales son modelos no-lineales inspirados en las redes de neuronas biológicas, e intenta emular las funciones computacionales elementales de la red nerviosa del cerebro humano. Se usan generalmente en problemas de clasificación y predicción.












Figura 1. Esquema de una red neuronal multicapa sencilla


Las neuronas se agrupan en capas. Donde la primera capa es por la cual entra la información, luego una o varias capas que procesan esa información y por último la capa de salida que proporciona los resultados de la red (Figura 1).
Este modelo necesita una fase de entrenamiento para desarrollar una respuesta más precisa. En esta fase se le presenta a la red neuronal un conjunto de valores de entrada con sus respectivas salidas reales, y el algoritmo busca automáticamente las correlaciones entre dichas entradas y salidas. Cuando esta fase ha finalizado, la red puede ser aplicada sobre datos que no ha visto previamente para luego realizar las predicciones.

En este modelo de predicción existen tanto ventajas como desventajas:

Desventajas:

- Se debe escoger entre los datos de la fase de entrenamiento un conjunto de variables relevantes, ya que un exceso de variables puede introducir ruido que oculte las más significantes. Mientras que al tener pocos datos puede provocar una falta de información. Por ejemplo: Si evaluamos las distintas estrategias de ventas utilizadas por empresas que han fracasado, sin tomar en cuenta otros criterios como localización, competencia asociada, entre otros, podríamos tener errores en cuanto a la falta de información ya que un fracaso de una empresa no solo depende de las estrategias de venta sino de un conjunto de criterios que definen el éxito. En este caso el rendimiento de la red empieza a decaer para los casos testados.
- El proceso analizado por la red es difícilmente comprendido, ya que estos sistemas se entienden como un modelo de “caja negra” que dan respuestas, pero no conocemos nada sobre el proceso que ha conducido a la obtención de las mismas. Esto sucede mayoritariamente en modelos con un gran número de neuronas ya que no nos permite conocer la importancia que presenta cada variable en la respuesta final presentada por el sistema

Ventajas:

- Aprendizaje y generalización: Conforme se van agregando datos al modelo, este va modificando su comportamiento para ajustarlo a los datos que se le van proporcionando. Esta es la propiedad más llamativa y lo que la hace diferente de un programa convencional, ya que los otros modelos trabajan con un conjunto de valores que, al haber una variación, no poseen la capacidad de adaptarse y obtener una solución más precisa. Este modelo tiene la capacidad de reestrenarse mediante la incorporación al conjunto de datos nuevas situaciones resultantes de las condiciones cambiantes del entorno.
- Permite que tareas complejas sean realizadas en poco tiempo, ya que cada neurona puede calcular una función elemental independientemente de las demás.
- Procesa la información incompleta (ruido) de forma eficiente, ya que cada neurona tiene la capacidad de mantener su mismo desempeño cuando ocurre la desactivación de algunas conexiones (neuronas)

Arboles de clasificación
Mostramos el proceso que podría seguirse para construir un árbol de decisión a partir de un conjunto de prototipos pertenecientes a tres clases y con patrones de dimensión 25 con valores no categóricos. El conjunto de aprendizaje consta de N = 300 prototipos de manera que Ni = 100, i = 1, 2, 3.
1. Construcción del nodo raiz.
Inicialmente se asignan todos los prototipos a la raíz (figura 82) de manera que éste contiene 100 prototipos de cada clase. De manera informal podemos adelantar que esta situación, en la que todas las clases están igualmente representadas, corresponde a la situación de máxima impureza: ninguna clase ``domina'' sobre las otras.








Figura 82: Nodo raiz del árbol


1. Partir el nodo raiz.
Se trata de seleccionar la mejor partición del nodo raiz entre todas las posibles. Este proceso puede descomponerse en tres pasos:
2.1. Examinar todas las particiones de la forma ¿X1 < C? donde:
min (X1)<= C <= max (X1)
Por ejemplo, sea C = 1.1. Los prototipos para los que se verifica que X1 < 1.1 van al nodo izquierdo, y los otros, al derecho (figura 83.A).
Una vez examinadas todas las particiones para la variable X1, se considera la mejor partición asociada a esta variable. Por ejemplo, sea ésta ¿ X1 < 10.7?.
1.2.Repetir el proceso anterior para X2, X3,..., X25
1.3.Seleccionar la mejor partición entre las mejores de X1,..., X25
Por ejemplo, si la mejor partición se consigue para la variable X8 y la partición es la asociada a la condición ¿X8 < 3.2?, el árbol resultante se muestra en la figura 83.B.


Figura 83: Particiones asociadas a: A) ¿X1 < 1.1? B) ¿X8 < 3.2?






Si comparamos los árboles de decisión de la figura 83 observamos que el primero (A), aún siendo más puro que el de la figura 82, las proporciones de las clases en cada nodo no son determinantes, en el sentido de que ninguna destaca claramente sobre las otras. En el segundo (B) estas proporciones son más determinantes, haciendo que: a) la clase 3 esté muy por debajo de las clases 1 y 2 en el nodo izquierdo y b) que la clase 3 sea dominate en el nodo derecho.

1. Repetir el paso 2 para los nodos hijo.
Por ejemplo, sea ¿ X3 < - 0.8? la mejor partición para el nodo izquierdo y ¿ X1 < 17.9? la mejor para el derecho. En la figura 84 mostramos el árbol resultante de estas particiones. Se han numerado los nodos para facilitar la discusión posterior.


Figura 84: Árbol resultante de partir el árbol de la figura 83.B






Estas particiones hacen que los nodos 4 y 5 diferencien claramente las clases 2 y 3, respectivamente, mientras que en los nodos 6 y 7 se diferencian las clases 2 y 3, respectivamente.
Observar que las particiones efectuadas han ido ``definiendo'' una clase mayoritaria en cada nodo resultante, o expresado de otra manera, han ido aumentando la pureza de los nodos asociados a cada partición. Este proceso de división puede continuar para cada uno de los 4 nodos que hemos obtenido o, para cada caso, plantearse si debemos detenernos.
1. ¿Parada?
Establecer el criterio de parada para obtener un buen árbol de decisión no es sencillo. No obstante, hasta que estudiemos la manera adecuada de hacerlo estableceremos un criterio sencillo basado en la pureza del nodo. Uno muy simple puede ser el siguiente: un nodo se declarará terminal, y en consecuencia no se dividirá si la clase dominante tiene más del 60% de los prototipos asociados a ese nodo.
En este ejemplo, y considerando el árbol de la figura 84, si N(t) es el número total de prototipos asociados al nodo t y Ni(t) es el número de prototipos de clase i asociados al nodo t,
· Nodo 4. N(4)=78. 60% de 78=46.8. N2(4) = 53 Parar.
· Nodo 5: N(5)=83. 60% de 83=49.8. N1(5) = 51 Parar.
· Nodo 6: N(6)=45. 60% de 45=27. N2(6) = 25 Seguir.
· Nodo 7: N(7)=94. 60% de 94=56.4. N3(7) = 65 Parar.
En este caso, se detendría la división de los nodos 4, 5 y 7, mientras que el nodo 6 continuaría su división como indicamos en los pasos 2 y 3. El resultado de la división de este nodo se muestra en la figura 85.
Podemos plantearnos si era necesaria la división de los nodos 1, 2 y 3. Procedemos como para los nodos 4, 5, 6 y 7.
· Nodo 1. N(1)=300. 60% de 300=180. En este nodo no hay clase dominante ( Ni(1) = 100 i = 1, 2, 3) Seguir.
· Nodo 2: N(2)=161. 60% de 161=96.6. N1(2) = 71 Seguir.
· Nodo 3: N(3)=139. 60% de 139=83.4. N3(3) = 75 Seguir.
Así, hicimos bien al dividir estos nodos.


Figura 85: Árbol resultante al declarar los nodos 4, 5 y 7 como hojas.


Finalmente, si el resultado de partir el nodo 6 es el mostrado en la figura 86.A, es fácil comprobar que los nodos 6.1 y 6.2 no requieren más particiones (figura 86.B).


Figura 86: A) Árbol resultante de partir el nodo 6 del árbol de la figura 85. B) Árbol final




Bibliografía


“Aplicaciones empresariales de DATA MINING”
(Lluís Garrido, José Ignacio LaTorre)
(http://upcommons.upc.edu/revistes/bitstream/2099/4161/4/article.pdf)

“Propuesta de clasificación de los modelos de predicción del fracaso empresarial” (José Manuel Pereira,Miguel Ángel Crespo, Domínguez, José Luís Sáez Ocejo)
(http://personales.ya.com/aeca/pub/on_line/comunicaciones_xivencuentroaeca/cd/113b.pdf)

“ALGORITMO DE BOOSTING EN MÉTODOS MULTI-SUPERFICIES PARA CLASIFICACIÓN BINARIA”: (Ing. Ana María Serra Balza)
(http://optimachine.blogspot.com/2011/10/disponibles-online-las-tesis-de.html)

Site del prof. Orestes Manzanilla. Área de investigación
(http://sites.google.com/site/omanzanillausb/investigacion)

“MÉTODOS MULTI-SUPERFICIE PARA CONSTRUIR CLASIFICADORES BINARIOS CON OPTIMIZACIÓN MATEMÁTICA”
(Prof. Orestes Manzanilla, USB)

“CLASIFICACIÓN MULTICATEGORIA DE PATRONES MEDIANTE OPTIMIZACIÓN DE MULTISUPERFICIES”
(Ing. Adriana Torres García, USB)

“ALGORITMO DE BOOSTING EN MÉTODOS MULTI-SUPERFICIES PARA CLASIFICACIÓN BINARIA”
(Ing. Ana María Serra, USB)

“Modelos de clasificación basados en Máquinas de Vectores de Soporte”
(L. Gónzalez Abril, Universidad de Sevilla)




















OBSERVACIÓN: Debido a que las imágenes en este artículo salieron muy pequeñas, las publiqué de manera más visible en una entrada diferente con el número correspondiente para cada imagen. La otra entrada se llama "Figuras en el artículo introductorio del grupo LOS APRENDICES".






3 comentarios:

  1. En el artículo anterior se mencionaron varios modelos para la predicción del éxito o fracaso de una emprea, entre ellos estaba el re las Redes neuronales. Con las Redes Neuronales lo que se busca es la solución de problemas complejos, no como una secuencia de pasos, sino como la evolución de unos sistemas de computación inspirados en el cerebro humano, y dotados por tanto de cierta "inteligencia", los cuales no son sino la combinación de elementos simples de proceso (neuronas - se dará una visión rápida sobre el funcionamiento de las mismas en los seres vivos-) interconectados, que operando de forma paralela en varios estilos que serán analizados detalladamente, consiguen resolver problemas relacionados con el reconocimiento de formas o patrones, predicción, codificación, control y optimización entre otras aplicaciones que finalizarán con este documento.

    Un ejemplo del modelo anterior puede ser: en una red que se va a aplicar al diagnóstico de imágenes médicas; durante la fase de entrenamiento el sistema recibe imágenes de tejidos que se sabe son cancerígenos y tejidos que se sabe son sanos, así como las respectivas clasificaciones de dichas imágenes. Si el entrenamiento es el adecuado, una vez concluido, el sistema podrá recibir imágenes de tejidos no clasificados y obtener su clasificación sano/no sano con un buen grado de seguridad. Las variables de entrada pueden ser desde los puntos individuales de cada imagen hasta un vector de características de las mismas que se puedan incorporar al sistema (por ejemplo, procedencia anatómica del tejido de la imagen o la edad del paciente al que se le extrajo la muestra).

    Otro de los modelos que mencionaron en su artículo fue el del árbol de decision o clasificación el cual también se puede añadir que es una especie de diagrama que representan en forma secuencial condiciones y acciones; muestra qué condiciones se consideran en primer lugar, en segundo lugar y así sucesivamente. Este método permite mostrar la relación que existe entre cada condición y el grupo de acciones permisibles asociado con ella. Un árbol de decisión sirve para modelar funciones discretas, en las que el objetivo es determinar el valor combinado de un conjunto de variables, y basándose en el valor de cada una de ellas, determinar la acción a ser tomada.

    Existen muchos otros modelos, entre ellos el logit, probit, análisis de supervivencia, inducción de reglas, entre otros.

    LAS GESTORAS: Nathalie Bergna, Adriana Gómez, Andreina Cabrera, Carla Araujo, Carla Cabello

    ResponderEliminar
  2. Nos parecen esenciales los métodos mencionados en el artículo para el desenvolvimiento de las funciones de ing de producción ya que gracias al manejo de estos datos y la predicción posterior es posible apegar las decisiones a criterios mucho mas exactos que minimicen la arbitrariedad y generen los resultados esperados ante cualquier problema.
    La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. Dicha información era previamente desconocida y podrá resultar útil para algún proceso. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos.
    Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos.
    Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico.
    En el artículo se explica de forma completa pero a la vez sencilla los métodos particulares de la minería de datos, entre ellos se encuentran:

    REDES NEURONALES: 
Esta técnica de inteligencia artificial, en los últimos años se ha convertido en uno de los instrumentos de uso frecuente para detectar categorías comunes en los datos, debido a que son capaces de detectar y aprender complejos patrones, y características de los datos.
    Una de las principales características de las redes neuronales, es que son capaces de trabajar con datos incompletos e incluso paradójicos, que dependiendo del problema puede resultar una ventaja o un inconveniente. Además esta técnica posee dos formas de aprendizaje: supervisado y no supervisado.
    ÁRBOLES DE DECISIÓN: 
Está técnica se encuentra dentro de una metodología de aprendizaje supervisado. Su representación es en forma de árbol en donde cada nodo es una decisión, los cuales a su vez generan reglas para la clasificación de un conjunto de datos.
    Los árboles de decisión son fáciles de usar, admiten atributos discretos y continuos, tratan bien los atributos no significativos y los valores faltantes. Su principal ventaja es la facilidad de interpretación.

    En el siguiente link se muestran muchas de las aplicaciones reales de los métodos tratados en el artículo.

    http://mineriadedatos.blogspot.es/1232766360/

    La familia: Raquel Alós, Gabriela Martinez, Ana Colmenares, Rita Anselmi, Andrea Pescina.

    ResponderEliminar
  3. Los modelos de predicción representan una herramienta sumamente poderosa para los ingenieros de producción, son la forma de sustentar las decisiones y presentimientos de los grandes gerentes para el lanzamiento de productos a mercados altamente competitivos.
    Los modelos están estrechamente relacionados con los conocimientos estadísticos y hoy por hoy con el manejo de tecnología para la recopilación de datos.
    La mencionada Recopilación de datos es a menudo considerada "muy costosa". En efecto, la tecnología "relaja" sumente en el sentido de que cada vez nos hacemos mas dependientes de dispositivos y herramientas tecnológicas; Sin embargo, datos confiables son necesarios para verificar un modelo cuantitativo. Los modelos matemáticos, sin importar lo elegante o sofisticado que sean, algunas veces escapan de la apreciación del tomador de decisiones.

    Los Gerentes: Laura Davalillo, José Páez, Isabel Da Silva, Ana Medina y Mauro Pérez

    ResponderEliminar