Clasificación y regresión basadas en bosque

Icono de la herramienta Disponible en análisis de big data.

La herramienta Clasificación y regresión basadas en bosque herramienta Clasificación y regresión basadas en bosque crea modelos y genera predicciones mediante una adaptación del algoritmo de bosque aleatorio de Leo Breiman, que es un método de aprendizaje automático supervisado. Es posible realizar predicciones para variables de categorías (clasificación) y variables continuas (regresión). Las variables explicativas toman la forma de campos de la tabla de atributos de las entidades de entrenamiento. Además de la validación del rendimiento del modelo basándose en datos de entrenamiento, es posible realizar predicciones en las entidades.

Diagrama de flujo de trabajo

Diagrama del flujo de trabajo de Clasificación y regresión basadas en bosque

Ejemplos

  • Dados los datos sobre la presencia de posidonia, así como numerosas variables explicativas medioambientales, además de las distancias hasta fábricas aguas arriba y puertos importantes, es posible predecir la presencia futura de posidonia basándose en proyecciones de esas mismas variables explicativas medioambientales.
  • Es posible predecir el valor de la vivienda en función de los precios de las viviendas vendidas en el año en curso. Puede utilizar el precio de venta de las viviendas vendidas, así como información sobre el número de habitaciones, la distancia hasta las escuelas, la proximidad a carreteras importantes, el nivel medio de ingresos y los recuentos de delitos, para predecir los precios de venta de viviendas similares.
  • Dada una información sobre el nivel de plomo en sangre en niños y el Id. de parcela fiscal de sus viviendas, combinada con atributos a nivel de parcela (por ejemplo, la antigüedad de la vivienda), datos a nivel de censo (por ejemplo, niveles de ingresos y de estudios) y datasets nacionales que reflejen los vertidos tóxicos de plomo y compuestos de plomo, es posible predecir el riesgo de exposición al plomo para las parcelas sin datos sobre el nivel de plomo en sangre. Estas predicciones de riesgos podrían dar información a las políticas y los programas de educación en el área.

Notas de uso

  • Esta herramienta se puede configurar para realizar uno de los dos métodos operativos:
    • Método 1: si solo se proporcionan datos de destino (entrenamiento), la herramienta entrenará un modelo para evaluar el rendimiento del modelo. Esta opción se puede usar para evaluar el rendimiento de una configuración al explorar distintas variables explicativas y ajustes de la herramienta.
    • Método 2: una vez se haya identificado un modelo adecuado y variables explicativas, configure un modelo para proporcionar también datos de unión (predicción). Cuando se configuran los datos (predicción) de unión, la herramienta predecirá valores para la variable especificada para las entidades de sus datos de unión (predicción) en función de las variables explicativas asignadas.
  • Utilice el parámetro Variable para predecir para seleccionar un campo de la canalización de entrada de destino (datos de entrenamiento) que representa los fenómenos que se desea modelar. Use el parámetro Variable(s) explicativas para seleccionar uno o varios campos que representen las variables explicativas de la canalización de entrada de destino (datos de entrenamiento). Estos campos deben ser numéricos o de categorías y tener un rango de valores. Las entidades que contienen valores que faltan en las variables explicativa o dependiente se excluirán del análisis. Si modifica valores nulos, use la herramienta Calcular campo antes de actualizar los valores.
  • Las variables explicativas pueden provenir de campos y deben contener una variedad de valores. Si la variable explicativa es de categorías, se debe marcar la casilla de verificación De categorías. Las variables explicativas de categorías están limitadas a 60 valores únicos, aunque un número menor de categorías permite aumentar el rendimiento del modelo. Para un tamaño de datos dado, cuanto mayor sea el número de categorías contenidas en una variable, más probable es que esta domine el modelo y conduzca a resultados de predicción menos eficaces.
  • Al comparar variables explicativas, el campo de destino (datos de entrenamiento) y el campo de unión (datos de predicción) deben tener campos que sean del mismo tipo; si el campo del campo de entrenamiento es doble, debe correlacionarse con un campo doble de un campo de predicción, por ejemplo.
  • Los modelos basados en bosque no realizan extrapolación, solo pueden clasificar o predecir un valor con el que se haya entrenado el modelo. Entrene el modelo con entidades de entrenamiento y variables explicativas que se encuentren dentro del rango de las entidades y variables de destino. La herramienta generará un error si las variables explicativas de predicción contienen categorías que no estaban presentes en las entidades de entrenamiento.
  • El valor predeterminado del parámetro Número de árboles es de 100. El aumento del número de árboles del modelo de bosque dará lugar a una predicción de modelo más precisa, pero el modelo tardará más en calcularse.
  • La herramienta Clasificación y regresión basadas en bosque también produce entidades y diagnósticos de salida. Las capas de entidades de salida tienen aplicado automáticamente un esquema de representación. A continuación, se proporciona una explicación completa de cada salida de Capa de salida.
  • Las entidades con uno o varios valores nulos o valores de cadena de caracteres vacíos en campos explicativos o de predicción se ejecutarán desde la salida. Si es necesario, modifique los valores con la herramienta Calcular campo.
  • Para obtener más información sobre cómo funciona esta herramienta y sobre la herramienta de geoprocesamiento de ArcGIS Pro sobre la que se basa esta implementación, consulte Cómo funciona Clasificación y regresión basadas en bosque.

Parámetros

ParámetroDescripciónTipo de datos

Capa de entrada de destino (datos de entrenamiento)

Las entidades de entrenamiento utilizadas para generar un modelo. La canalización contiene el parámetro Variable para predecir y los campos de las variables explicativas de entrenamiento.

Entidades

Capa de entrada de unión (datos de predicción)

(Opcional)

Las entidades de predicción para las que se predecirá la variable deseada en función de las variables explicativas y los parámetros especificados.

Este parámetro es opcional. Si no se especifica, la herramienta Clasificación y regresión basadas en bosque ajustará un modelo para evaluar el rendimiento del modelo en función de los datos de entrenamiento.

Entidades

Variable para predecir

La variable de la canalización Capa de entrada de destino (datos de entrenamiento) que contiene los valores que se desean usar para entrenar el modelo. Este campo contiene valores (de entrenamiento) conocidos de la variable que se usará para predecir en ubicaciones desconocidas.

FieldName

Tratar variable como variable de categorías

Especifica si la variable para predecir es una variable de categorías.

  • Activado: la variable para predecir es una variable de categorías y la herramienta realizará clasificación.
  • Desactivado: la variable para predecir es continua y la herramienta realizará regresión. Esta es la configuración predeterminada.

Booleano

Variables explicativas

Una lista de campos que representan a las variables explicativas que ayudan a predecir el valor o la categoría de Variable para predecir. Active la casilla de verificación De categorías en el caso de las variables que representen clases o categorías tales como cobertura de suelo, presencia o ausencia.

ExplanatoryVariablesConfiguration

Asignación de variables explicativas (solo predicción)

Asigna los nombres de campo de variable explicativa seleccionados en el esquema de destino (entrenamiento) a los nombres de campo correspondientes en el esquema de unión (predicción).

Este parámetro es opcional. Las asignaciones de variables explicativas solo se deben especificar si se especifican datos de unión (predicción).

ExplanatoryVariableMappings

Número de árboles

La cantidad de árboles que se crearán en el modelo de bosque. Un mayor número de árboles por lo general dará lugar a una predicción de modelo más precisa, pero el modelo tardará más en calcularse. El número predeterminado de árboles es de 100.

Entero

Tamaño mínimo de hoja

El número mínimo de observaciones requeridas para conservar una hoja (es decir, el nodo terminal de un árbol que no tiene más divisiones). El mínimo predeterminado para regresión es 5 y el mínimo predeterminado para clasificación es 1. En el caso de datos muy grandes, si aumenta estos valores, se reducirá el tiempo de ejecución de la herramienta.

Entero

Profundidad máxima de árbol

El número máximo de divisiones que se desea realizar en un árbol. Si se utiliza una profundidad máxima grande, se podrán crear más divisiones, lo cual puede aumentar las probabilidades de exceso de ajuste en el modelo. El valor predeterminado se basa en datos y depende del número de árboles creados y el número de variables incluidas.

Entero

Tamaño de muestra

El porcentaje de Capa de entrada de destino (datos de entrenamiento) utilizadas para cada árbol de decisión. El valor predeterminado es del 100 por cien de los datos. Las muestras de cada árbol se toman aleatoriamente a partir de dos tercios de los datos especificados.

Cada árbol de decisión del bosque se crea con una muestra o un subconjunto aleatorios (aproximadamente dos tercios) de los datos de entrenamiento disponibles. Si utiliza un porcentaje menor de los datos de entrada para cada árbol de decisión, se aumenta la velocidad de la herramienta si los datasets son muy grandes.

Entero

Variables aleatorias

El número de variables explicativas utilizadas para crear cada árbol de decisión.

Cada árbol de decisión del bosque se crea con un subconjunto aleatorio de las variables explicativas especificadas. Al aumentar el número de variables utilizadas en cada árbol de decisión, aumentarán también las probabilidades de exceso de ajuste en el modelo, especialmente si existen una o varias variables dominantes. Una práctica habitual consiste en utilizar la raíz cuadrada del número total de variables explicativas si la variable para predecir es numérica, o bien en dividir el número total de variables explicativas entre 3 si la variable para predecir es de categorías.

Cadena de caracteres

Porcentaje para la validación

El porcentaje (entre el 10 y el 50 por ciento) de las entidades de entrenamiento de entrada de destino que se deben reservar como el dataset de prueba para la validación. El modelo se entrenará sin este subconjunto aleatorio de datos, y los valores observados para esas entidades se compararán con los valores predichos. El valor predeterminado es del 10 por ciento.

Entero

Capa de salida

La herramienta Clasificación y regresión basadas en bosque produce una variedad de salidas. Dispone de un resumen del modelo Clasificación y regresión basadas en bosque y resúmenes estadísticos en la página de detalles del elemento de la capa de entidades de salida o en los registros del análisis.

Si se implementa el método 1 anterior para entrenar un modelo para evaluar el rendimiento del modelo (solo los datos de entrenamiento proporcionados a la herramienta), la herramienta produce las dos salidas siguientes:

  • Entidades entrenadas de salida: contiene todas las entidades de entrenamiento (esquema de destino) que se usan en el modelo creado, así como todas las variables explicativas que se usan en el modelo. También contiene predicciones para todas las entidades usadas para entrenar el modelo, lo cual puede resultar útil para evaluar el rendimiento del modelo creado.
  • Mensajes de resumen de la herramienta: mensajes que le ayudan a comprender el rendimiento del modelo creado. Los mensajes contienen información acerca de las características del modelo, errores fuera de bolsa, importancia variable y diagnósticos de validación. Para acceder al resumen de sus resultados, visualice registros analíticos o la página de detalles del elemento de salida de la capa de entidades en la que también está disponible la información de resumen.

Si va a implementar el método 2 para ajustar un modelo y predecir valores (datos de entrenamiento y predicción proporcionados a la herramienta), la herramienta produce las dos salidas siguientes:

  • Entidades predichas de salida: una capa de los resultados predichos. Las predicciones se aplican a la capa para la que predecir (predecir valores para unir datos de esquemas) con el modelo generado desde la capa de entrenamiento.
  • Mensajes de resumen de la herramienta: mensajes que le ayudan a comprender el rendimiento del modelo creado. Los mensajes contienen información acerca de las características del modelo, errores fuera de bolsa, importancia variable y diagnósticos de validación. Para acceder al resumen de sus resultados, visualice registros analíticos o la página de detalles del elemento de salida de la capa de entidades en la que también está disponible la información de resumen.

Consideraciones y limitaciones

Se admite una sola canalización para datos de entrenamiento y una sola canalización de datos para los datos de predicción.