Controlar el tamaño de los resultados duplicados inexactos
Los resultados duplicados inexactos pueden volverse muy grandes porque la función de duplicados inexactos utiliza un algoritmo que realiza una comparación de valores de muchos a muchos en el campo de prueba. La comparación, por diseño, también devuelve coincidencias más fácilmente que una comparación en la que se necesita una coincidencia exacta.
Según la naturaleza de los datos y los diferentes ajustes que especifique, los resultados pueden ser varias veces superiores a la tabla que se está probando. Si los resultados se vuelven muy grandes en relación con la tabla de prueba, es posible que ya no sean útiles o significativos y la mayoría de los resultados podrían ser falsos positivos.
Métodos para controlar el tamaño de los resultados de duplicados inexactos
Puede utilizar uno o más de los siguientes métodos para controlar el tamaño de los resultados de duplicados inexactos y reducir la cantidad de falsos positivos que se obtienen:
- Usar más de un campo de prueba concatene campos de prueba para aumentar el grado de unicidad de los valores de prueba.
- Ordenar los elementos de los valores del campo de prueba use la función SORTWORDS( ) para ordenar secuencialmente los elementos individuales de los valores del campo de prueba; esto le permite usar un Umbral de diferencia más pequeño.
- Quitar elementos genéricos de los valores del campo de prueba utilice la función OMIT( ) para quitar elementos genéricos de los valores del campo de prueba; esto le permite utilizar un Umbral de diferencia más pequeño.
- Umbral de diferencia utilice un Umbral de diferencia pequeño inicialmente (por ejemplo, 3 o menos) y auméntelo únicamente si siente que los resultados son demasiado restrictivos.
- Porcentaje de diferencia utilice el Porcentaje de diferencia predeterminado inicialmente (50) y auméntelo únicamente si siente que los resultados son demasiado restrictivos. No desactive Porcentaje de diferencia a menos que tenga una razón específica para hacerlo.
- Tamaño de resultado (%) Basándose en el número de valores del campo de prueba, especifique un Tamaño de resultado (%) que evite que los resultados crezcan a un tamaño imposible de manejar. Tamaño de resultado (%) establece el tamaño máximo de los resultados en relación con el tamaño del campo de prueba. No desactive Tamaño de resultado (%) a menos que tenga una razón específica para hacerlo.
Nota
Este ajuste no afecta de ninguna manera la inclusión o exclusión de falsos positivos.
- Limitar el tamaño del grupo de duplicados inexactos utilice el comando SET para especificar un tamaño máximo de grupo de duplicados inexactos que sea más pequeño que el tamaño predeterminado de 20; por ejemplo, SET FUZZYGROUPSIZE TO 10.
Nota
Este ajuste no afecta de ninguna manera la inclusión o exclusión de falsos positivos.
Si algunos de los métodos que se describen más atrás se establecen de manera demasiado restrictiva, es posible que se excluyan duplicados inexactos válidos. Es posible que necesite probar diferentes combinaciones de configuración para descubrir qué funciona mejor para un conjunto de datos en particular.
Concatenar campos de prueba con la función SORTWORDS( ) y utilizar la función OMIT( ) son los métodos con menor probabilidad de excluir duplicados inexactos válidos.
Especificar un tamaño de resultado máximo
Utilizar la opción Tamaño de resultado (%) para especificar un tamaño de resultado máximo le permite finalizar automáticamente la operación de duplicados inexactos si el tamaño de los resultados aumenta más allá de lo que usted considera manejable. No se produce ninguna tabla de salida si la operación finaliza.
La opción Tamaño de resultado (%) es un mecanismo de seguridad para evitar los tiempos de procesamiento extremadamente extensos. No tiene ninguna relación con la validez de los resultados que se obtienen. Si especifica un límite de tamaño de resultados grande, tal vez se incremente la cantidad de falsos positivos en los resultados. Por el contrario, si especifica un tamaño de resultados pequeño, es posible que el procesamiento se dé por finalizado antes de que se capten todos los duplicados inexactos válidos.
Elección de un límite adecuado
Escoger un límite adecuado para el tamaño de los resultados es una cuestión de criterios y tal vez deba experimentar un poco. Comience con un límite conservador. Si se supera el límite y el procesamiento se da por finalizado, puede aumentar el límite. Una vez que tenga un límite que permita completar el procesamiento, examine los resultados. Si los resultados incluyen una gran proporción de falsos positivos, el mejor enfoque consiste en usar uno o más de los Métodos para controlar el tamaño de los resultados de duplicados inexactos.
Un conjunto de resultados óptimo incluye todos los duplicados inexactos válidos del campo de prueba (verdaderos positivos) al tiempo que minimiza la cantidad de falsos positivos. Para lograr un conjunto de resultados óptimo es necesario equilibrar todos los ajustes de duplicados inexactos y los métodos de ayuda de los que dispone.
Por qué puede especificar un límite de tamaño de resultados mayor que el cien por ciento
Por valor predeterminado, el tamaño máximo del conjunto de resultados es un 10 % del tamaño del campo de prueba. Puede especificar un porcentaje diferente entre 1 y 1000 (mil). El límite de 1000 % es para adaptarse a la naturaleza de la coincidencia de muchos a muchos, y para evitar procesamiento fuera de control. La coincidencia de muchos a muchos puede producir resultados más numerosos que el conjunto de datos de prueba original. Sin embargo, es probable que los resultados que exceden el tamaño del conjunto de datos de prueba original contengan principalmente falsos positivos.
Redondeo del cálculo del tamaño de los resultados
El cálculo de tamaño de resultado utiliza redondeo para producir sólo enteros positivos, y redondea hacia arriba cualquier número menor que 2 a 2, el tamaño de resultado mínimo (1 propietario de grupo y 1 miembro de grupo).
Desactivar el límite del tamaño de los resultados
En general, no debe desactivar Tamaño de resultado (%), a menos que esté seguro de que los resultados serán de un tamaño manejable. Ejecutar una operación de duplicados inexactos sin ningún límite para la cantidad de resultados puede ocasionar que la operación se ejecute por largo tiempo o que exceda la memoria disponible, lo cual finaliza el procesamiento.
Configurar un tamaño de grupo máximo de duplicados inexactos
Utilizar el comando SET para especificar un tamaño de grupo máximo de duplicados inexactos puede ser una manera de limitar el tamaño de grupos que de otra manera contendrían un número alto de falsos positivos. Esta función es muy útil si busca un valor de configuración que limite el tamaño de sólo algunos de los grupos en los resultados de salida. Si todos o la mayoría de los grupos alcanzan su tamaño máximo, es posible que el valor de configuración sea demasiado pequeño, y es posible que esté excluyendo duplicados inexactos válidos. La otra posibilidad es que la configuración de diferencia no sea lo suficientemente restrictiva, lo cual ocasione que el tamaño de los grupos aumente.
El tamaño de grupo máximo predeterminado es 20, y no incluye el propietario del grupo. Puede especificar un máximo diferente, entre 2 y 100. El máximo que especifique continúa en vigor durante la sesión de Analytics.
¿Qué ocurre si un grupo alcanza el tamaño máximo?
Si un grupo de duplicados inexactos alcanza el tamaño máximo, los duplicados inexactos subsiguientes del propietario del grupo no se detectan y no aparecen en el grupo. Estos duplicados inexactos excluidos pueden aparecer o no en un grupo subsiguiente, dependiendo de si forman parte de una coincidencia de duplicados inexactos subsiguientes.
Si producir una lista exhaustiva de duplicados inexactos para un propietario de un grupo que ha alcanzado su tamaño máximo es importante para su análisis, puede utilizar la función ISFUZZYDUP( ) para este fin. Si desea obtener más información, consulte Funciones de ayuda de duplicados inexactos.
Aparece un mensaje en el log si uno o más grupos alcanzan el tamaño máximo. Si el número de grupos que alcanzan el tamaño máximo es diez o menos, los grupos se identifican individualmente por número de grupo.
Los duplicados exactos se incluyen en el cálculo del tamaño del grupo
Los duplicados exactos se incluyen en el cálculo de tamaño de grupo aunque usted haya elegido no incluir duplicados exactos en los resultados. Por ejemplo, si en el log se identifica que un grupo ha alcanzado el tamaño máximo grupal de 20 (1 propietario de grupo y 20 miembros de grupo), pero sólo aparecen 18 miembros de grupo en los resultados, existen por lo menos dos duplicados exactos para el propietario del grupo en el campo de prueba.
También se hace referencia en el log a los grupos que están compuestos completamente por duplicados exactos si alcanzan el tamaño de grupo máximo, pero los grupos no aparecen en los resultados si usted ha elegido no incluir duplicados exactos.
Si desea obtener más información, consulte Comando SET.