Função SOUNDEX( )

Retorna o código soundex para a cadeia especificada, que pode ser usado para comparações fonéticas com outras cadeias.

Sintaxe

SOUNDEX(nome)

Parâmetros

Nome Tipo Descrição
nome caractere A expressão de caracteres a ser avaliada.

Saída

Caractere. Retorna um código soundex de quatro caracteres.

Exemplos

Exemplos básicos

Palavras com a mesma pronúncia, mas grafadas de forma diferente

Os dois exemplos abaixo retornam o mesmo código soundex porque têm som igual, embora a grafia seja diferente.

Retorna F634:

SOUNDEX("Fairdale")

Retorna F634:

SOUNDEX("Faredale")

Palavras com som similar

Os dois exemplos abaixo retornam códigos soundex diferentes, mas próximos, porque as duas palavras têm som similar.

Retorna J525:

SOUNDEX("Jonson")

Retorna J523:

SOUNDEX("Jonston")

Palavras com som diferente

Os dois exemplos abaixo retornam códigos soundex bem diferentes porque as duas palavras têm som totalmente diferente.

Retorna S530:

SOUNDEX("Smith")

Retorna M235:

SOUNDEX("MacDonald")

Entrada de campo

Retorna o código soundex para cada valor no campo Sobrenome:

SOUNDEX(Sobrenome)

Exemplos avançados

Identificação de códigos soundex correspondentes

Crie o campo calculado Código_Soundex para exibir o código soundex para cada valor do campo Sobrenome:

DEFINE FIELD Código_Soundex COMPUTED SOUNDEX(Sobrenome)

Adicione o campo calculado Código_Soundex à exibição e execute um teste de duplicidades no campo calculado para identificar os códigos soundex correspondentes:

DUPLICATES ON Código_Soundex OTHER Sobrenome PRESORT OPEN TO "Possíveis_Duplicidades.fil"

Códigos soundex correspondentes indicam que os valores de caracteres associados no campo Sobrenome são possíveis duplicidades.

Observações

Quando usar SOUNDEX( )

Use a função SOUNDEX( ) para encontrar valores com som similar. Semelhança fonética é um modo de localizar os possíveis valores duplicados, ou ortografia inconsistente em dados inseridos manualmente.

Como funciona?

SOUNDEX( ) retorna o código de Soundex americano para a cadeia avaliada. Todos os códigos são de uma letra seguida de três números. Por exemplo: "F634".

Como o código soundex é calculado

  • O primeiro caractere do código representa a primeira letra da cadeia avaliada.
  • Cada número no código representa um dos seis grupos de Soundex americano. Os grupos são compostos de consoantes foneticamente similares.

    Com base nesses grupos, o processo de soundex codifica as primeiras três consoantes na cadeia avaliada após a primeira letra.

O que o processo de soundex ignora

O processo de soundex ignora:

  • maiúsculas e minúsculas
  • vogais
  • as consoantes "H", "W" e "Y"
  • todas as consoantes que aparecem após as três consoantes codificadas

Um ou mais zeros (0) finais no código retornado indicam uma cadeia avaliada com menos de três consoantes após a primeira letra.

Limitações do processo de soundex

As funções SOUNDEX( ) e SOUNDSLIKE( ) têm algumas limitações:

  • O algoritmo soundex destina-se a funcionar com palavras pronunciadas em inglês e tem graus variados de eficácia quando usado com outros idiomas.
  • Apesar do processo soundex desempenhar uma correspondência fonética, esta correspondência de palavras deve começar sempre com a mesma letra, o que significa que algumas palavras de sons semelhantes não encontram correspondência.

    Por exemplo, uma palavra que começa com "F" e uma palavra que começa com "Ph" poderiam ter semelhança sonora, mas nunca serão correspondidas.

Funções relacionadas

  • SOUNDSLIKE( ) um método alternativo para comparação fonética de cadeias.
  • ISFUZZYDUP( ) e LEVDIST( ) comparam cadeias com base em uma comparação ortográfica (ortografia), em vez de uma comparação fonética (som).
  • DICECOEFFICIENT( ) não prioriza ou ignora completamente a posição relativa de caracteres ou blocos de caracteres durante a comparação de cadeias.