Inbenta tem um serviço incomparável de autoatendimento graças ao seu motor de busca semântico baseado em linguagem natural, que permite comparar buscas de usuários não estruturadas, com erros de digitação, ambíguas, específicas com FAQs específicas com títulos concisos para que os clientes dos seus clientes encontrem a informação que precisam de forma rápida e fácil, de uma maneira sem precedentes.

 
Um dos maiores desafios em Processamento de Linguagem Natural é como lidar com a ambiguidade, uma característica principal de uma linguagem natural.
 
Por exemplo, considere a frase “tomar medidas”. A palavra “tomar” com frequência se refere ao ato de beber, é só por causa deste contexto específico que significa algo como “fazer”. A diferença é óbvia para uma pessoa familiarizada com o português, mas não para um computador.
 
E mesmo que um computador seja capaz de analisar a sintaxe de uma frase como “tomar medidas”, ele ainda não será capaz de ver qualquer diferença entre essa frase e a frase “tomar um suco” -, mas os significados destas duas frases são totalmente diferentes!
 
É por isso que a pesquisa semântica da Inbenta leva a análise mais longe, analisando o significado contextual de palavras, permitindo-lhe escolher a melhor definição da palavra “tomar”, mesmo quando a sintaxe e a própria palavra são as mesmas.
 
Este documento oferece uma visão de como esse processo realmente funciona, apresentando um exemplo na língua inglesa.
 
Vamos imaginar que você trabalha em uma empresa de telecomunicações e você está no comando da criação de FAQs, uma base de conhecimento, e todo o material que você vai publicar on-line para os seus clientes encontrar por si mesmos.
 
Para este exemplo particular, você tem uma FAQ que descreve o custo e os planos para os seus clientes possam ligar para outros países que tem o título:
 
“What is the price for international calls?”
 
Tudo parece bem, certo? Mas aí vem o problema: a probabilidade de que seus clientes vão procurar esta FAQ usando as mesmas palavras-chave que você usou no conteúdo é remota.
 
Em vez disso, eles vão digitar consultas como:
 
“how much wll me cost to call to francw”
 
Os usuários sempre vão usar as pesquisas que descrevem a sua situação particular, e, portanto, suas palavras vão ser diferentes da sua, porque vocês vão tentar descrever um cenário mais geral.
 
A primeira coisa que faz a Inbenta é aplicar um algoritmo de correção ortográfica sofisticado.

Spelling

No exemplo acima, “wll” não é uma palavra em inglês e, portanto, não faz parte do nosso grande dicionário de inglês e precisa ser corrigido.
 
Na verdade, poderíamos corrigir esse problema com a ortografia “will”, “well” ou “wall”. No entanto, a correção mais provável seria “will” como aquele é o que daria um melhor sentido para toda a sentença.
 
Há uma outra questão ortográfica: “francw”. Mais uma vez, possíveis correções poderiam ser “francs”, “franc” e “France”, embora o mais plausível é, naturalmente, o nome da nação europeia. Quando dizemos “a mais plausível”, que é fácil de decidir para os seres humanos, mas é muito difícil para os computadores. O enorme dicionário de inglês da Inbenta (francês, espanhol, português, e muitos outros dicionários também estão disponíveis) contém informações sobre como as combinações prováveis ​​de palavra seria, com base nas especificidades da base real do conhecimento, bem como características gerais da língua.
 

Search

 
A partir deste ponto, a Inbenta não vai lidar com a busca erroneamente digitada original mas, e em vez disso, encontrará uma resposta para esta versão corrigida.
 
O próximo passo é resolver quaisquer ambiguidades na sentença, (e em linguagem natural, sempre há ambiguidades!)
 
“how much will it cost to call to France?”
 

Ambiguity

 
A Inbenta usa várias ferramentas para alcançar este objetivo: domínio de dicionários, análise sintática, gramáticas locais e funções lexicais.
Realizar a análise sintática e semântica correta é crucial para encontrar respostas relevantes.
 
Através de Análise sintática, a Inbenta determina a função exata de cada palavra nessa questão em particular. O resultado desta análise é como se segue:
 

Speech

 
A análise da sentença dependerá de muitos fatores, o dicionário de domínio , regras de desambiguação , contexto , etc
 
Por exemplo, a palavra “call” pode ser um substantivo e tem vários significados não relacionados com serviços de telefone – “urge”, “decision”, “cry”, etc. Mas como um verbo, e no contexto da indústria de telecomunicações, “chamada” relaciona-se de forma inequívoca a uma chamada pelo telefone.
 
Em seguida, a Inbenta irá realizar uma análise semântica para determinar a importância relativa de cada palavra na frase. Os usuários muitas vezes adicionam uma grande quantidade de informações nas buscas que não é essencial para encontrar uma resposta relevante. Palavras de pesquisa adicionais introduzidos pelos usuários, que na indústria de busca são chamados de “ruídos”, podem frequentemente levar a resultados irrelevantes, mas nosso sistema é capaz de determinar quais palavras valem a pena tendo em conta porque eles carregam significado. Tendo em vista a atual base de conhecimento e algoritmo semântico-estatístico exclusivo, a Inbenta atribui esse peso semântico especial relativo a cada termo da consulta de pesquisa:
 

Percentage

 
Como você pode observar acima, nem todos os termos na busca tem a mesma importância. Neste caso, o “cost” e “France” contêm quase 70% de todo o “peso semântico” da pesquisa. Então, agora estamos perto de ter uma resposta relevante para esta pergunta.
 
A Inbenta possui um dicionário que contém centenas de milhares de termos e muitos tipos de relações semânticas chamadas “funções lexicais”. Essas funções lexicais podem cobrir relações fáceis, tais como sinônimos, mas também relações mais complexas que dependem do contexto em que o termo aparece.
 
Graças ao dicionário e funções lexicais, a Inbenta é capaz de reconhecer frases que têm o mesmo significado, apesar de utilizar palavras diferentes usadas para expressar esse significado. E com este último “algoritmo de sentido” nós somos capazes de saber o quão perto ou longe essas frases são umas das outras do ponto de vista do significado.
 
Entre muitos outros, o dicionário contém estas duas funções lexicais:
 
  • O termo “international” está relacionada com “nation”, e, portanto, os nomes de todas as diferentes nações. Isso diz que para a Inbenta “France” e “international” de alguma forma estão relacionados em termos de significado.

Semantic Tree

  • Além disso, este determinado usuário perguntou sobre “cost”, que é a maneira como os usuários percebem o que pagam por um serviço. No entanto, o autor da FAQ escreveu usando o termo “price”, que é praticamente o mesmo conceito, mas a partir da perspectiva do que é pago, não aquele que paga. Por isso, “cost” e “price” estão relacionados.

Paraphrase

 
Ao aplicar estas duas funções lexicais, a Inbenta sabe que a consulta do usuário está relacionada com os conceitos de “price” e “international”, mesmo que a consulta nunca realmente use essas palavras.
 
O léxico está crescendo a cada dia através do trabalho de nossos linguistas computacionais, que promovem ainda mais o seu desenvolvimento, tanto em termos da extensão de relações semânticas quanto da complexidade dessas funções lexicais.
 
Neste caso específico, o nosso patenteado “Algoritmo de Coincidência Semântica” em combinação com o nosso grande léxico, nos permite calcular que a consulta do usuário e esta FAQ em particular têm uma “Pontuação de Coincidência Semântica” de precisamente 57,49%.
 
Se nenhum outro FAQ tem uma pontuação Coincidência melhor Semântica, o único com o título “What is the price for international calls?” será aquele que é exibido primeiro na página de resultados.
 
Mais uma vez, o autor da FAQ só escreveu “What is the price for international calls?“; ele não tem que reformular paráfrases, adicionar tags, editar sinônimos ou rever alternativas tediosas do vocabulário.
 
Na Inbenta acreditamos que os criadores da base de conhecimento e editores só deve se preocupar sobre o QUE é o conteúdo, e não COMO o conteúdo será encontrado. A Inbenta assume essa responsabilidade, para que o seu gestor de conhecimento tenha mais tempo para escrever MAIS e MELHORES conteúdos.
 
É também importante notar que o nosso motor de busca semântico deve ter um tempo de resposta incrível, mesmo quando milhares de FAQs devem ser pesquisadas e milhares de usuários fazem perguntas diferentes ao mesmo tempo.
 
Neste exemplo, o nosso motor de pesquisa levou apenas 0,0033376097679138 segundo para encontrar a resposta certa para essa pergunta, com uma base de mais de 2500 FAQs para escolher.