![Page 1: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/1.jpg)
Incorporating SAT Solvers into HierarchicalClustering Algorithms - An Efficient and Flexible
Approach
Nathan Siegle Hartmann
Núcleo Interinstitucional de Linguística Computacional (NILC),Instituto de Ciências Matemáticas e de Computação (ICMC),
Universidade de São Paulo (USP)
19 de novembro de 2013
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 1/37
![Page 2: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/2.jpg)
Observação
Material desenvolvido com livre interpretação do paper de Gilpinand Davidson (2011), publicado na 17th ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 2/37
![Page 3: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/3.jpg)
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 3/37
![Page 4: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/4.jpg)
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 4/37
![Page 5: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/5.jpg)
Contextualização e Motivação
Agrupamento com restrições é o agrupamento "clássico",porém insere restrições na formação dos grupos.Estudos sobre agrupamento restrito se originaram a umadécada atrás.Trabalhos comumente utilizam apenas regras simples(Must-Link, Cannot-Link e Must-Link-Before).2 grandes gaps foram identificados na área.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 5/37
![Page 6: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/6.jpg)
1o Gap da área
Pouco estudo sobre agrupamento hierárquicoutilizando restrições.
Apesar deMais de 50% das aplicações de agrupamento seremhierárquicas.
Agrupamento hierárquico apresenta um sumáriocompreensivo dos dados.Agrupamento hierárquico pode modelar relações temporais.
O uso de agrupamento hierárquico ser bom em áreas comdomínio conhecido por especialistas.
Especialistas podem especificar diversas restrições paramodelar os grupos de interesse.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 6/37
![Page 7: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/7.jpg)
2o Gap da área
Pouco estudo sobre linguagens de programação paramodelagem dessas restrições.
Apesar deModelar restrições com linguagens procedurais ser um grandelimitante
Design de algoritmos para solucionar restrições.Modelar restrições com linguagens declarativas parecer maisconveniente
Modelagem das restrições
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 7/37
![Page 8: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/8.jpg)
Proposta
Os autores propõe a utilização deFormulação de restrições em lógica de primeira ordem comocláusulas de Horn.
Inconsistências são verificadas em tempo polinomial.Resolução de restrições como um problema SAT(satisfiability)
Cláusulas de Horn fazem com que problemas SAT deixem deser NP Completos.
Se todas as restrições são satisfeitas, o modelo pode serinterprestado como um dendograma válido.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 8/37
![Page 9: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/9.jpg)
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 9/37
![Page 10: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/10.jpg)
Regras
Definição 1. together(x,y,i).
Verdadeiro se x e y estão no mesmo grupo no nível iTodos os tipos de restrições podem ser modelados comtogether e expressos com cláusulas de Horn.
Pode-se definir um dendograma utilizandoA relação together.As seguintes propriedades sejam satisfeitas:Reflexividade, Transitividade, Simetria e Inter-Level link.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 10/37
![Page 11: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/11.jpg)
Propriedades
Definição 2. Propriedade de Reflexividade.
∀i , x [together(x , x , i)]
Toda instancia está no mesmo grupo que ela mesma.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 11/37
![Page 12: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/12.jpg)
Propriedades
Definição 3. Propriedade de Simetria.
∀i , x , y [together(x , y , i)→ together(y , x , i)]
Se x está no mesmo grupo que y em um nível i, então y está nomesmo grupo que x no mesmo nível i.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 12/37
![Page 13: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/13.jpg)
Propriedades
Definição 4. Propriedade de Transitividade.
∀i , x , y , z [together(x , y , i)∧
together(y , z , i)→together(x , z , i)]
Se em um nível i, x está no mesmo grupo que y e esse está nomesmo grupo que z, então x está no mesmo grupo que z nessenível i.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 13/37
![Page 14: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/14.jpg)
Propriedades
Definição 5. Propriedade de Inter-Level link.
∀i , x , y [together(x , y , i)→ together(x , y , i + 1)]
Se x e y estão no mesmo grupo em um nível i, eles permanecerãono mesmo grupo em todos os níveis subsequentes da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 14/37
![Page 15: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/15.jpg)
Propriedades
Definição 6. Propriedade de um DendogramaCompleto.
∀x , y [together(x , y , top)]
Para um dendograma ser completo, o último nível de sua hierarquia(top) deve conter apenas um grupo com todos os elementos.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 15/37
![Page 16: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/16.jpg)
Modelando o Dendograma
Aplicando os passos a seguir, todo modelo reconhecido seráinterpretado como um dendograma completo.
1 Aplica a relação together para refletir um grupo em cada nívelda hierarquia.
Requer que as propriedades de transitividade, simetria ereflexividade sejam satisfeitas.
2 Aplica a relação Inter-Level link para cada nível da hierarquia.3 Assegurar um dendograma completo pela Definição 6.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 16/37
![Page 17: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/17.jpg)
Modelando restrições do usuário
Muitos tipos de restrições podem ser inseridas pelo usuárioutilizando apenas cláusulas de Horn.
Restrição de instância.Restrição para instâncias em um nível específico.Restrições Must-Link Before.
Restrições em dois grupos: Globais e Locais.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 17/37
![Page 18: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/18.jpg)
Restrições Globais
Restrições Cannot-Link e Must-LinkOriginalmente formuladas para agrupamento particional.Cada nível de um agrupamento hierárquico pode serinterpretado como uma partição.Logo essas restrições devem obedecer a todos os níveis dahierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 18/37
![Page 19: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/19.jpg)
Restrições Globais
Observação 1. Restrições Globais Must/Cannot-Link.
ML(a, b) ≡ ∀i [together(a, b, i)]CL(a, b) ≡ ∀i [¬together(a, b, i)]
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 19/37
![Page 20: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/20.jpg)
Restrições Globais
Restrição Must-Link-BeforeOriginalmente formuladas para agrupamento hierarquico.Especifica que duas instâncias a e b são mais similares entre sido que a uma terceira instância c.Instâncias a e b estão no mesmo grupo antes de c ser inserido.Se a, b e c estão no mesmo grupo, então a e b já estavam nomesmo grupo em um nível anterior da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 20/37
![Page 21: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/21.jpg)
Restrições Globais
Observação 2. Restrição Global Must-Link-Before.
MLB(a, b, c) ≡∀i [together(a, c, i + 1)→ together(a, b, i)]∀i [together(b, c, i + 1)→ together(a, b, i)]¬together(b, c, 1)¬together(a, c, 1)
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 21/37
![Page 22: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/22.jpg)
Restrições Locais
Atribuir restrições para níveis específicos da hierarquia.
Não são comumente utilizadasRequer conhecimento de domínio sobre a relação de duasinstâncias em um dado nível da hierarquia.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 22/37
![Page 23: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/23.jpg)
Outras restrições
Observação 3. Must-Link-Befored .
must-link-befored(a, b, c) ≡∀i [together(a, c , i + d)→ together(a, b, i)]∀i [together(b, c , i + d)→ together(a, b, i)]
¬together(b, c , 1)...¬together(b, c , d)¬together(a, c , 1)...¬together(a, c , d)
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 23/37
![Page 24: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/24.jpg)
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 24/37
![Page 25: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/25.jpg)
Algoritmo Genérico para solução de restrições
Complexidade O(l2n + n2), ln = literais negativos, n = instâncias
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 25/37
![Page 26: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/26.jpg)
Experimentos
Questões de interesseA incorporação de restrições em algoritmos hierárquicosproduz resultados indesejados?Restrições mais complexas produzem melhores resultados doque as menos complexas?
Must-Link-Befored e Must-Link-Before.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 26/37
![Page 27: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/27.jpg)
Dados de teste
Conjunto de dados de testeArtificial Data SetNewsgroup Data Set
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 27/37
![Page 28: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/28.jpg)
Dados de teste
Artificial Data SetFormado segundo uma distribuição gaussiana.Hierarquia em 5 níveisDataset com 120 instâncias de 5 dimensões
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 28/37
![Page 29: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/29.jpg)
Dados de teste
Newsgroup Data Set
20 Newsgroup data set, coleção de 20 mil documentospertencentes a 20 categorias.Dados organizados em hierarquias.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 29/37
![Page 30: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/30.jpg)
Experimentos
Simulação1 Inicializa com um conjunto vazio de regras.2 Gerar um dendograma com o conjunto de regras.
Single Linkage e Complete Linkage.3 Comparar a saída obtida com a estrutura real do dendograma
(conhecimento prévio)4 Adicionar regras de forma a corrigir erros de merge de pontos
muito cedo no dendograma.Must-Link-Before e Must-Link-Befored .
5 Rodar novamente o experimento a partir do passo 2 com oconjunto de regras atualizado, até que não haja mais erros.
Repetir 10 vezes o experimento.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 30/37
![Page 31: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/31.jpg)
Medidas de Avaliação
F-score ≡ (1+ β2) · P·R(β2·P)+R
Trade-off entre as medidas de precisão e revocação
H-Correlation ≡ SbSt+Sl
Medida desenvolvida para algoritmos hierárquicos.Relação entre acertos em ambas as bases, correta e teste, (Sb)e a soma dos acertos na base correta (St) e na base de teste(Sl).
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 31/37
![Page 32: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/32.jpg)
Experimentos
Resultados para o conjunto de dados gerados artificialmente
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 32/37
![Page 33: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/33.jpg)
ExperimentosResultados para o conjunto de dados gerados a partirda 20 Newsgroup data set
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 33/37
![Page 34: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/34.jpg)
Resultados
A adição de regras Must link befored melhora a qualidade dahierarquia conforme o número de restrições aumenta.Must-Link-Befored superou o Must-Link-Before em ambas asmedidas F-score e H-correlation.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 34/37
![Page 35: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/35.jpg)
IntroduçãoContextualização e MotivaçãoProposta
ModelagemRegrasModelando o dendogramaModelando restrições do usuário
Algoritmo e Experimentos
Considerações Finais
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 35/37
![Page 36: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/36.jpg)
Considerações Finais
Lógica é uma boa escolha para especificação de restriçãodevido a sua formalidade.Uma direção de pesquisa é maximizar o número de restriçõessatisfeitas no caso de um conjunto inconsistente de restrições.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 36/37
![Page 37: Incorporating SAT Solvers into Hierarchicalclustering Algorithms - An Efficient and Flexible approach](https://reader033.vdocument.in/reader033/viewer/2022060203/559e5aa91a28ab88708b45e1/html5/thumbnails/37.jpg)
Referências I
Gilpin, S. and I. Davidson (2011). Incorporating sat solvers into hierarchicalclustering algorithms: An efficient and flexible approach. In Proceedings ofthe 17th ACM SIGKDD International Conference on Knowledge Discoveryand Data Mining, KDD ’11, New York, NY, USA, pp. 1136–1144. ACM.
Incorporating SAT Solvers into Hierarchical Clustering Algorithms - An Efficient and Flexible Approach 37/37