finding similar questions in large question and answer archives

Finding Similar Questions in Large Question and Answer Archives

Jiwoon Jeon, W. Bruce Croft and Joon Ho Lee

Retrieval Models for Question and Answer Archives

Jiwoon Jeon, W. Bruce Croft and Xiaobing Xue

PresenterSawood Alam <salam@cs.odu.edu>

Finding Similar Questions in Large Question and Answer Archives

Jiwoon Jeon, W. Bruce Croft and Joon Ho LeeCenter for Intelligent Information Retrieval, Computer Science

DepartmentUniversity of Massachusetts, Amherst, MA 01003

[jeon,croft,joonho]@cs.umass.edu

CIKM '05, Proceedings of the 14th ACM Conference on Information and Knowledge Management, 2005

Introduction

• Q&A systems quickly build large archives– Naver, a popular Korean search site gets 25,000+

questions per day• Great linguistic resource• Answering questions from the archive before a

human response appear

Q&A Over Usual Search

• Opinion or summary• Direct answers rather than relevant documents• Search in collection of questions associated

with answers• Lexical similarity vs. semantic similarity– Is downloading movies illegal?– Can I share a copy of a DVD online?

Solving Word Mismatch Problem

• Knowledge database (machine readable dictionaries) – unreliable performance

• Manual rules or templates – hard to scale• Statistical technique – most promising– Requires large training data set

Question and Answer Archive

• Average lengths (words)• Title: 5.8• Body: 49• Answer: 179

Relevance Judgments

• Eighteen different retrieval results (varying retrieval algorithms)– Query likelihood, Okapi BM25 and overlap

coeficient• Top 20 Q&A pairs from each retrieval result• Manual judgment• Correctness of answer was ignored• Manual browsing for missing relevant Q&A

Field Importance

Generation of Training Sample

• LM-HRANKSim(A, B) = (1/r1 + 1/r2) / 2

Where:• Answer A retrieves B at

rank r1

• Answer B retrieves A at rank r2

Word Translation Probabilities

Experiments and Results

Examples and Analysis

Retrieval Models for Question and Answer Archives

Jiwoon JeonGoogle, Inc. Mountain View, CA 94043, USA

jjeon@google.comW. Bruce Croft and Xiaobing Xue

Center for Intelligent Information Retrieval, Computer Science DepartmentUniversity of Massachusetts, Amherst, MA 01003

[croft,xuexb]@cs.umass.edu

SIGIR '08, Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information

retrieval, 2008

Introduction

• Word mismatch problem• Focus on translation based approach• Explanation of poor performance of pure IBM

model vs. query-likelihood language model• Proposed a mixed model– Query part: translation based language model– Answer part: query likelihood language model

LM vs. IBM model 1

Question Part

Answer Part

• Gamma = 0 : translation based (for question part)• Gamma = 1 : query likelihood LM (for answer part)• Beta = 0 : combination model

Word-to-Word Translation Probability

• Word “cheat” in question– “trust”, “forgive”, “dump” and “leave” etc. in answer

• Word “cheat” in answer– “husband” and “boyfriend” etc. in question

• All these words are useful to attack word mismatch problem– Combined probability used: P(Q|A) and P(A|Q)

Examples

Experimental Results

Conclusions

• Translation based language model for query part and QL language model for answer part

• Experiment done on a Q&A web service where people answer others questions

• Future work– Testing effect of proposed model on FAQ archives– Yahoo! Answers collection– Phrase based machine translation rather than

word based translation

finding similar questions in large question and answer archives

answer partexperiment

answer partbeta

large question

bruce croft

similar questions

question partgamma

analysis retrieval models

query likelihood lm

Documents

missouri state archives finding aid 133office of adjutant...

finding similar questions in large question and answer...

victoria university archives finding aid - victoria ... ·...

finding similar exercises in online education...

finding similar documents using nearest neighbors

finding similar mobile consumers with a privacy-friendly...

dalhousie university archives finding aid - powers

special collections and university archives indiana …...

finding municipal records - archives of · pdf filearchives...

finding similar files in large document repositories

secteur des archives privées de la ville de lévis finding

finding similar items - stanford...

finding aid to doris lee papers, 1896-1987 archives of

finding similar neighborhoods across cities by mining...

inverclyde archives gb599 clubs and societies finding aid

dalhousie university archives finding aid - lockeport

dalhousie university archives finding aid - john and

finding similar items 1 wu-jun li department of computer...

12 finding similar items - sjtuyshen/courses/bigdata/12...

archives finding aid stuart thayer collection v1