james z. wang jia li ching-chih chen school of information...

6
James Z. Wang School of Information Sciences and Technology Pennsylvania State University University Park, PA 16802 [email protected] Jia Li Department of Statistics Pennsylvania State University University Park, PA 16802 [email protected] Ching-chih Chen Graduate School of Library and Information Science Simmons College Boston, MA 02155 [email protected] ABSTRACT 1. INTRODUCTION 1.1 Related work on indexing images

Upload: others

Post on 11-Oct-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

Interdisciplinary Research to Advance Digital Imagery Indexing and

Retrieval Technologies for Asian Art and Cultural Heritages�

James Z. Wangy

School of InformationSciences and Technology

Pennsylvania State UniversityUniversity Park, PA 16802

[email protected]

Jia LiDepartment of Statistics

Pennsylvania State UniversityUniversity Park, PA 16802

[email protected]

Ching-chih ChenGraduate School of Library

and Information ScienceSimmons CollegeBoston, MA 02155

[email protected]

ABSTRACTThis paper provides an introduction of our NSF-funded re-search project on advancing digital imagery technologies forAsian art and cultural heritages. This international col-laborative research project aims at developing technologiesrelated to the preservation, retrieval, and dissemination ofdigital imagery. Researchers in the US, China, and SouthKorea will collectively investigate and develop technologiesfor acquiring, browsing, managing, and searching large col-lections of high quality art images. One of the main researchquestions the team of US researchers focuses on is the prob-lem of automatic indexing and retrieval of digital art images.Building on the foundation of a successful image retrievalplatform, the SIMPLIcity system with the ALIP algorithm,the team is developing techniques to automatically associatelinguistic terms with image features for indexing Asian artimages. The testbed databases of art images for this re-search project in the US will begin by using some of the richimage resources of the Emperor and the Chinese MemoryNet projects by Ching-chih Chen. This image knowledgebase consist of high quality scans, with extensive metadatainformation including detailed keyword information, as wellas comprehensive textual descriptions. The research workaims at demonstrating that (1) modern machine learningand statistical data mining tools are capable of learning fromnon-structured or semi-structured input data such as humanannotations, (2) statistical image modeling techniques canbe used in automatic linguistic indexing and concept dic-tionary building. Finally, we discuss the challenges and theimportance for the line of interdisciplinary research work.Index Terms { Content-based image retrieval, image clas-

�The URL http://wang.ist.psu.edu provides more informa-tion about the project.yJames Z. Wang is also with the Department of ComputerScience and Engineering.

si�cation, image annotation, hidden Markov model, com-puter vision, machine learning, wavelets, Asian art, culturalheritages.

1. INTRODUCTIONThere is a growing international trend to make informationon digital images of art and cultural heritages available tothe general public. Most of these images are not currentlyaccessible. The Internet and the Web are excellent mediumfor distributing imagery and other important work [7]. Someamateurs have already started to scan art images from bookpublication free of copyright. Yet, the collection of scannedart images found on the Web is of small quantity and ofamateur quality. Because the scanned images are locatedin so many places on the Web, it is often impossible to lo-cate the images when they are needed. It is important todevelop technologies that provide content-based search ofdistributed databases of art and cultural heritages.

The main goal of our National Science Foundation (NSF)supported research is to advance information technologiesrelated to the preservation, retrieval, and dissemination ofdigital imagery for Asian art and cultural heritages. Theproject, based on the development and use of the StanfordChicana Art image database since 1995 and the collabora-tive work [2] with Chinese Memory Net (CMNet) [3], thisproject will start by further development and testing workon the rich and substantial image and video knowledge baseson the world renowned terracotta warriors and horses of theFirst Emperor of China [4], developed by Ching-chih Chen ofSimmons College. The extensive metadata with detailed keywords as well as descriptive annotations will be invaluableto this project since they are very labor-intensive to createand require subject knowledge. As additional high qualityancient art images, such as those related to ancient Asianpaintings and calligraphies, become available, this projectwill extend to include those contents.

1.1 Related work on indexing imagesMany content-based image retrieval (CBIR) systems havebeen developed since the early 1990s. A recent article pub-lished by Smeulders et al. reviewed more than 200 referencesin this ever changing �eld [9]. Readers are referred to thatarticle and some additional references [14, 12, 5] for moreinformation.

Page 2: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

Most of the CBIR projects aimed at general-purpose imageindexing and retrieval systems focusing on searching imagesvisually similar to the query image or a query sketch. Theydo not have the capability to assign comprehensive textualdescription automatically to pictures, i.e., linguistic index-ing, because of the great diÆculties in recognizing a largenumber of objects. However, this function is essential forlinking images to text and consequently broadening the pos-sible usages of an image database.

1.2 Our statistical approachA growing trend in the �eld of image retrieval is to linguis-tically index images using computer programs relying onstatistical classi�cation methods. The Stanford SIMPLIc-ity (Semantics-sensitive Integrated Matching for Picture LI-braries) system [11] uses manually-de�ned statistical clas-si�cation methods to classify the images into rough seman-tic classes, such as textured-nontextured, graph-photograph.Potentially, the categorization enhances retrieval by permit-ting semantically-adaptive searching methods and narrow-ing down the searching range in a database. The approachis limited because these classi�cation methods are problemspeci�c and must be manually developed and coded. Wehave applied the SIMPLIcity system to various areas in-cluding the Emperor image database [2].

A recent work on associating images explicitly with wordsis that of University of California at Berkeley [1], in whicha hierarchical clustering model incorporating image featuresand text information is established to organize images in adatabase.

In the recent work carried out at Penn State University [10],categories of images, each corresponding to a concept, arepro�led by statistical models, in particular, the 2-dimensionalmulti-resolution hidden Markov model (2-D MHMM) [8].The pictorial information of each image is summarized by acollection of feature vectors extracted at multiple resolutionsand spatially arranged on a pyramid grid. The 2-D MHMM�tted to each image category plays the role of extractingrepresentative information about the category. In partic-ular, a 2-D MHMM summarizes two types of information:clusters of feature vectors at multiple resolutions and thespatial relation between the clusters, both across and withinresolutions. As the estimation of a 2-D MHMM is done sep-arately for each category, a new category of images added tothe database can be pro�led without repeating computationinvolved with learning from the existed categories. Sinceeach image category in the training set is manually anno-tated, a mapping between pro�ling 2-D MHMMs and setsof words can be established. For a test image, feature vectorson the pyramid grid are computed. Consider the collectionof the feature vectors as an instance of a spatial statisticalmodel. The likelihood of this instance being generated byeach pro�ling 2-D MHMM is computed. To annotate theimage, words are selected from those in the text descriptionof the categories yielding highest likelihoods. The researchresulted in the ALIP (Automatic Linguistic Indexing of Pic-tures) system which is capable of building a dictionary of 600concepts automatically.

In the coming years, we plan to further develop the ALIPsystem for the purpose of indexing art images. The manually-

annotated Emperor multimedia knowledge base developedby Chen as a part of CMNet with labor-intensive manualannotations will serve as an important testbed for this re-search. Computer programs will attempt to learn to builda knowledge base from the existing metadata. Potentially,such automatically-generated knowledge bases can be usedby computers to annotate images of similar semantic con-tent.

2. SIMPLICITY AND ART

Figure 1: Query results of the Chicana Art imagesearch engine developed by Wang for the StanfordUniversity Art Library. The �rst image is the queryimage. Some paintings with similar styles are re-trieved.

Our development of image indexing and retrieval systems [11]started as early as 1995 at Stanford University. The �rstproject, conducted by J. Z. Wang et al., was initiated bythe Stanford University Libraries and later funded by IBMQBIC, NEC C&C Research Labs, SRI International, and aresearch grant from US NSF. The goal was to design and im-plement a computer system capable of indexing and retriev-ing large collections of digitized multimedia data availablein the libraries based on the media contents. At the time, itseemed reasonable that one should discover the solution tothe image retrieval problem during the project. Experiencehas certainly demonstrated how far we are as yet from solv-ing this basic problem. The problem is challenging becauseof the large size of the database, the diÆculty of understand-ing images, both by people and computers, the diÆculty offormulating a query, and the problem of evaluating the re-sults.

After the �rst system, the WBIIS (Wavelet-Based Image In-dexing System) [14], and its application to the Chicana Artdatabase (Figure 1), Wang and Li realized the importanceof region-based indexing in retrieving arts. A region-basedretrieval system applies image segmentation [13] to decom-pose an image into regions, which correspond to objects ifthe decomposition is ideal. The object-level representationis intended to be close to the perception of the human visualsystem. However, image segmentation is nearly as diÆcultas image understanding because the images are 2-D projec-tions of 3-D objects and computers are not trained in the3-D world the way human beings are.

In 1999, Wang and Li developed the SIMPLIcity system [12].As in other region-based retrieval systems, an image is rep-resented by a set of regions, roughly corresponding to ob-jects, which are characterized by color, texture, shape, andlocation. The system classi�es images into semantic cat-egories, such as textured-nontextured, graph-photograph.Potentially, the categorization enhances retrieval by permit-

Page 3: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

ting semantically-adaptive searching methods and narrow-ing down the searching range in a database. A measurefor the overall similarity between images is developed usinga region-matching scheme that integrates properties of allthe regions in the images. Compared with retrieval basedon individual regions, the overall similarity approach (1)reduces the adverse e�ect of inaccurate segmentation, (2)helps to clarify the semantics of a particular region, and (3)enables a simple querying interface for region-based imageretrieval systems. The application of SIMPLIcity to severaldatabases, including a database of about 200,000 general-purpose images, has demonstrated that our system performssigni�cantly better and faster than existing ones. The sys-tem is fairly robust to image alterations.

The SIMPLIcity system has been applied to many areas,demonstrated by the fact that more than 40 institutions in-cluding universities, government agencies, and NASA JPL,have obtained the research license of the software. Recently,Chen and Wang successfully applied the SIMPLIcity sys-tem to the problem of searching the art images of The FirstEmperor of China's terracotta warriors, horses and other re-lated art objects as a collaborative e�ort of CMNet [2]. Thepreliminary results are most relevant to this project and thusdeserve some brief discussion in the following section.

2.1 Application of SIMPLIcity in art historyand archaeology

In addition to the popular interactive videodisc and laterthe multimedia CD-ROM products both published by theVoyager Co., Chen's Emperor Project supported by the Na-tional Endowment for the Humanities has also a very valu-able crude database which provides signi�cant metadata in-formation on each of the 5,000 most signi�cant images [3].For the NSF/IDLP's CMNet, Chen has further modi�edand expanded this database to a dynamic image knowledgebase with comprehensive metadata information as shown inFigure 2.

Figure 2: A part of a typical record in the compre-hensive Emperor database.

This database is developed under the Microsoft Access en-vironment and can also be easily ported to other relationaldatabases such as Oracle. The database engine provides fastsearch results on individual indexing attributes.

Although all Emperor images were scanned in a very highresolution of 1200 dpi, they are saved in 5 di�erent deriva-tives for other research and development purposes. Our ini-tial collaboration uses only the smallest icon images with theSIMPLIcity technology, and the results were already quitegood. That shows the high robustness of the mathematicaland statistical algorithms underlying the system.

Figure 3: SIMPLIcity shows a random selection ofimages from the Emperor database.

The SIMPLIcity system allows the user to interact and searchthe Emperor database in di�erent ways. Figure 3 shows the\Random" mode of the system which gives user a randomselection of images from the database. The user may chooseone of the images from the selection as a query image to �ndsimilar images from the database. Figures 4 and 5 show thesearch results on some sample images.

Figure 4: SIMPLIcity search result. The upper-leftcorner image is the query image the user selected.

Figure 5: Another SIMPLIcity search result. Theupper-left corner image is the query image the userselected.

Page 4: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

Figure 6: SIMPLIcity is capable of quickly lo-cating the similar images to a query image fromthe Web. The query image, shown as theupper-left corner image, was downloaded fromhttp://www.unc.edu/courses/hist033 .

Because of the fast image segmentation and region-basedfeature indexing speed of the SIMPLIcity system, it per-mits the user to search on a query image from anywhere onthe Internet in real time. The user may enter the URL ofthe query image in the search �eld. The server downloadsthe image from that URL, extracts the features from theimage, and compares the query image to all images in thedatabase. Typically, it takes a couple of seconds to performthese operations using a Pentium PC based server.

The user is allowed to draw the query image using a JAVAinterface. However, because of the diÆculty in drawing tex-tures, the time for a user to formulate a query using thedrawing applet can be long. We are investigating betterdrawing interfaces.

3. ALIPRecently, the team at Penn State University developed theALIP system [10]. The main motivation for this work is toempower the computer with semantic learning capabilitiesso that linguistic indexing of pictures may be possible. Apicture is worth a thousand words. As human beings, we areable to tell a story from a picture based on what we haveseen and what we have been taught. A 3-year old child iscapable of building models of a substantial number of con-cepts and recognizing them using the learned models storedin her brain. Can a computer program learn a large col-lection of semantic concepts from 2-D or 3-D images, buildmodels about these concepts, and recognize them based onthese models? This is the question the ALIP work attemptsto address.

Automatic linguistic indexing of pictures is essentially im-portant to content-based image retrieval and computer ob-ject recognition. It can potentially be applied to many areasincluding biomedicine, commerce, the military, education,digital libraries, and Web searching. Decades of research hasshown that designing a generic computer algorithm that canlearn concepts from images and automatically translate thecontent of images to linguistic terms is highly diÆcult. Muchsuccess has been achieved in recognizing a relatively small

set of objects or concepts within speci�c domains. There isa rich resource of prior work in the �elds of computer vision,pattern recognition, and their applications [6].

.

.

.

.

.

.

FeatureExtraction

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������

���������������������������������������������

������������������������������������������������������

��������

��������

���

���

��������

���

���

��������

���

���

���

���

���

���

������

������

���

���

���

���

��������

��������

��������

��������

��������

��������

��������

��������

������

������

���

���

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������

�������������������������������������

������������������

������������������

������������������

������������������

���������������������������������������������������

���������������������������������������������������

����������������������������������

����������������������������������

���������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������

������������������������������������������������

������������������������������������������������

������������������������������������

������������������������������������

�����������������

�����������������

������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

������

������

������

������

��������

������

������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

����������������������������������

����������������������������������

������

������

����

����

ModelingStatistical

Textual description aboutconcept 1

FeatureExtraction

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������

���������������������������������������������

������������������������������������������������������

������

������

������

������

����

������

������

����

������

������

����

����

���

���

��������

���

���

���

���

��������

��������

��������

��������

��������

��������

��������

��������

��������

���

���

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������

�������������������������������������

������������������

������������������

������������������

������������������

���������������������������������������������������

���������������������������������������������������

����������������������������������

����������������������������������

���������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������

������������������������������������������������

������������������������������������������������

������������������������������������

������������������������������������

�����������������

�����������������

������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

��������

��������

������

������

��������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

����������������������������������

����������������������������������

��������

���

���

���

���

ModelingStatistical

Textual description aboutconcept N

FeatureExtraction

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������������

���������������������������������������������

������������������������������������������������������

��������

��������

���

���

��������

���

���

��������

���

���

���

���

����

������

������

����

����

��������

��������

��������

��������

��������

��������

��������

��������

������

������

����

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������

�������������������������������������

������������������

������������������

������������������

������������������

���������������������������������������������������

���������������������������������������������������

����������������������������������

����������������������������������

���������������������������������������������������������������������������������������������������������

���������������������������������������������������������������������������������������������������������

������������������������������������������������

������������������������������������������������

������������������������������������

������������������������������������

�����������������

�����������������

������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������������

������

������

������

������

��������

��������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

������������������������������������������������������������������������������������

����������������������������������

����������������������������������

��������

����

����

Model about concept 1Training DBfor concept 1

Training DBfor concept 2

Model about concept 2

Training DBfor concept N

Model about concept N

Textual description aboutconcept 2

ModelingStatistical

A trained dictionaryof semantic concepts

Figure 7: The architecture of the statistical model-ing process.

Readers are referred to [10] for technical details of the ALIPsystem and the evaluation of its performance. The systemhas three components: the learning component, the statisti-cal comparison component, and the linguistic indexing com-ponent. Figures 7 and 8 illustrate the ow of the statisticalmodeling and the image indexing processes of the system.

In the learning phase, we train the computer system usingcategories of images. For each concept category, we providethe system with a set of images depicting the concept. Thecomputer builds a multi-scale statistical model after ana-lyzing the features extracted from the images. To validatethe methods, the ALIP was implemented and tested witha general-purpose image database including about 60; 000photographs. These images are stored in JPEG format withsize 384 � 256 or 256 � 384. The system is written in theC programming language and compiled on two UNIX plat-forms: LINUX and Solaris.

We conducted experiments on learning-based linguistic in-dexing with a large number of concepts. The ALIP systemwas trained using a subset of 60; 000 photographs which arebased on 600 CD-ROMs published by COREL Corp. Typi-cally, each COREL CD-ROM of about 100 images representone distinct topic of interest. For our experiment, the dictio-nary of concepts contains all 600 concepts, each associatedwith one CD-ROM of images.

We manually assigned a set of keywords to describe eachCD-ROM collection of 100 photographs. The semantic de-scriptions of these collections of images range from as simpleor low-level as \mushrooms" and \ owers" to as complex orhigh-level as \England, landscape, mountain, lake, Euro-pean, people, historical building" and \battle, rural, people,guard, �ght, grass". On average, 3.6 keywords are used todescribe the content of each of the 600 concept categories. Ittook the authors approximately 10 hours to annotate thesecategories.

After running the learning component of the ALIP system, adictionary or knowledge base of 600 concepts is built by thecomputer automatically. In the image indexing phase, thecomputer compares the features in an un-annotated image

Page 5: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

.

.

.

.

.

.

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

��������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

����������������������������������������

����������������������������������������

���

���

������

������

������

������

������

������

������

������

���

���

���

���

���

���

���

���

���

���

���

���

������

������

��������

��������

��������

��������

��������

��������

��������

��������

���

���

������

������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������

�����������������������������������

���������������

���������������

���������������

���������������

������������������������������������������������

������������������������������������������������

��������������������������������

��������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������

��������������������������������������������

���������������������������������

���������������������������������

����������������

����������������

������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������

������

������

������

������

���

���

������

������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������

��������������������������������

������

������

���

���

����

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

��������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

����������������������������������������

����������������������������������������

���

���

������

������

������

������

������

������

������

������

���

���

���

���

���

���

����

����

����

��������

��������

��������

��������

��������

��������

��������

��������

��������

����

��������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������

�����������������������������������

���������������

���������������

���������������

���������������

������������������������������������������������

������������������������������������������������

��������������������������������

��������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������

��������������������������������������������

���������������������������������

���������������������������������

����������������

����������������

������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������

��������

��������

����

��������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������

��������������������������������

��������

����

����

Resolution 2

Resolution 3

Resolution 1

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

������������������������

��������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

����������������������������������������

����������������������������������������

����

��������

��������

��������

��������

����

����

����

����

����

����

��������

��������

��������

��������

��������

��������

��������

��������

��������

����

��������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������������������������������������������������������������������������������������������������

�����������������������������������

�����������������������������������

���������������

���������������

���������������

���������������

������������������������������������������������

������������������������������������������������

��������������������������������

��������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������

��������������������������������������������

���������������������������������

���������������������������������

����������������

����������������

������������������������������������������������������������������������������������������������

������������������������������������������������������������������������������������������������

��������

��������

����

��������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

�������������������������������������������������������������������������������������������������������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������������������������������������������������������

��������������������������������

��������������������������������

��������

����

���

���

Model about concept 1

Model about concept 2

Model about concept N

ModelComparison

ModelComparison

ModelComparison

Statistically significantindex terms:food, indoor,cuisine, dessert

FeatureExtraction

Likelihood 1

Likelihood 2

Likelihood N

Image to be indexed

SignificanceProcessor

about conceptsStored textual descriptions

Image DB

Figure 8: The architecture of the statistical linguis-tic indexing process.

with the stored concept models. Statistical likelihood is usedto indicate whether an image resembles a given concept.Finally, the statistical signi�cance of each possible indexingkeyword is assessed to determine the annotation keywordsfor each image.

3.1 Potential applications of ALIP in artFor art image databases, keyword-based manual annotationsare simply too labor-intensive and requires substantial sub-ject knowledge which generally are not possible for the tech-nologists to create. It is also often too expensive to annotatea very large scale art image database by hand. This is whyChen's Emperor image knowledge base is so signi�cant forthis research. Essentially we have a ready made scholarlyknowledge base with all the required information needed toapply and test our ALIP system. This technology-contentmix is a real necessity to enable us to move our research fromsimple commercial images to real art history and archaeol-ogy images with great research and educational potential.

One of the main bene�ts of using the Emperor image databaseis its comprehensive structured and semi-structured meta-data. This allows the computer system to learn conceptsranging from very simple ones to very complex ones. Themetadata of the database is carefully prepared. We expectthe system to be able to capture some domain-speci�c con-cepts based on the expert annotation. We aim at demon-strating that modern machine learning and statistical datamining tools are capable of building domain concept dictio-nary automatically and use the learned models in automaticlinguistic indexing of images.

We also hope to apply the ALIP system to Asian paintingimage database when available. We are in the process ofobtaining some digital images of the most signi�cant ancientChinese paintings for this research. When they are available,the ALIP system will be used to analyze these paintings.Potentially, the computer system will capture some of themost important concepts in the domain of ancient Asianpaintings. We expect that the computer system will be ableto answer questions like: \What are the most important

clues for art historians to tell if a painting is from the TangDynasty or the Qing Dynasty?" and \What features are thediscriminative features for Chinese landscape paintings?"

These are very challenging problems, which will be furtherelaborated in the next section.

4. DISCUSSIONSResearch on digital imagery technologies for art and cul-tural heritages is critically important for its great potentialin further advancing related sciences and engineering, its rel-evance of arts and cultural heritages to education at variouslevels, and its role in promoting cultural understanding.

Research on art images is likely to shed light into manyother image-related research �elds such as computer visionand eÆcient transmission of images. When an artist paints apicture, he/she is not simply copying what is seen. Puttingaside the aspects of expressing imagination and mood, evenwhen the intention is to display the real world accurately,special techniques are exploited to provide viewers a senseof three dimensions and subtle lighting using a at can-vas and painting media with limited colors and shades. Ittook many genius artists centuries to develop these tech-niques. One such example is the use of composite colors toachieve high contrast, a technique pioneering impressionismpainters Monet and Renoir discussed, studied, and masteredto brighten oil painting. By using a great variety of textures,Van Gogh even conveys through his paintings a touchingfeeling of objects. Art pictures are thus records for how thereal world is captured in images by artists, including be-yond any doubt the most talented people who understandthe link between them. Therefore, art pictures are of greatvalues in their own right for research on images. Applyingmodern computing techniques to analyze them will gain in-sights for general-purpose image archiving, distributing, andintelligent automatic information extracting.

Art is a crucial part of education for children and the generalpublic. As a treasure of the human culture, it provides peo-ple inspiration, imagination, and proud. Art work recordshistory. Paintings have existed since the dawn of the civiliza-tion, as a sharp contrast to any other imagery technology,which arose in the recent few hundred years. Paintings ina particular era show the social structure, the way peoplenormally lived, the fashion and entertainment, and some-times the technological level of the time. Paintings re ectartists' imagination, mood, personality, belief, and even so-cial attitude. They are a form of high-level creation, nota sheer craft. This is why an important branch of Chinesepainting is referred to as `write about the essence'. As afruit of the highly elaborated human intelligence, it is notsurprising art has inspired numerous people, enhanced theirlives, and made them con�dent in themselves and respectfulto others. Not every child has the opportunity to visit mu-seums or read many art books. Research on digital imagerytechniques for art pictures will make art work much easierto access and to study.

Exposing the general public to art from di�erent cultureswill increase understanding and appreciation between peo-ple with di�erent cultural backgrounds. Art work can beappreciated relatively easily across cultures since no spe-

Page 6: James Z. Wang Jia Li Ching-chih Chen School of Information ...infolab.stanford.edu/~wangz/project/imsearch/ART/ACM02/wang.pdf · image mo deling tec hniques can be used in automatic

cialized capabilities, e.g., language, are needed. The intrin-sic beauty in art also leads people to a relatively open mindtowards di�erent traditions. Nowadays, with the ever in-creasing communication between people all over the world,it is crucial that people respect cultural diversities and learnfrom each other. Prejudices often come from misunderstand-ing, or unwillingness to understand. Art is an excellent cul-tural representative in the sense of helping people to look atother cultures objectively. Modern digital technologies havemade it a reality to exhibit large collections of art workfrom multiple cultures. Since an enormous amount of artwork has been created, both storage and distribution raisemany challenges. Further advancing digital technologies forarchiving and distributing art work is of great importance.

5. CONCLUSIONSIn this paper, we gave an introduction of our NSF-fundedresearch project on advancing digital imagery technologiesfor Asian art and cultural heritages. We have provided theoverall designs of the the SIMPLIcity content-based imageretrieval system and the ALIP automatic linguistic index-ing of pictures system. We have described the collaborativee�ort in using the comprehensive Emperor's image knowl-edge base of Chen's CMNet project. We have illustratedhow the SIMPLIcity system is used in searching art images.Potentially, the application of the ALIP system in using theEmperor's rich annotations and keywords will demonstratethat statistical learning and data mining methods can beused by computers to automatically learn domain-speci�cknowledge for the purpose of intelligent image annotation.This application will be applied to other art topics.

6. ACKNOWLEDGMENTSThe SIMPLIcity work was supported in part by the USNational Science Foundation (NSF) under Grant No. IIS-9817511 and Stanford University. The research and de-velopment work related to EMPEROR was supported bythe National Endowment for the Humanities for PROJECTEMPEROR-I and NSF/IDLP for Chinese Memory Net un-der Grant No. IIS-9905883. This work is supported primar-ily by The Pennsylvania State University, the NSF underGrant No. IIS-0219272, the PNC Foundation, and SUN Mi-crosystems under grant EDUD-7824-010456-US. Our othercollaborators will include Zuoquan Lin, Ruqian Lu, Kyu-Young Whang, and Gio Wiederhold. Conversations withMichael Lesk have been very helpful. The copyright of theoriginal Chicana Art images shown in this paper belongs toStanford University. The copyright of the original Emperorimages shown in this paper belongs to Ching-chih Chen ofSimmons College.

7. REFERENCES[1] K. Barnard, D. Forsyth, \Learning the Semantics of

Words and Pictures," In Proc. ICCV, 2:408-415,2001.

[2] C.-C. Chen, J. Z. Wang, \Large-scale Emperordigital library and semantics-sensitive region-basedretrieval," In Proc. International Conference onDigital Library { IT Opportunities and Challenges inthe New Millennium, 454-462, Beijing:NationalLibrary of China, July 9-11, 2002.

[3] C.-C. Chen, \Chinese Memory Net (CMNet): Amodel for collaborative global digital librarydevelopment," In Global Digital Library Developmentin the New Millennium: Fertile Ground forDistributed Cross-Disciplinary Collaboration, C.-C.Chen (ed.), 21-32, Beijing:Tsinghua University Press,2001.

[4] C.-C. Chen, \Multimedia and the First Emperor ofChina: Moving knowledge base," Multimedia Today(IBM), 2(2):68-71, April 1994.

[5] Y. Chen, J. Z. Wang, \A region-based fuzzy featurematching approach to content-based image retrieval,"IEEE Trans. on Pattern Analysis and MachineIntelligence, 24(9):1252-1267, 2002.

[6] D. A. Forsyth, J. Ponce, Computer Vision: AModern Approach, Prentice Hall, 2002.

[7] M. Lesk, Practical Digital Libraries: Books, Bytes,and Bucks, Morgan Kaufmann Publishers, 1997.

[8] J. Li, R. M. Gray, R. A. Olshen, \Multiresolutionimage classi�cation by hierarchical modeling withtwo dimensional hidden Markov models," IEEETrans. on Information Theory, 46(5):1826-1841,August 2000.

[9] A. W. M. Smeulders, M. Worring, S. Santini, A.Gupta, R. Jain, \Content-Based Image Retrieval atthe End of the Early Years," IEEE Trans. onPattern Analysis And Machine Intelligence,22(12):1349-1380, 2000.

[10] J. Z. Wang, J. Li, \Learning-based linguisticindexing of pictures with 2-D MHMMs," In Proc.ACM Multimedia, Juan Les Pins, France, ACM,December 2002.

[11] J. Z. Wang, Integrated Region-based Image Retrieval,Kluwer Academic Publishers, Dordrecht, 2001.

[12] J. Z. Wang, J. Li, G. Wiederhold, \SIMPLIcity:Semantics-sensitive Integrated Matching for PictureLIbraries," IEEE Trans. on Pattern Analysis andMachine Intelligence, 23(9):947-963, 2001.

[13] J. Z. Wang, J. Li, R. M. Gray, G. Wiederhold,\Unsupervised multiresolution segmentation forimages with low depth of �eld," IEEE Trans. onPattern Analysis and Machine Intelligence,23(1):85-91, 2000.

[14] J. Z. Wang, G. Wiederhold, O. Firschein, X. W. Sha,\Content-based image indexing and searching usingDaubechies' wavelets," Int. J. of DigitalLibraries(IJODL), 1(4):311-328, Springer-Verlag,1998.