exocorriges.comexocorriges.com/doc/42572.doc  · web viewtudáskezelő labor. eredmények. bodnár...

of 70/70
Tudáskezelő Labor Eredmények Bodnár Tamás

Post on 10-Aug-2020

0 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

Tudáskezelő Labor

Eredmények

Bodnár Tamás

Tartalomjegyzék

1. Cikk kivonatok3

1.1. The 20th Century Press Archives as Linked Data Application3

1.2. Twitris 2.0 : Semantically Empowered System for Understanding Perceptions From Social Data8

1.3. Exploring Your Research: Sprinkling some Saron on Semantic Web Dog Food12

1.4. Interactive Exploration of Web Datasets with VisiNav15

1.5. TrialX: Using semantic technologies to match patients to relevant clinical trials based on their Personal Health Records18

1.6. Egy nyelvészeti UIMA-folyamat a kézi annotálástól az eredmények megjelenítéséig22

1.7. Valós idejű szövegosztályozás a Wikipédia szolgálatában25

1.8. asdA graph-based approach to measuring semantic relatedness in ontologies27

2. WordNet - OracleText33

2.1. Oracle Text alapján valamilyen mértékben hasonló fogalmak és a WordNet alapján mért távolságok között van-e összefüggés?33

3. Google API39

3.1. Google Fordító Java API39

4. NLP csomagok42

4.1. Apache OpenNLP42

4.2. Stanford NLP44

4.3. Phrasal (Stanford NLP gépi fordítója)45

4.4. GATE és SharpNLP52

The 20th Century Press Archives as Linked Data Application

Joachim Neubert

German National Library of Economics (ZBW) – Leibniz Centre for Economics

Neuer Jungfernstieg 21, 20347 Hamburg, Germany

[email protected]

Kivonat

Bodnár Tamás

A Gazdasági Német Nemzeti Könyvtár (German National Library of Economics (ZBW) ) 20th Century Press Archives ( 20. századi sajtóarchívum ) egy hatalmas újsággyűjtemény, mely személyekről, vállalatokról, termékekről és általános közérdekű dolgokról tartalmaz információt az 1826-tól 2005-ig tartó időszakból, tematikus rendbe csoportosítva.

Bevezetés

A 20. század kezdetén a Hamburgi Gyarmatügyi Intézet Központi Osztálya (1919-től Hamburgi Nemzetközi Gazdasági Intézet) és a Kieli Világgazdasági Intézet Gazdasági Archívuma elkezdett politikai és nemzetközi gazdasági információkat gyűjteni. Ez több, mint 1300 újság forrásait felhasználva egy hatalmas adatmennyiséget eredményezett. A tárolt dokumentumok száma kb. 30 millió (ebből eddig kb. 5.7 millió van digitalizálva). Ma ez a ZBW (German National Library of Economics) kezelésében van.

Az alkalmazás fejlesztésének céljai

A P20 alkalmazás (http://zbw.eu/beta/p20) online hozzáférést biztosít 6,800 dossziéhoz és 250,000 személyekhez és vállalatokhoz köthető dokumentumhoz. A jelenleg béta verziójú alkalmazás a fent említett web-alkalmazást egészíti ki.

Az új alkalmazás főbb céljai a következők voltak:

1.Minden gyűjteménynek, dossziénak, dokumentumnak, oldalnak és még a keresési eredményhalmazoknak is egy állandó azonosítót ad

2.A web metaadatokból keretet adjon a felhasználónak és kapcsolódjon más, a domainnek releváns adatforrásokhoz

3.Támogassa a felhasználónak ismerős szabványos kép és metaadat megjelenítését (a METS/MODS–on alapulva)

4. Megkönnyítse az automatikus adatbányászatot és az adat újrafelhasználását

Általános tervezési döntések

Mivel az archívum adatainak minél könnyebb elérése és felhasználása volt a cél, valamint külső Linked Open Data forrásokat kellett bevonni, ezért betartották a Linked Data Principles-t („Összekapcsolt Adatok Alapelvei”).

A meglévő adatokhoz elég kevés metaadat állt rendelkezésre; az alapinformációt az adatgyűjtemény tematikus csoportosítása jelenti (időrendi sorrendbe rendezve).

A 20th Century Press Archives, mint Linked Data Application

OAI-ORE, mint az adatmodell gerince

Open Archives Initiative Object Reuse and Exchange (OAI-ORE) a Web források aggregációinak leírására és cseréjére fogalmaz meg szabványokat.

Ez a szabvány teljesen megfelel az itt levő adatok struktúrájához, sőt az alkalmazás 1. célja (azonosítók kiosztása még a dinamikusan generált eredményhalmazoknak is) meg is valósítható az OAI-ORE használatával.

Az ORE-OAI szótár a hatékony adatbányászat elősegítésének figyelembe vételével lett kialakítva, és a szabvány egyéb struktúrált elemeivel a 4. célt is meg lehet valósítani (adatbányászat megkönnyítése).

Fig. 1 RDF elemek és más P20 web erőforrások és kapcsolatok a LOD felhővel

RDFa egy egyszerű megjelenítésre

Mivel az alkalmazás főleg végfelhasználóknak szól, RDFa egy természetes választás volt az aggregációk sorba rendezésére és (X)HTML oldalakba való beágyazására.

URI koncepció

A P20-ban két szerepe van az URI-knak.

Állandó azonosítók, nem hivatkozható HTTP-n keresztül, a Kapcsolt Adat Alapelveknek megfelelően és egyben felhasználói interfész is, mint a P20 web szolgáltatásának az API-ja.

Aggregációs URI:

p20:{collection_name}(/{dossier_key}(/{document_number}(/{page_number})?)?)?

Forrás Térkép URI:

p20:{aggregation_uri_part}/about(.{language}.({format})?)?

A felhasználó kiválaszthatja a megjelenítés nyelvét. Jelenleg a német (de) és angol (en) támogatott. A jelenleg támogatott kimeneti formátumok RDFa (html) és – dossziékhoz és dokumentumokhoz - METS/MODS (xml).

Megjelenítési URI:

p20:{collection_name}/{dossier_key}(/document_number})?/view(.{language})?

A megjelenítési URI-k a DFG-Viewer webszolgáltatás hívásához paraméterként vannak hozzárendelve a dossziék és dokumentumok METS/MODS XML reprezentációjának URI-jával együtt.

Keresési URI:

Keresés eredményhalmazoknak hivatkozhatónak kell lenni az URI-k által. Az aggregációs URI-k

p20:{collection_name}/searchresult(/{language})?\?q={query}

átirányítódnak (303-redirected):

p20:{collection_name}/searchresult/about(/{language})?\?q={query}

Ez jelenleg implementálva van a Vállalati doszziékra (cím keresése szövegként).

Részletek

A Német Nemzeti Könyvtár nemrég adta ki a Német Személyinév hatósági fájlokat (German Personal Name Authority Files), mint kapcsolt adatok, ezáltal képesek voltak ezt összekapcsolni az életrajzi dossziéval és a DBpedia-val, amin keresztül Wikipedia linkeket is be tudtak tölteni az oldalakra. Ezzel az angol nyelvű rész kész is volt, bár a dokumentumok csak német nyelvűek.

A Linked Data növeli az Életrajzi Dosszié Keresési hatékonyságát

Az életrajzi dosszié keresési funkciója kapcsolt adatokat használ közbevetve egy webszolgáltatást, ami más neveket is a keresési listához ad, és továbbítja a tényleges dossziénak a keresés elvégzéséhez:

Netto, Henrique M. -> Coelho Neto, Henrique M.; 1864−1934

Reiling, Netty -> Seghers, Anna; 1900−1983

A hatósági fájlok és thesaurusok használata nagyban növeli a hatékonyságot, mivel olyan szinonímákat is hozzávesz a kereséshez, amik szintaktikailag nem kapxsolódnak egymáshoz, de ugyanazt a személyt vagy fogalmat jelölik.

Keresési eredmények: OAI-ORE kiterjesztése dinamikus aggregációkká

Az ORE eleve azért lett használva, hogy a keresési eredméynekre is lehessen hivatkozásokat létrehozni, és ezekben keresni, ami így dinamikusan felépített aggregáció lesz. Ez a Vállalati dossziéknál van használva, ahol csak a dosszié címkéje ismert.

METS/MODS, DFG-Viewer

A DFG-Viewer való a dokumentumok nézegetésére és böngészésére. Ez METS/MODS XML fájlokat dolgoz fel. Mivel nem találtak megfelelő szabványos jelölőrendszert, ezért egy egyedi rendszert használnak, ami az adatok struktúráltságából adódik, és állandó azonosítókat használ.

Nagy aggregációk felosztása

Mivel a dossziék szintjén az aggregációk túl nagyok weboldalon történő böngészéshez vagy hatékony adatbányászathoz, ezért bevezettek egy középső réteget egy kezdeti hash-eléssel(lásd Fig. 1). A struktúra azt a szándékot fejezi ki, hogy egy olyan logikus navigálású utat készítsen, aminek nincs meg az a hátránya, hogy nagy mennyiségű linket kell kezelnie.

Technikai Implementáció

A fejlesztés Perl környezetben történt, az alkalmazás egy Apache webszerveren fut. Az implementációs struktúra egy relációs adatbázisra (Postgresql), egy osztály-relációs rétegre (DBIx::Class), egy "business objects" rétegre(ZBW::Resource::* osztályok, melyek a különböző RDF osztályokat és azok property-jeit fejezi ki felhasználva az RDF::Query::Client-t a kapcsolt adatok web-elérésére), egy irányító komponensre (CGI::Application, URI tárolással, amit a CGI::Application::Dispatch::Regex Plugin végez) és egy megjelenítő komponensre épít, ahol a tényleges RDFa oldalak készülnek (HTML::Template). A felhasználói felület YUI CSS és Javascript keretrendszerekkel készült.

Az OAI-ORE beágyazott struktúrája lehetővé teszi a kód újra felhasználását eljárásokon keresztül, mint pl. a get_children_data(), ami az aggregáció minden szintjén meghívható.

Licensz

Az adathalmazok licenszének kérdése még mindig nyitott, mivel a metaadatok (a rendezettség) jogát a ZBW, míg a dokumentumokét több tízezer szerző birtokolja. Ezeket a The 20th Century Press Archives as Linked Data Application nem tudja garantálni.

Összegzés

A semantikus webtechnológiák és a kapcsolt adattechnikák (Linked Data Techniques) nagyban megnövelték a mélyen beágyazott digitális adatok hozzáférhetőségét. Az OAI-ORE/RDFa a nem semantikus webeszközökkel a felhasználók számára nyújtott nagy segítséget.

Sok archívumban a metaadatok mennyisége még kisebb, mint a 20th Century Press Archives-ba, ezért az eredeti rendezettség megőrzése nagyon fontos. Emiatt az OAI-ORE felvázolt egy lehetőséget a klasszikus archívumok tárolására és keresésére.

Referenciák

[1] Huck, T.S., Wannags, M.: Die Pressearchive von HWWA und ZBW - Retrodigitalisierung der Altbestände von 1900 bis 1930. In: Burckhardt, D. (ed.) .hist 2006: Geschichte im Netz: Praxis, Chancen, Visionen: Beiträge der Tagung .hist 2006, pp. 430-445, Berlin (2007).

[2] Open Archives Initiative Protocol - Object Exchange and Reuse, http://www.openarchives.org/ore/.

[3] Neubert, J.: Bringing the “Thesaurus for Economics” on to the Web of Linked Data. Proc. WWW Workshop on Linked Data on the Web (LDOW 2009), Madrid, Spain. (2009).

[4] Habing, T., Cole, T.: Candidate approaches for describing ORE Aggregations in METS, http://ratri.grainger.uiuc.edu/oremets/.

[5] Sanderson, R., Llewellyn, C., Jones, R.: Evaluation of OAI-ORE via large-scale information topology visualization. Proceedings of the 9th ACM/IEEE-CS joint conference on Digital libraries. pp. 441-442ACM, Austin, TX, USA (2009).

[6] Kaplan, D., Sauer, A., Wilczek, E.: Archival description in OAI-ORE. Presented at the Open Repositories 2010, Madrid (2010).

Submission to the Semantic Web Challenge 2010 at the 9th International Semantic Web Conference (ISWC2010), Shanghai, China, 7-11 Nov 2010

Twitris 2.0 : Semantically Empowered System

for Understanding Perceptions From Social Data

Ashutosh Jadhav, Hemant Purohit, Pavan Kapanipathi, Pramod Ananthram,

Ajith Ranabahu, Vinh Nguyen, Pablo N. Mendes, Alan Gary Smith, Michael

Cooney, and Amit Sheth

Kivonat

Bodnár Tamás

Bevezetés

A közösségi oldalaknak köszönhetően már az egyszerű polgárok is képesek akár az egész világgal információt megosztani. Mivel a közzétett adatmennyiség hirtelen jelentősen megnőtt, az adatok kiértékelése egyre nagyobb kihívást jelent. Az információ jelentésének meghatározása, valamint az, hogy mi, hol, mikor történt még nehezebb feladat, hiszen ugyanarról az eseményről esetleg többen több – sokszor ellentétes – nézőpontból tudósítanak.

A Twitris a közösségi média adatainak feldolgozására lett létrehozva, legfőképpen a térbeli, időbeli, tematikus információkra, a felhasználói benyomásokra és a hálózati viselkedésre összpontosítva.

Twitris 2.0 leírás

Twitris 2.0 egy többrétegű rendszer, ahol minden rész egy pipeline-ba illeszkedik.

Tweet-ek kigyűjtése

Az adatok kinyerése szinte valós időben történik, amihez a Twitter Search API-t használja a program. Egy folyamatos témafelismerő és frissítő folyamat fut :

4.5. az eseményhez fogalmak keresése a DBPedia-ban, az így azonosított fogalmak egy kulcsszó csoportot alkotnak

4.6. ezeket a Google Insights for Search (Google keresési trendek) által visszaadott kulcsszavakkal egészítik ki (ez regionális, kategorikus eredményeket ad)

Az adatokat RDF formátumban közzéteszik az SSD (Semantic Social Data) részeként a LOD-ban.

Tweet feldolgozás

· egy eseményt körülvevő tweet-ek térbeli-időbeli csoportosítása

· TFIDF (súlyozás) számolása a csoportokra az n-gram-ok elkészítéséhez

· súlyozás javítása a térbeli, időbeli és tematikus kapcsolatokat bevonva, az eseményleírók kontextusát is figyelembe véve

· a Doozer segítségével domain modellek létrehozása figyelembe véve az esemény kontextusát és a kapcsolódó eseményeket

Tweet forgalom figyelése

A Twitris 2.0 Egy eseményhez kapcsolódó napi tweet-eket is számon tartja. Minden eseményhez egy gráf tartozik, ami ezt megjeleníti.

Szemantikai környezet vizsgálata

A Twitter-ben három fajta kontextusból lehet jelentést kivonni:

· internal context : az adatokat közvetlenül a tweet-ekből nyeri ki

· képek, videók, cikkek : a kigyűjtött URL követése:

· az oldal neve, címe

· entitások gyűjtése OpenCalais-val

· további szemantikusan kapcsolódó képek, videók gyűjtése az éppen megfelelő API segítségével (pl. youtube videóknál youtube API)

· az eseményhez kapcsolódó többi tweet összegyűjtése

· szemantikusan annotált entitások kigyűjtése, melyek a tweetben találhatóak a NER segítségével (Named Entity Recognition). Ezekhez a DBPedia-ból keres háttérinformációkat

· external context : külső forrásokból gyűjtött (google news, wikipedia, stb.), a tweet témájához kötődő adatok

· mined internal context : az internal context-ből kibányászott adatok

· az eseményhez kapcsolódó tweet-ek „érzés-vizsgálata” : negatív, pozitív, semleges vagy tárgyilagos az információ.

· Egy entitás-kapcsolati gráf létrehozása a szemantikusan annotált DBPedia entitásokat felhasználva. Ezeket a RelFinderrel jeleníti meg.

Technikai információk

· php, Java a háttérfunkciókhoz és a feldolgozáshoz

· Virtuoso a SPARQL végpontjaként (teljesítmény-összehasonlítások után ez adta a legjobb eredményt a többi nyílt forrású megoldáshoz viszonyítva)

· MySQL az adatok tárolásához

· JavaScript

· Webszolgáltatások : Twitter, Yahoo! BOSS, Google News, twitpic, Youtube, DBpedia

és Wikipedia

Statisztika

Total number of extracted tweets

17.5 million

Processed Tweets

8 million

Cached unique location geocodes

595,3

Cached author locations

2.4 million

Extracted event descriptors

3.7 million

Extracted DBpedia entities

1.3 million

Extracted external URLs

649,17

References

1. Gruhl, D., Nagarajan, M., Pieper, J., Robson, C., Sheth, A.: Context and domain

knowledge enhanced entity spotting in informal text. The SemanticWeb-ISWC 2009 pp. 260{276 (2009)

2. Mendes, P., Passant, A., Kapanipathi, P., Sheth, A.: Linked Open Social Signals.

In: IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent

Agent Technology, 2010. WI-IAT'10. (2010)

3. Nagarajan, M., Baid, K., Sheth, A., Wang, S.: Monetizing User Activity on Social Networks-Challenges and Experiences. In: Web Intelligence and Intelligent Agent Technologies, 2009. WI-IAT'09. IEEE/WIC/ACM International Joint Conferences on. vol. 1, pp. 92{99. IEEE (2009)

4. Nagarajan, M., Gomadam, K., Sheth, A., Ranabahu, A., Mutharaju, R., Jadhav,

A.: Spatio-temporal-thematic analysis of citizen sensor data: Challenges and experiences. Web Information Systems Engineering-WISE 2009 pp. 539{553 (2009)

5. Nagarajan, M., Purohit, H., Sheth, A.: A Qualitative Examination of Topical Tweet and Retweet Practices (2010),

http://www.aaai.org/ocs/index.php/ICWSM/ICWSM10/paper/view/1484

6. Sheth, A.: Citizen sensing, social signals, and enriching human experience. Internet Computing, IEEE 13(4), 87{92 (2009)

7. Thomas, C., Mehra, P., Brooks, R., Sheth, A.: Growing

elds of interest-using an expand and reduce strategy for domain model extraction. In: Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT'08. IEEE/WIC/ACM International Conference on. vol. 1, pp. 496{502. IEEE (2009)

Exploring Your Research: Sprinkling

some Saron on Semantic Web Dog Food

Fergal Monaghan, Georgeta Bordea, Krystian Samp, and Paul Buitelaar

Kivonat

Bodnár Tamás

Bevezetés

A Saffron egy alkalmazás, amely betekintést enged a kutatócsoportok közösségébe, szervezeteibe és az általuk végzett munkákba.

A felhasználó egy webes felületen keresztül keresgélhet az adatbázisban található kutatók munkái között, melyekre akár témakörük szerint is gyorsan rá lehet keresni. A munkák és szerzőik is kapcsolódhatnak más munkákhoz és szerzőkhöz, így egy hálózatot alkotnak.

Ez segíthet a felhasználónak a saját kutatásához megfelelő információ összegyűjtésében vagy a téma szakértőinek felkutatásában. Külön figyelmet fordít a kapcsolatfelvételt könnyítő funkciókra.

Kutatási téma kivonása

Az egyes kutatások besorolásra kerülnek ún. expertise topic-okba (kutatási téma) a bennük található főnév kifejezések és statisztikák alapján.

Az eredményeket a szövegkörnyezettől függően rangsorolja. Ehhez a Sindice Semantic Web engine-t használja.

Adatforrások

A Saffron több forrást is használ:

· Semantic Web Dog Food (SWDF) : információ a munkákról (pl. URL egy pdf-ben levő publikációhoz), a részt vevő emberekről, konferenciákról

· SWDF publikációk pdf fájlból kinyert információi ( NLP segítségével (Natural Language Processing))

· DBPedia : kutatási területek leírásáról URI-k

· LOD (Linked Open Data) Web: információ emberekeről az SWDF-ből kinyert URL-ek alapján (pl. seeAlso linkek alapján)

Az adatokat a Semantic Web Technology konferenciák anyagaiból nyerték ki (2006-2010).

747 kiadványhoz van pdf link.

A linkeket két mélységig nyeri ki (crawl1, crawl2), majd pedig konszolidálja őket a CanonConsolidator segítségével.

(a) Corpus numbers

tokens

papers

people

topics

5,285,870

747

2,19

45,72

Triples

Papers

People

knows

swdf

91241

1589

3812

0

crawl1

105325

1604

4664

858

crawl2

141753

1854

6941

3926

consolidated

140649

1854

5513

2660

A jelentés szerepe

Az adatok jelentését RDF, RDFS és OWL ontológiák jelenítik meg. A kutatók közötti kapcsolatok lekérdezéséhez SPARQL-t használnak.

Minden egyes „kutatási témához” hozzá akarnak rendelni egy URI-t a LOD-ból. Jelenleg a DBPedia-ból keresnek megfelelő URI-kat. Már 1823 kutatási területet azonosítottak DBPedia URI-val.

A jövőben az összes adatot át akarják alakítani RDF hármasokra, mert jelenleg az általuk gyűjtött információ csak a saját felhasználói felületükön keresztül böngészhető.

References

1. D. M. Blei, A. Y. Ng, M. I. Jordan, J. Laerty, Latent dirichlet allocation, Journal of Machine Learning Research 3 (2003) 2003.

2. G. Bordea, P. Buitelaar, DERIUNLP: A Context Based Approach to Automatic Keyphrase Extraction, in: Proceedings of the ACL 2010 Workshop on Evaluation Exercises on Semantic Evaluation (SemEval 2010), 2010.

3. G. Bordea, P. Buitelaar, Expertise mining, in: AICS 2010: Proceedings of the 21st National Conference on Articial Intelligence and Cognitive Science, 2010.

4. S. N. Kim, A. Medelyan, M.-Y. Kan, T. Baldwin, SemEval-2010 Task 5: Automatic Keyphrase Extraction from Scientic Articles, in: Proceedings of the ACL 2010 Workshop on Evaluation Exercises on Semantic Evaluation (SemEval 2010), 2010.

5. F. Monaghan, Context-aware photograph annotation on the social Semantic Web, Ph.D. thesis, National University of Ireland, Galway (December 2008).

6. J. Tang, J. Zhang, L. Yao, J. Li, L. Zhang, Z. Su, Arnetminer: Extraction and mining of academic social networks.

7. G. Tummarello, R. Delbru, E. Oren, Sindice.com: weaving the open linked data, in: ISWC'07/ASWC'07: Proceedings of the 6th international The semantic web and 2nd Asian conference on Asian semantic web conference, Springer-Verlag, Berlin, Heidelberg, 2007.

Interactive Exploration of Web Datasets with VisiNav

Andreas Harth

Institut für Angewandte Informatik und Formale Beschreibungsverfahren (AIFB)

Karlsruhe Institut für Technologie (KIT)

[email protected]

Kivonat

Bodnár Tamás

Bevezetés

http://visinav.deri.org/

A VisiNav RDF adatbázisokat térképez fel, és ezeken hajt végre kereséseket.

Lekérdező műveletek

Négy alapvető művelet:

1. keyword search (kulcsszavak alapján történő keresés)

2. object focus (egy objektumra koncentrál)

3. path traversal (egy út bejárása)

4. facet selection (tényező-kiválasztás)

Keyword search:

A kereső a megadott kulcsszavak alapján objektumok egy rangsorolt listáját adja eredményül.

Object focus:

A felhasználó kiemelhet egy objektumot egy kattintással. Ekkor megjelennek az objektum tulajdonságai, valamint a hozzá kapcsolódó más objektumokra mutató linkek.

Path traversal:

A felhasználó linkek segítségével bejárhat egy utat (pl. a „knows” linkkel). Ezzel egy új eredményhalmazt kap, ahonnan tovább mehet vagy megtekintheti az egyik eredményobjektumot.

Facet selection:

A felhasználó tovább szűkítheti a kapott eredmény egyes tényezők kiválasztásával (pl. a helyek halmazát szűkítheti az Európa „parentFeature” tényező segítségével).

Ezek a műveletek RDF alapműveletek kombinációi (Athanasis, Christophides, and Kotzinos 2004), valamint tényezőre való szűkítés alapművelet (Yee et al. 2003).

Interakciós folyamat

A felhasználó egy kulcsszó megadásával kezdheti a lekérdezést, majd az eredményt a fent vázolt műveletekkel böngészheti tovább. Az adatok megjelenítése az információ típusától függően változhat. Az új kereséseket vagy szűkítéseket megkönnyíti a drag&drop használata.

Megjelenítés

A megjelenítéshez szükséges információt az adatsémából nyeri ki.

· térkép megjelenítés a geo-grafikus pontok megjelenítéséhez

· időcsík időpontokhoz

· táblázat-, gráf-megjelenítés

A különböző nézetekhez különböző exportálási lehetőségek vannak:

· általános objektum nézethez RDF

· lista-nézethez RSS feed

· térképekhez KML formátum, időpontokhoz iCal

Kép: A VisiNav gráfmegjelenítő része

Méretek:

· 3 millió objektum

· 28 millió RDF hármas

References

[1] Athanasis, N.; Christophides, V.; and Kotzinos, D. 2004. Generating On the Fly Queries for the Semantic Web: The ICS-FORTH Graphical RQL Interface (GRQL). In Proceedings of the 3rd International Semantic Web Conference, 486–501.

[2] Harth, A.; Kinsella, S.; and Decker, S. 2009. Using naming authority to rank data and ontologies for web search. In 8th International Semantic Web Conference.

[3] Hogan, A.; Harth, A.; and Polleres, A. 2009. Scalable authoritative owl reasoning for the web. International Journal on Semantic Web & Information Systems 5(2):49–90.

[4] Yee, K.-P.; Swearingen, K.; Li, K.; and Hearst, M. 2003.

Faceted metadata for image search and browsing. In Proceedings of the SIGCHI Conference, 401–408.

TrialX: Using semantic technologies to match

patients to relevant clinical trials based on their

Personal Health Records

Chintan Patel, Sharib Khan, and Karthik Gomadam

Applied Informatics Inc, New York, New York

{chintan, sharib, karthik}@trialx.com

Kivonat

Bodnár Tamás

Bevezetés

A gyógyszerkutatás utolsó lépése az állatokon, majd pedig az embereken végzett vizsgálat. Sok kutatás azért késik, mert nincs elegendő számú jelentkező a kísérletekre. Ennek több oka van:

· A jelentkezőket úgynevezett nyomozó szervezi be

· A jelentkezőnek pontosan megfelelő egészségi állapotban kell lennie ( valamilyen betegség )

· A legtöbb ember nem is tud ezekről a lehetőségekről

A TrialX azt a célt szolgálja, hogy a beteg egészségügyi adatait felhasználva egy megfelelő kísérlethez lehessen irányítani a jelentkezőt. Ehhez elengedhetetlen egy olyan központi rendszer, mely a betegek egészségügyi adatait tárolja, és szükség esetén hozzáférhetővé is teszi (természetesen betartva a hatályos személyiségi jogokat). Ezeket a rendszereket PHR (Personal Health Records) rendszereknek nevezik. Ilyen pl. az USA-ban a Microsoft Health Vault vagy a Google Health.

TrialX adatáramlása

A TrialX kapcsolatban van három PHR rendszerrel:

· MHV (Microsoft Health Vault)

· GH (Google Health)

· Indivo

Ezek a rendszerek különböző kórházakkal vannak kapcsolatban, ahonnan a páciens lekérheti a saját egészségügyi adatait. Miután azt megtette különböző alkalmazásokat engedélyezhet, hogy az adataival számításokat végezzen. Ilyen alkalmazás a TrialX, ami a páciens adatait felhasználva neki megfelelő gyógyszerkísérleteket keres, és a találatokat a TrialX.com oldalon teszi elérhetővé.

A TrialX felépítése:

Felépítés:

Az alkalmazás három lépést végez:

1. PHR integráció : a különböző PHR rendszerekből származó egészségügyi adatok integrálása

2. Az adatok semantikus modellekbe szervezése: Ezt az alkalmazásba épített TripleX komponens hajtja végre

3. A páciens és a kísérletek adatainak összevetése: Ezt az Xoperator komponens végzi, feladata, hogy szemantikusan kibővítse a lekérdezést.

A TrialX lényegét a CMT (Colombus Matching Technology) alkotja. A CMT klinikai adatokon alapuló összehasonlítást végez a résztvevők és a kísérletek között. Ehhez szemantikus és NLP technikákat használ. A páciens kulcsfontosságú adatait hasonlítja össze a kísérletben megadott kritériumokkal. A kritériumokat az NLP segítségével nyerik ki a kísérlet leírásából és UMLS (Unified Medical Language System) fogalmakhoz kapcsolja őket. (olyasmi, mint a WordNet Synset)

Az eredmények megjelenítése mátrix-formában történik. A mátrix oszlopainak sorrendje megegyezik az oszlopok fontosságával.

References

1. M. Barrett. erecruiting for clinical trials. 2001.

2. Centerwatch. An Industry in Evolution. Centerwatch, 2003.

3. M. Foundation. Connecting americans to their healthcare. Markle Foundation Connecting for Health, page 48, 2004.

4. M. A. Lindberg DA, Humphreys BL. he unified medical language system. T Methods Inf Med., 32:281–291, 1993.

5. K. I. Mandl KD. Tectonic shifts in the health information economy. N Engl J Med., 358:1732–1737, 2008.

6. B. D. O. J. S. D. Tang PC, Ash JS. Personal health records: definitions, benefits, and strategies for overcoming barriers to adoption. J Am Med Inform Assoc., 13:121–126, 2006.

7. P. C. Trusts”. The online health care revolution: How the web helps americans take better care of themselves. 2006.

8. K. S. Valerie M. Online information about cancer clinical trials: Evaluating the web sites of comprehensive cancer centers. AMIA Annu Symp Proc, pages 470–474, 2003.

9. R. Winn. Obstacles to the accrual of patients to clinical trials in the community setting. Semin Oncol, 21(4):112–117, 1994.

UMLS:

http://www.nlm.nih.gov/research/umls/licensedcontent/downloads.html

Widget-szerkesztő:

https://trialx.com/widget/

Egy nyelvészeti UIMA-folyamat a kézi annotálástól az

eredmények megjelenítéséig

Kiss Márton, Nagy Ágoston

Szegedi Tudományegyetem, Informatikai Tanszékcsoport

H-6720 Szeged, Árpád tér 2.

{mkiss, nagyagoston}@inf.u-szeged.hu

Kivonat

Bodnár Tamás

UIMA: szabvány struktúrálatlan adatok kezelésére

Bevezetés

A nyelvészeti kutatások hatékony támogatására fejlesztettek ki néhány UIMA modult és segédprogramot.

Tanulókorpusz építése (Word-UIMA, Word-TXT konverter), gépi- és kézi annotációk összehasonlítása (AnnotationComparator), eredmény vizuális megjelenítése (HTMLViewer).

Word-UIMA XMI konverter:

· Word dokumentum annotálása kézzel, pl. a háttérszín megváltoztatásával

· A kijelölt részek kiexportálása egy XML fájlba (Word makró segítségével)

· XML-ből perl scripttel konfigurációs fájlok létrehozása (annotációk + karakterpozíciók)

· egy UIMA modul segítségével konfigurációs fájlokból annotációk

Word-TXT konverter:

· gépi annotálás

· Word makró segítségével egy könyvtár (itt egy korpusz) összes dokumentumát TXT formátumra alakít

Annotációk összehasonlítása:

· A gépi algoritmus hatékonyságát a pontosság, a fedés és az F-mérték alapján kapják

· pontosság: mennyi helyes, fedés: mennyit talált meg

· F-mérték: pontosság és fedés súlyozott harmonikus közepe

· Választható illeszkedések:

· teljes: két annotáció teljesen megegyezik

· tartalmaz: egyik lehet csak része a másiknak

Megjelenítés:

Kétféle megjelenítő:

· UIMA InLine XML megjelenítésére XSL-t (azokhoz az adatokhoz, amik fastruktúrában vannak)

· UIMA XMI megjelenítésére pedig HTML (UIMA+Perl+HTML)

Az alkalmazás felépítése

Bibliográfia

1. Kano, Y., Nguyen, N., Sćtre, R., Yoshida, K., Miyao, Y., Tsuruoka, Y., Matsubayashi, Y., Ananiadou, S., Tsujii, J.: Filling the gaps between tools and users: a tool comparator, using protein-protein interaction as an example. In: Proceedings of Pacific Symposium on Biocomputing (PSB), 13 (2008) 616–627

2. Ferrucci, D., Lally ,A.: Building an example application with the Unstructured Information Management Architecture. IBM Systems Journal Vol. 43 No. 3 (2004) 455–475

3. Kano, Y. et al.: U-Compare: share and compare text mining tools with UIMA. Bioinformatics, doi: 10.1093/bioinformatics/btp289 (2009)

4. D. Ferrucci, A. Lally: UIMA: An Architectural Approach to Unstructured Information Processing in the Corporate Research Environment. Journal of Natural Language Engineering Vol. 10 No. 3-4 (2004) 327–348

5. Kunze, M., Rösner, D.: Tools for UIMA Teaching and Development. University of Magdeburg, Germany (2008)

Valós idejű szövegosztályozás

a Wikipédia szolgálatában

Solt Illés, Héder Mihály, Tikk Domonkos

Kivonat

Bodnár Tamás

Bevezetés

A Wikipedia cikkeit kategóriákba sorolják, hogy egy rendszeren belül legyenek a hasonló cikkek.

A szerkesztők nem mindig tudhatják, hogy egy cikknek melyik a legmegfelelőbb kategória, ezért fel lehet használni egy olyan alkalmazást, mely a cikk szövege alapján kategória-ajánlásokat tesz. Ezt a szövegosztályozó eljárás segítségével teszi meg.

A szövegosztályozó eljárás:

· Nyers szöveggé alakítás (dokumentum → szöveg)

· Nyelvi feldolgozás (szöveg → szófolyam): szavakra bontás, szótövezés, zajszavak

eltávolítása

· Indexelés (szófolyam → egész vektor): egyedi szavak előfordulásainak összeszámlálása,a korpuszban túl gyakori vagy túl ritka szavak eltávolítása

· Súlyozás (egész vektor → valós vektor): a szavak dokumentumra vonatkozó fontosságának meghatározása

· Predikció (valós vektor → súlyozott kategóriák): betanított/felépített osztályozómodell

alkalmazása

Az újítást nem az előző lépések megváltoztatása adja, hanem a megközelítés. A cél az, hogy egy dokumentumra szinte valós időben el lehessen végezni az eljárást, így nem a megszokott pipeline struktúrával építi fel, ahol inkább az átlagos feldolgozási idő számít.

A kategóriajavaslat mellett evidenciát is szolgáltat a releváns szavak kijelölésével. (Miért javasolja ezt a kategóriát.)

Megvalósítás:

· Nyelvi előfeldolgozás, indexelés: Apache Lucene

· Súlyozás: Apache Mahout

· Osztályozás: HITEC osztályozó

· Nyers szöveggé alakítás: Devijver-féle elemző módosított változata

Osztályozó HTTP REST felületen érhető el, kimenet lehet HTML vagy XML

A rendszer válaszideje 10 kB méretű dokumentumra kb. 150 ms.

Megvalósítás: http://categorizer.tmit.bme.hu/trac/wiki/HITEC-java

Apache Lucene: http://lucene.apache.org/

Apache Mahout: http://mahout.apache.org/

HITEC: http://categorizer.tmit.bme.hu/trac/

Devijver: http://code.google.com/p/java-wikipedia-parser/

Hivatkozások

1. Sebastiani, F.: Machine learning in automated text categorization. ACM Computing Surveys 2002; 34(1): 1–47.

2. Tikk D., Biró Gy., Törcsvári A.: A hierarchical online classifier for patent categorization. Emerging Technologies of Text Mining: Techniques and Applications 2007; 244–67.

A graph-based approach to measuring semantic relatedness in ontologies

Ahmad Hawalah, Maria Fasli

Kivonat

Bodnár Tamás

Bevezetés

A feladat egy olyan metódus kifejlesztése, ami két fogalom szemantikus hasonlóságának, kapcsolatának a mértékét képes megállapítani úgy, hogy akár többfajta kapcsolatot is figyelembe vesz.

3 fő kérdés:

· hogy számítsuk ki két fogalom szemantikus hasonlóságát, ha többfajta kapcsolat is létezik?

· Hogy aknázzuk ki az ontológiában kifejezett rejtett információt?

· milyen tulajdonságokat kell figyelembe venni a hasonlóság számításakor?

Megelőző munkák

Előzőleg három fajta mérési modell volt használatban:

· Edge-based (élalapú), legrövidebb út :

· alapgondolat: minél közelebb van két fogalom, annál nagyobb a hasonlóság

· több megvalósítása van:

· csak a fogalmak közti élek száma számít

· a fogalmak mélysége szerint vagy figyelembe lehet venni a hálózat mélységét is

· két fogalom legkisebb közös ősétől való távolságok alapján is lehet számolni (Wu és Palmer)

· probléma: az éleknek megegyezik a súlya

· Information Content Model

· alapötlet: minél több információ oszlik meg két fogalom között, annál jobban hasonlítanak

· ezt egy magasan specifikált közös ős információ tartalma alapján lehet megállapítani

· Information Theoretic Model

· az előző kettő csak olyan hálózatokra alkalmazható, ahol csak egyféle kapcsolat (is-a) található

· alkalmas hierarchikus és nem-hierarchikus fogalmak összehasonlítására is

· több alaplépés szükséges

· a többi modellhez képest jobb eredmények(pl. 1. alapsúlyok kiszámítása minden kapcsolathoz, 2. tranzitív kapcsolatok értékének kiszámítása, 3. „fuzzy membership” mátrix kiszámítása, 4. szemantikus hasonlóság )

· ez sem vesz figyelembe több használható tulajdonságot

Szemantikus kapcsolatok mérése:

Figyelembe vett tulajdonságok:

1. Identity Property: ha megegyezik két fogalom, akkor a hasonlóság értéke a lehető legnagyobb

2. Symmetrical and non-symmetrical properties:

1. Szimmetrikus: ha két fogalom között csak egyfajta kapcsolat van(itt lényegtelen az irány)

2. Nem szimmetrikus: ha két fogalom között több kapcsolat is van

3. Positive Property: két fogalom kapcsolata nemnegatív és értéke a [0,1] intervallumban van

4. Hierarchal and non-hierarchal Relations Property: minden kapcsolatnak különböző jelentése van, ezért minden kapcsolathoz különböző súlyú él tartozik

5. Minimal Distance Property: két fogalom közti legkisebb út hossza

6. Depth-Relative Property: a mélyebben lévő fogalmak jobban kapcsolódnak egymáshoz, mint a felül lévők. A fogalom mélységét nem a gyökérhez képest számítják, hanem minden fogalomhoz a leszármazottjaihoz viszonyítva.

7. Multiply Paths Property: két fogalom között több kapcsolat (vagy út) lehet, de csak a legnagyobb értékűt kell figyelembe venni

8. Transitivity Property: tranzitivitásnál a nem-hierarchikus kapcsolatoknál csak az első mélységig megy le

9. A Concept's Maximum Depth Property: a legmélyebben lévő levél-leszármazottjának a mélysége

Gráf-alapú szemantikus kapcsolatok számítása

Hat lépés, minden lépés után eláll egy mátrix, az utolsó lépésben ezeket komponáljuk:

1. Concepts' relation types: különböző kapcsolatokhoz különböző súlyok hozzárendelése a [0,1] intervallumból, azonos fogalmak kapcsolata 1 értékű, az összes többi kisebb. Az eredmény egy W mátrix

2. Computing Semantic Relatedness for Direct-related Concepts: ha két fogalom között egy kapcsolat (hierarchikus vagy nem hierarchikus) áll fennA D eredmény-mátrix a következő:

3. Computing Semantic Relatedness for Transitive-related Concepts: csak a hierarchikus kapcsolatokat és a nem-hierarchikus kapcsolatok első mélységét veszi figyelembeA T eredmény-mátrix a következőképpen épül fel:Minden fogalompárhoz ki kell számítani a következő értéket:

4. Computing Semantic Relatedness for Sibling-related Concepts: testvérek azok a fogalmak, amik legalább egy közös őssel rendelkeznek. Az eredmény az S mátrix

5. Computing Semantic Relatedness for Parent-related Concepts: ez akkor áll fenn, ha két fogalom rendelkezik közös alfogalmakkal, és egyik sem őse a másiknak. Az eredmény a P mátrix.

6. Aggregating Adjacency Matrices:

Komponáljuk a kapott mátrixokat.

Kísérletek:

A kísérletek jó eredményt mutattak az eddig használt eljárásokhoz képest.

REFERENCES

[1] Mitra, M., Singhal, A. and Buckley, C. 1998. Improving automatic query expansion. In Proc. of 21st Annual

International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 206-214.

[2] Vlez, B., Wiess, R., Sheldon, M. And Gifford, D. 1997. Fast and effective query refinement. In Proc. of 20th Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval. pp. 6-15.

[3] Matsuo, Y., Mori, J., Hamasaki, M., Ishida, K., Nishimura, T., Takeda, H., Hasida, K. and Ishizuka, I. 2005. Polyphonet: An advanced social network extraction system. In Proc. Of 15th International World Wide Web Conference.

[4] Mika, P. 2005. Ontologies are us: A unified model of social networks and semantics. In Proc. of ISWC2005.

[5] Resnik, P. 1999. Semantic similarity in a taxonomy: An information based measure and its application to problems of ambiguity in natural language. Journal of Artificial Intelligence Research. pp. 95-130.

[6] Rosenfield, R. 1996. A maximum entropy approach to adaptive statistical modelling. Computer Speech and Language. pp. 187-228.

[7] Ge, J. and Qiu, Y. 2008. Concept Similarity Matching Based on Semantic Distance. In Proc. of 4th International Conference on Semantic, Knowledge and Grid.

[8] Rada, R., Mili, H., Bicknell, E. and Blettner, M. 1998. Development and Application of a Metric on Semantic Nets. IEEE Trans. on Systems, Man, and Cybernetics,19(1). pp.17–30.

[9] Razmerita, L. and Lytras, M. 2008. Ontology-Based User Modelling Personalization: Analyzing the Requirements of a Semantic Learning Portal. Lecture Notes in Artificial Intelligence; Vol. 5288, pp. 354 – 363.

[10] Cross, V. 2004. Fuzzy semantic distance measures between ontological concepts. Fuzzy Information. 04, IEEE Annual Meeting of the Volume 2.

[11] Sussna, M. 1993. Word Sense Disambiguation for Free-text Indexing Using a Massive Semantic Network. Proceedings of the Second International Conference on Information and Knowledge Management, CIKM’93. pp. 67-74.

[12] Knappe, R. 2005. Measures of Semantic Similarity and Relatedness for Use in Ontology-based Information Retrieval. PhD. Roskilde University

[13] Jiang J. and Conrath, D. 1997. Semantic similarity based on corpus statistics and lexical taxonomy. In Proceedings of International Conference on Research in Computational Linguistics, Taiwan.

[14] Wu, Z. and Palmer, M. 1994. Verb Semantics and Lexical Selection. 32nd Annual Meeting of the Association for Computational Linguistics. pp. 133-138.

[15] Richardson, R., Smeaton, A. F., and Murphy, J. 1994. Using WordNet as a knowledge base for measuring semantic similarity between words. Working paper CA 1294, Dublin City University, School of Computer Applications, Dublin, Ireland.

[16] Kim, Y. and Kim, J. 1990. A Model of Knowledge Based Information Retrieval with Hierarchical Concept Graph, Journal of Documentation, Vol. 46 (2). pp.113–136.

[17] Lin, D. 1998. An Information-Theoretic Definition of Similarity. 15th International Conference on Machine Learning, pp. 296-304.

[18] Maguitman, A. and Mencze, F. 2005. Algorithmic detection of semantic similarity. In Proceedings of the 14th International Conference on World Wide Web (WWW 2005)). Chiba, Japan.

[19] Open Directory Project (ODP). 2010. http://www.dmoz.org/ September 2010.

[20] Song, L., Ma, J., Liu, H., Lian, L. and Zhang, D. 2007. Fuzzy Semantic Similarity Between Ontological Concepts. In Advances and Innovations in Systems, Computing Sciences and Software Engineering. pp.275-280.

[21] Leacock, C. and Chodorow, M. (1998). Combining local context and wordnet similarity for word sense identification. In Fellbaum, C., ed.: WordNet: An electronic lexical database. MIT Press. pp. 265–283.

[22] Miller, G. and Charles, W. 1991. Contextual Correlates of Semantic Similarity. Language and Cognitive Processes. pp. 1–28.

[23] WordNet. 2010. http://wordnet.princeton.edu/. November 2010.

[24] Hirst, G. and St-Onge, D. 1998. Lexical chains as representations of context for the detection and correction of malapropisms. In Fellbaum. pp. 305–332.

Oracle Text alapján valamilyen mértékben hasonló fogalmak és a WordNet alapján mért távolságok között van-e összefüggés?

Bodnár Tamás

Oracle Text Knowledge Base:

Az Oracle Text a téma alapú kereséseknél a fogalmak összehasonlítását a saját tudásbázisa (Knowledge Base) alapján végzi. Ez alapból csak angol és francia nyelven van beépítve, de saját tudásbázist is fel lehet építeni pl. tezauruszok segítségével (akár más nyelven is).

A tudásbázis felépítésének egy részlete, mely bővebben elérhető a http://download.oracle.com/docs/cd/B10500_01/text.920/a96518/aknow.htm#38806 oldalon.

Branch 1: science and technology

[1] communications

[2] journalism

[3] broadcast journalism

[3] photojournalism

[3] print journalism

[4] newspapers

[2] public speaking

[2] publishing industry

[3] desktop publishing

[3] periodicals

[4] business publications

[3] printing

[2] telecommunications industry

[3] computer networking

[4] Internet technology

[5] Internet providers

[5] Web browsers

[5] search engines

[3] data transmission

[3] fiber optics

[3] telephone service

[1] formal education

[2] colleges and universities

[3] academic degrees

[3] business education

[2] curricula and methods

….

[1] hard sciences

….

[2] computer industry

[3] computer hardware industry

[4] computer components

[5] computer memory

[5] microprocessors

[4] computer peripherals

[5] data storage devices

[4] hand-held computers

[4] laptop computers

[4] mainframes

[4] personal computers

[4] workstations

[3] computer science

[4] artificial intelligence

[3] computer security and data encryption

[4] computer viruses and protection

[3] computer software industry

[4] CAD-CAM

[4] client-server software

[4] computer programming

[5] programming development tools

[5] programming languages

[4] operating systems

[3] computer standards

[3] cyberculture

[3] human-computer interaction

[3] information technology

[4] computer multimedia

[5] computer graphics

[5] computer sound

[5] computer video

[4] databases

[4] document management

[4] natural language processing

[4] spreadsheets

[3] network computing

[3] supercomputing and parallel computing

[3] virtual reality

[2] electrical engineering

[2] electronics

[3] consumer electronics

[4] audio electronics

[4] video electronics

[3] electronic circuits and components

[4] microelectronics

[4] semiconductors and superconductors

[3] radar technology

[2] energy industry

[3] electric power industry

[3] energy sources

[4] alternative energy sources

[4] fossil fuels industry

[5] coal industry

[5] petroleum products industry

[4] nuclear power industry

WordNet fogalmak:

Nouns:

· hypernyms: Y is a hypernym of X if every X is a (kind of) Y (canine(kutyaféle) is a hypernym of dog, because every dog is a member of the larger category of canines)

· hyponyms: Y is a hyponym of X if every Y is a (kind of) X (dog is a hyponym of canine)

· coordinate terms: Y is a coordinate term of X if X and Y share a hypernym (wolf is a coordinate term of dog, and dog is a coordinate term of wolf)

· holonym: Y is a holonym of X if X is a part of Y (building is a holonym of window)

· meronym: Y is a meronym of X if Y is a part of X (window is a meronym of building)

· Verbs

· hypernym: the verb Y is a hypernym of the verb X if the activity X is a (kind of) Y (to perceive is an hypernym of to listen)

· troponym: the verb Y is a troponym of the verb X if the activity Y is doing X in some manner (to lisp is a troponym of to talk)

· entailment: the verb Y is entailed by X if by doing X you must be doing Y (to sleep is entailed by to snore)

· coordinate terms: those verbs sharing a common hypernym (to lisp and to yell)

· Adjectives

· related nouns

(kapcsolódó főnevek)

· similar to

(hasonló)

· participle of verb (egy ige igeneve, angolban igék „-ing”-es alakja)

· Adverbs

· root adjectives

Példa WordNet felépítésére (a dog első jelentésének hypernym hierarchiája):

dog, domestic dog, Canis familiaris

=> canine, canid

=> carnivore

=> placental, placental mammal, eutherian, eutherian mammal

=> mammal

=> vertebrate, craniate

=> chordate

=> animal, animate being, beast, brute, creature, fauna

=> ...

Hasonló téma az Oracle Text tudásbázisából

[8] canines

[7] carnivores

[6] mammals

[5] vertebrates

[4] zoology

[3] biology

[2] life sciences

[1] hard sciences

A felépítés között van hasonlóság, de az Oracle Text tudásbázisa és a WordNet más irányból közelíti meg a csoportosítást, mivel az Oracle Text nagyobb témakörök szerint csoportosítja a fogalmakat, míg a WordNet csak a fogalmak közti kapcsolatokat tárolja, valójában nem is csoportosít.

A távolságok jelentése mindkét rendszerben hasonló ( ha a WordNetből csak a hyponym-hypernym hierarchiát vesszük).

Oracle thesaurusok:

A WordNet synsetjeiben szinonímák találhatóak, amit a thesauruszoknál lehet felhasználni.

begin

CTX_THES.CREATE_RELATION('thes','dog','SYN','Canis familiaris');

CTX_THES.CREATE_RELATION('thes','dog','SYN','domestic dog');

end;

Ugyanígy a különböző kapcsolatokat is meg lehet adni, de itt meg kell gondolni, hogy a WordNetből melyik kapcsolatokat érdemes figyelembe venni ( pl. érdemes-e belevenni az igék troponym vagy entailment kapcsolatait).

begin

CTX_THES.CREATE_RELATION('thes','dog','BT','canine');

end;

begin

CTX_THES.CREATE_RELATION('thes','carnivore','NT','canine');

end;

Összességében tehát elmondható, hogy a WordNetből elő lehet állítani thesauruszokat (itt mindenképpen meg kell gondolni, hogy a WordNet melyik részét lehet megfelelően felhasználni), amiből akár egy saját tudásbázist is fel lehet építeni.

Thesaurusokat a ctxload parancs segítségével lehet betölteni egy fájlból.

Ha a medical thesaurus a med.thes fájlban található, akkor ezt, mint medthes thesaurus-t a következőképpen lehet betölteni a ctxload használatával:

ctxload -thes -thescase y -name medthes -file med.thes -user ctxsys/ctxsys

A tudásbázishoz a ctxkbtc-vel lehet hozzákapcsolni.

Ahhoz, hogy a betöltött medthes thesaurus-t a tudásbázishoz csatoljuk, a ctxkbtc parancsot kell használni:

ctxkbtc -user ctxsys/ctxsys -name medthes

Irodalomjegyzék:

WordNet:

http://en.wikipedia.org/wiki/WordNet

Working with a thesaurus, Oracle Text doc:

HYPERLINK "http://download.oracle.com/docs/cd/B10500_01/text.920/a96517/cthes.htm" \l "464"http://download.oracle.com/docs/cd/B10500_01/text.920/a96517/cthes.htm#464

CTX_THES package, Oracle Text doc:

http://download.oracle.com/docs/cd/B10500_01/text.920/a96518/cthes.htm#73729

Google Fordító API

Bodnár Tamás

http://code.google.com/intl/hu-HU/apis/language/translate/v1/using_rest_translate.html

Java API:

http://code.google.com/p/google-api-translate-java/

https://github.com/richmidwinter/google-api-translate-java

· GNU Lesser GPL licenc

· Valójában egy nemhivatalos Java wrapper a Google Fordítóhoz

Működése egyszerű:

· szükséges a google-api-translate-java-0.95.jar a projekthez csatolva

Példa:

import com.google.api.translate.Language;

import com.google.api.translate.Translate;

public class Main {

public static void main(String[] args) throws Exception {

// Set the HTTP referrer to your website address.

Translate.setHttpReferrer("http://sajatweboldal.hu");

String translatedText = Translate.execute("Hey dude, where is my car?", Language.ENGLISH, Language.HUNGARIAN);

System.out.println(translatedText);

}

}

Kipróbáltam, működik. Itt nincs szükség a Google-tól igényelt kódra, anélkül is működik.

Egy paranccsal több nyelvről több nyelvre vagy több szöveget is lehet fordítani.

Probléma:

The Google Translate API must be used for user-generated translations. Automated or batched queries of any kind are strictly prohibited.

Nem lehet automatizált lekérdezéseket végezni.

Apache OpenNLP

Bodnár Tamás

Apache OpenNLP: az NLP-hez kötődő nyílt forráskódú csomagok

Megtalálható java-alapú eszközök: mondatfelismerő, tokenizáló, pos-tagger, tagoló(chunker) és elemző(parser), név-felismerő, coreference-felismerés (pl. Mary said she would help me. → Mary és she ugyanúgy Mary-re utal), ezeket lehet tanítani is.

Jelenleg elérhető nyelvek: dán, német, angol, spanyol, holland, portugál

Először mindig be kell tölteni egy megfelelő modellt, amit le lehet tölteni.

Mondatfelismerő:

Az API itt String tömböt ad vissza.

Magyar mondatfelisemrés:

Egy általam tanított (rövid cikk alapján) magyar mondatfelismerő eredménye:

Tokenizálás:

Háromfajta eljárás:

1. Whitespace Tokenizer

2. Simple Tokenizer : karakterosztály alapján

3. Learnable Tokenizer: valószínűségi modell alapján

Lehetséges az újraegyesítés (detokenizálás) és a tanítás.

Névfelismerés:

Valójában név- és számfelismerő

Ezt is lehet tanítani.

Dokumentumkategorizáló:

Még nincs kezelési-útmutató, de az API-ból használható.

Linkek:

http://incubator.apache.org/opennlp/index.html

http://incubator.apache.org/opennlp/documentation/manual/opennlp.html

Letöltés:

http://incubator.apache.org/opennlp/download.cgi

Modellek letöltése:

http://opennlp.sourceforge.net/models-1.5/

The Stanford Natural Language Processing Group

Bodnár Tamás

NLP program csomagok angol nyelvű szöveg feldolgozására. Néhány csomagban más nyelvekre adoptált modellek is találhatók a forrásba beépítve (legtöbbször német, kínai, arab).

Több csomagot is kiadtak full GPL licenc alatt, mindegyik Java-ban:

· Stanford CoreNLP: integrálja a POS tagger-t, parser-t, név- és hivatkozásfelismerőt (a hivatkozás itt a mondaton belüli entitásokra való hivatkozást jelenti). A lényege, hogy egy puszta szövegből egy teljesen elemzett szöveget készít. A különböző funkciókat akár ki is lehet kapcsolni. Bővebben itt: http://nlp.stanford.edu/software/corenlp.shtml

· Stanford Parser: Mondatelemző. Az angol mellett más nyelvekre is adaptálható(melyek be vannak építve). Online parser: http://nlp.stanford.edu:8080/parser/

· Stanford POS Tagger: Feladata a szavak típusának a megállapítása

· Named Entity Recognizer(NER): Névfelismerő (pl. személyek, vállalatok, gének, proteinek neveinek felismerése)

· Chinese Word Segmenter

· Stanford Classifier: valószínűség alapján működő osztályozó. Az API-n kívül parancssoros hozzáférése is van.

· Tregex and Tsurgeon: A Tregex egy mintaillesztő, ami fákon dolgozik. Rengeteg hasznos funkciót tartalmaz a Natural Language fákhoz. Ehhez is található parancssoros hozzáférés(TregexPattern). Az 1.2 verziótól kezdve használja a Tsurgeon nyelvet, ami egy fa-transzformációs nyelv.

· Topic Modelling Toolbox: 0.3.3 a jelenlegi verzió. Olyan adathalmazok analizálására alkalmas eszköz, melyek egy vagy több szöveges komponens is tartalmaznak.

· Phrasal: Korszerű kifejezés alapú gépi fordító. Jelenleg béta fázisban jár. Akár angol-magyar fordításra is rá lehet venni a European Parliament Proceedings Parallel Corpus felhasználásával(be kell tanítani a fordítót).

Linkek:

http://nlp.stanford.edu/software/index.shtml

http://nlp.stanford.edu/software/corenlp.shtml

http://nlp.stanford.edu/software/phrasal/

Phrasal

Bodnár Tamás

Letöltés:

http://www-nlp.stanford.edu/software/phrasal/

http://www-nlp.stanford.edu/software/corenlp.shtml

+ SRILM (az útmutatóban megtalálható a link)

Telepítés-útmutató:

http://www-nlp.stanford.edu/wiki/Software/Phrasal

Lépések:

1. Telepítés: SRILM + Phrasal

2. Betanítás:

1. Adatok tokenizálása egy adott perl scripttel

2. Nyelvi modell építése egy szövegből a SRILM használatával

3. A kétnyelvű szöveg vizsgálata, összehasonlítása (ez tart a legtovább, nekem egy 5000 soros szöveggel több, mint fél óra), szükséges egy konfigurációs fájl (aligner.conf)

4. Kifejezések kivonása a forrásszövegből, itt is van egy konfigurációs fájl (phrasal.conf)

5. A modell hangolása – ez nem sikerült eddig, de a közben végzett fordítás eredményei megtalálhatóak

3. Tesztelés, fordítás:

1. Forrásszövegből a kifejezések kigyűjtése

2. Fordítás (script/decode script segítségével)

3. Tesztelés esetén az eredmény összehasonlítása a célnyelvű szöveggel

„Részeredmények”:

Egy rossz fordítás:

Translating(0): i. az erőkifejtési szintek mindegyik tagállam számára lehetővé teszik -valamennyi halászterület esetében - hogy annak teljes halászati lehetőségeit kimerítsék , vagyis a teljes kifogható mennyiség alá tartozó fajokat , akár meghatározott területre , akár nem , csakúgy , mint az ilyen korlátozás alá nem eső fajokat ;

Translation options: 436

Decoding with 2 threads

Decoding loop time: 5,057000 s

7

Stack for hierarchical reordering (length of input sentence: 47)

block[1] cs={0} sz=1 (M,S)=(1,0) (M,S)=(0,0)

block[2] cs={0-1} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[3] cs={0-3} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[4] cs={0-4} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[5] cs={0-5} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[6] cs={0-6} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[7] cs={0-8} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[8] cs={0-10} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[9] cs={0-11} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[10] cs={0-12} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[11] cs={0-14} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[12] cs={0-15} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[13] cs={0-16} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[14] cs={0-19} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[15] cs={0-20} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[16] cs={0-21} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[17] cs={0-22} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[18] cs={0-28} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[19] cs={0-29} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[20] cs={0-30} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[21] cs={0-31} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[22] cs={0-32} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[23] cs={0-33} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[24] cs={0-34} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[25] cs={0-37} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[26] cs={0-38} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[27] cs={0-40} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[28] cs={0-42} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[29] cs={0-43} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[30] cs={0-46} sz=1 (M,S)=(1,0) (M,S)=(1,0)

Best Translation: i. the erőkifejtési szintek each member states to allow -valamennyi halászterület was - its its fishing lehetőségeit kimerítsék , is, the total kifogható mennyiség alá tartozó fajokat , or specific areas , or not , csakúgy , as the korlátozás alá not eső fajokat ;

Final score: -4217,296

Coverage: {}

Time: 6,254000 seconds

Final Translation: i. the erőkifejtési szintek each member states to allow -valamennyi halászterület was - its its fishing lehetőségeit kimerítsék , is, the total kifogható mennyiség alá tartozó fajokat , or specific areas , or not , csakúgy , as the korlátozás alá not eső fajokat ;

Score: -4217,296572

Egy jól sikerült fordítás:

Translating(0): ez a rendelet teljes egészében kötelező és közvetlenül alkalmazandó valamennyi tagállamban .

Translation options: 163

Decoding with 2 threads

Decoding loop time: 1,017000 s

7

Stack for hierarchical reordering (length of input sentence: 12)

block[1] cs={0-1} sz=1 (M,S)=(1,0) (M,S)=(0,0)

block[2] cs={0-2} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[3] cs={0-4} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[4] cs={0-5} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[5] cs={0-6} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[6] cs={0-7} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[7] cs={0-8} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[8] cs={0-9} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[9] cs={0-10} sz=1 (M,S)=(1,0) (M,S)=(1,0)

block[10] cs={0-11} sz=1 (M,S)=(1,0) (M,S)=(1,0)

Best Translation: this regulation entirely binding and directly applicable in all member states .

Final score: -176,051

Coverage: {}

Time: 1,165000 seconds

Final Translation: this regulation entirely binding and directly applicable in all member states .

Score: -176,050620

Kifejezésekhez rendelt jelentések a tanítása után(példák):

mezőgazdaság

entropy 3,022

nTrans 91sum 1,000000

large,: 0,180991

tourism,: 0,179327

grazing: 0,096668

agriculture.: 0,066121

yield.: 0,051018

agriculture: 0,040941

crops,: 0,030146

swedish: 0,024219

confined: 0,022212

year's: 0,019119

experienced: 0,017720

severely: 0,015349

type: 0,015229

valamelyestentropy 0,467nTrans 10sum 1,000000

obscured: 0,886358

somewhat: 0,079732

down: 0,018616

years.: 0,006312

last: 0,005369

three: 0,002143

been: 0,000886

has: 0,000486

the: 0,000089

of: 0,000009

tegnapi entropy 1,534nTrans 36sum 1,000000

yesterday's: 0,552584

merkel's: 0,140048

encouraging!: 0,140048

event: 0,053910

session.: 0,028162

throughout: 0,024662

example: 0,012079

yesterday: 0,010730

set: 0,008356

let: 0,007748

plenary: 0,007328

union.: 0,005963

one-minute: 0,001488

makes: 0,001287

an: 0,001270

összetettségeentropy 1,329nTrans 20sum 1,000000

frequency,: 0,462814

scale,: 0,314222

substantially: 0,109413

complexity: 0,084890

increased: 0,007876

throughout: 0,007437

years.: 0,004074

recent: 0,003254

impact: 0,001850

megállapodásokentropy 1,506nTrans 104sum 1,000000

agreements: 0,322225

council:: 0,274263

forwarded: 0,265952

texts: 0,108149

minutes: 0,004119

welcome.: 0,004027

see: 0,003662

by: 0,002135

countries?: 0,002018

reflection: 0,001771

end-agreement: 0,001586

warmly: 0,000955

largely: 0,000735

voluntary: 0,000665

twenty-seventh: 0,000618

prudence: 0,000618

expanding: 0,000577

scope: 0,000505

újítóentropy 1,699nTrans 34sum 1,000000

commended: 0,478566

innovative: 0,180462

scottish: 0,102948

fortunate.: 0,075285

weaker: 0,075285

fate: 0,028498

matter.: 0,012514

taking: 0,006782

strength: 0,006236

ability: 0,005647

depends: 0,005401

sensitive: 0,005015

government: 0,00403

egyszer:entropy 1,213nTrans 18sum 1,000000

again:: 0,713655

year.: 0,068548

guarantee: 0,056341

once: 0,041165

end: 0,031377

place: 0,022915

toy: 0,021666

directive: 0,016320

new: 0,008841

safety: 0,008041

by: 0,003416

will: 0,003000

be: 0,001967

this: 0,000996

i: 0,000808

in: 0,000469

the: 0,000330

of: 0,000146

utánentropy 3,016nTrans 504sum 1,000000

after: 0,519126

years: 0,035162

which,: 0,014333

entry: 0,013735

following: 0,012995

shipyards: 0,011447

pain: 0,010489

hope,: 0,010182

integration,: 0,010123

shortcomings,: 0,009870

astounding: 0,009870

aid.: 0,009083

months': 0,008409

impasse.: 0,007810

inflicted: 0,007200

tough: 0,006827

GATE és SharpNLP

Bodnár Tamás

GATE

http://gate.ac.uk/

Elérhető Linux, Windows, Mac rendszerekre is GNU GPL licenc alatt.

Forrás Java-ban.

Ez is szövegfeldolgozó.

Tulajdonságok:

· tokenizer, mondatfelbontó, stb. (ugyan azok, mint az eddigieknél)

· letölthető csomagban grafikus felület, mely segít egy szövegfeldolgozó pipeline kialakításában

· a forrás is letölthető

· pluginok csatlakoztathatóak, ennek segítségével lehet más nyelveket hozzávenni

A GATE Plugin-kezelő ablaka (több nyelvi modul is található benne, de magyar nem)

Pluginoknál meg kell adni a nyelvtan egyes tulajdonságainak a leírását (pl. a számokat hogyan írják, a neveket, a dátumot hogyan használják stb.), valamint meg lehet adni a városok, országok neveit.

A forrás segítségével az API is felhasználható.

SharpNLP

Az OpenNLP (Java) C#-ra portolt változata kiegészítve a szövegfeldolgozás folyamatát támogató kóddal, valamint a WordNethez való kapcsolódást segítő csomaggal, a SharpWordNet-tel.

Grafikus felület is található hozzá.

A SharpNLP mondatelemzőjének grafikus eredménye

A forrás letölthető: http://sharpnlp.codeplex.com/SourceControl/list/changesets#

Dokumentáció nem található hozzá.