terminologihantering i medicinska loggfiler · 2013. 10. 20. · spraakbanken.gu.se dimitrios...

25
www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se DIMITRIOS KOKKINAKIS Språkbanken, inst. för svenska språket CLT: Centre for Language Technology Göteborgs universitet [email protected] Terminologihantering i medicinska loggfiler Terminology management in medical log files

Upload: others

Post on 27-Jan-2021

0 views

Category:

Documents


0 download

TRANSCRIPT

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    DIMITRIOS KOKKINAKISSpråkbanken, inst. för svenska språketCLT: Centre for Language TechnologyGöteborgs [email protected]

    Terminologihantering i medicinska loggfilerTerminology management in medical log files

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Översikt

    • Motivering / Syfte• Bakgrund: 1177 Vårdguidens sökloggar• Sökloggarnas anatomi• Medicinska närsynonymer och termvariation• Terminologihantering ++

    • SNOMED CT; NPL; NER; Kvar?• Resultat• Sammanfattning

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Motivering / Syfte• Växande behov av koppling mellan fack- och allmänspråk för

    praktiska (medicinskt orienterade) tillämpningar, t.ex. underlätta förståelse av lekmans ordförråd

    • Använda terminologin som stöd för t.ex. informations- och kunskapsutvinning

    • Brist på täckande medicinska (elektroniska) termlistor med integrerad utförlig språklig & medicinsk information för lekmän

    • Applikationer med indata som innehåller både fackspråk och allmänspråk

    • Hur ställer man frågor till en hälsoportal?• Blir man påverkad av Google-liknande sätt att ställa frågor?• Kan man få en överblick över vilka begrepp finns i loggar?• Kan SNOMED CT och andra terminologiska resurser

    fånga termanvändningen i dessa loggar?

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Loggfil : en fil som registrerar alla aktiviteter när man interagerar med en webbplats, en portal eller ett datorsystem. Loggfilerna kan användas för att förstå aktiviteten i sådana miljöer och kan ge viktig information över användarnas beteende, sökfrågor, behov, intressen, sidor man besöker mm.

    Data: 1177 Vårdguidens sökloggar

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    1177 Vårdguidens Loggar: Loggarnas anatomi84 052 967 sökfrågor fr. 20101001 till 201309261 706 168 normaliserade sökfrågor

    (dvs. tokeniserade; alla i gemener; unika förekomster)

    80 100 sökfrågor/månad – 1,56 ord/sökfrågaMest frekventa sökfrågor: % av antal ord i sökfrågor:

    # Sökfråga

    1843597 akutmottagning

    1081907 vårdcentral

    711429 sex och samlevnad

    679887 säsongsinfluensan vaccination

    505902 tandvård

    405306 barnavårdscentral

    375886 barnmorskemottagning

    #ord # %

    1* 45820736 54.4%

    1 23882445 28.4%

    2 8247032 9.8%

    3 4366991 5.2%

    4 862127 1.02%

    5 450245 0.53%

    6 200932 0.24%

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    1177 Vårdguidens Loggar: Loggarnas innehåll

    Q FC1557981DFE4A6E63FCE7C2607FC5 1289860412 Värk rygg huvud bäcken hidden:(meta:category:PageType;Article AND meta:cate gory: PageType;Mobile ) = 8 1 -N - sv = = =

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    1177 Vårdguidens Loggar: Loggarnas termer

    Systematized Nomenclature Of Medicine Clinical Terms(SNOMED CT)

    ca 250,000 termer + 230,000 varianterNationellt Produktregister för Läkemedel (NPL)

    ca 11,246 termerNamnentitets igenkänning

    olika kategorier (person, plats, organization, tid …)Vad finns det kvar???

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Termvariation : alternativa namn för ett begrepp. T. ex.,lumbago, ryggskott eller ländryggssmärta är varianter (av synonymtyp) – kan användas omväxlande

    Inom samma text kan en term uppvisa stor variation –en stötesten för många tillämpningar – variantformer måste identifieras och länkas till etablerade terminologiska eller ontologiska resurser

    Utveckla rutiner för att hantera/fånga termvariation är ett nödvändigt steg för ett flertal mer avancerade tillämpningar inom språkteknologi

    Närsynonymer och termvariation

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    � morfologisk variation – böjnings- och avledningssuffix�hjärtsjukdom => hjärtsjukdomar; ödem => ödematösa

    � strukturell variation: NP:er från sammansättningar�mikroalbuminurimätning => mätning av mikroalbuminuri

    � strukturell variation: sammansättningar från NP:er�undersökning av fot => fotundersökning

    � strukturell variation: (vissa typer av) koordineringar�hjärt- och njursvikt => hjärtsvikt och njur||svikt

    � partiell matchning mha sammansättningssegmentering�abstinenskramper => �stressinkontinens => �utmattningsdepressioner =>

    Närsynonymer och termvariation 1/7

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    � vissa typer av akronymer och förkortningar� apolipoprotein b-a1 => apob/apoa1

    � vissa typer av ellipsis och andra typer av koordine ringar� supraventrikulär och ventrikulär takykardi� NYHA-klass III eller IV

    � modifieringar & ersättningar: sifferomvandling; utelämning/tillägg av bindestreck; utelämning av vi ssa funktionsord och/eller skiljetecken

    � NYHA typ 2 => NYHA typ II� Romano-Wards syndrom => Romano Wards syndrom� diabetes mellitus typ 1 => diabetes typ 1

    � nya termvarianter: felstavningar� trokanterit; trochanterit; throkanterit

    Närsynonymer och termvariation 2/7

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    “nya” termer i SNOMED� läkemedelsnamn

    via aktivsubstans (FASS)

    ”P : .. eh lugnande , jag tar bara Lyrica innan jag sover”

    � överföring av en del av MeSH-synonymer

    smärta i ländryggen

    MeSH SNOMED

    267982002

    SNOMED415159003

    Närsynonymer och termvariation 3/7

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Nätverk för Insamling och samman-ställning av kunskap om prostatit

    Carpa: förening som vänder sig till patienter med hormonproducerande tumörer

    Ur Stomiboken, 2010, ConvaTec

    Närsynonymer och termvariation 4/7

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Närsynonymer och termvariation 5/7Stavfel : mäta avståndet mellan två strängar (Levenshteinavståndet) – testat endast avstånd 1 och 2 + posteditering! 779 trokanterit

    638 trochanterit77 Trochanterit65 Trokanterit15 throkanterit11 trokanter

    Mönstermatchning i korpora t ex ur Läkartidningen: ”parentetisk” info.U

    r sv

    ensk

    ord

    bok

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Mikolov T., Chen K., Corrado G., and Dean J. 2013. Efficient Estimation of Word Representations in Vector Space. Proc of ICLR.

    Närsynonymer och Termvariation 6/7Vektorrymdsmodell: sökfrågor representeras som vektorer;algoritmer hittar ord som förekommer i liknande kontext

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Terminologihantering: steg 1 SNOMED CT# SNOMED CT Loggvarianter

    325242 influensa influenza; influnsa; influenssa; influ

    165078 utslag uslag; prikor; prikar

    129145 vattkoppor vattenkoppor

    100846 sjukdom i mag-tarmkanal mag-tarmkanalssjukdom

    95644 tonsillit halsfluss; vita prickar i hals

    95003 infektionssjukdom i urinvägar urinväxtinfektion; urininfenktion

    83829 pneumoni luninflamation; lugninflammastjon

    81289 allergi allregin; allergiska symtom

    78089 impetigo svinkoppa; svinkoppar

    75045 förkylning förkyldning; förkyld

    73021 kräkning kräkts; vomera; kräkn.; krekning

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Jan.

    201

    1Ju

    li, 2

    011

    Jan.

    201

    2Ju

    li, 2

    012

    Jan.

    201

    3Ju

    li, 2

    013

    Terminologihantering: steg 1 SNOMED CT

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Terminologihantering: steg 1 SNOMED CT

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    # Produkt

    32584 laktos V04CX

    16272 alvedon N02BE01

    13966 waran B01AA03

    10947 kåvepenin J01CE02

    10555 gardasil J07BM01

    7561 ipren M01AE01#M02AA1

    6971 kalcium A12AA

    6142 levaxin H03AA01

    5644 magnesium A12CC

    5203 folsyra B03BB01

    5135 diklofenak M01AB05

    4538

    76

    # ATC-koder i 1177 Vårdguiden

    98913 N – Nervsystemet

    52319 J – Infektionssjukdomar

    46385 A - Matsmältningsorgan och ämnesomsättning

    33746 B - Blod och blodbildande organ

    31304 V – Varia

    30903 M – Rörelseapparaten

    28497 R – Andningsorganen

    24183 C - Hjärta och kretslopp

    22666 G - Urin- och könsorgan samt könshormoner

    12746 D - Hud

    Terminologihantering: steg 2 NPL

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Terminologihantering: steg 2 NPLA - Matsmältningsorgan

    och ämnesomsättningB - Blod och blodbildande

    organJ – Infektionssjukdomar

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    # Entitetstyp Exempel

    1841962 PERSON-ENT claes Granstrand; barbara flur

    1312735 PLACE-ENT järfälla; Årsta; SÖDERMALM

    1019684 FUNCT-ENT dalens vårdcentral; BVC Björken

    392821 GROUP-ENT unga vuxna; diabetiker; kvinnor

    317948 ORGZ-ENT Carema; AB S:t Erik vård

    300200 DRUG-ENT antidepressiva; gardasil; trombyl

    74651 FUNCT-ENT+PLACE-ENT Ortho Center Stockholm

    62248 PERSON-ENT+PLACE-ENT Bodil Hofvander Kungsholmen

    56605 TIME-ENT på morgonen; nu; 5 maj; flera veckor

    50157 ORGZ-ENT+PLACE-ENT Bräcke Diakoni Mösseberg

    5775

    768

    Terminologihantering: steg 3 NER

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Terminologihantering – steg 4Vad finns det kvar?VårdkontaktstermerAdministrationstermerAkronymerFörkortningar

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    Terminologihantering – steg 4# Toppen på omatchade poster

    1895553 akutmottagning

    1380659 vårdcentral

    695894 sex och samlevnad

    481838 tandvård

    477789 barnavårdscentral

    441946 barnmorskemottagning

    285368 närakut

    175223 hälsocentral

    120889 cancer

    110307 sjukhus

    107626 mödravård

    …min hälsoplanoroliga bencirkulations organcoca colaspyr skumsjälmord försökshaken baby (71)spyfärdig oroligmagespykiatri (36)ofostrig graviditealkohollist periodareccpläcccccccccccccccccckagePcd…

  • www.svenska.gu.se www.clt.gu.se spraakbanken.gu.se

    �Datorbaserad, semantisk bearbetning av stora textmaterialet blir allt mer eftertraktade av forskare inom olika discipliner – särskilt semantiskt förädlade korpora utgör en resurs som bidrar till utveckling inte minst i flervetenskapliga sammanhang

    �Utfört olika korpusbaserade studier för att få en bild på sökloggarnasterminologiinnehåll

    �Lyft fram några frågor som kräver ytterligare utredning, t.ex. hur vi kan bäst hantera termvariation

    �Trots att stora medicinska termresurser finns tillgängliga, automatiska korpusbaserade metoder behövs som ett viktigt komplement till allt som erbjuds

    �Olika typer av textdata verkar använda olika sätt att uttrycka termer –svårt att skapa en modell för att täcka all texttyper

    �Tydlig påverkan av Google-typ av sökningar

    Sammanfattning