Wikidata leksemer og Ordia

Posted on Updated on

ordia-danish-lexical-categoriesI 2018 fik Wikidata mulighed for at repræsentere leksemer (ordbogsopslag) og herunder deres former (dvs. bøjninger) og betydninger (på engelsk: senses). Wikidata-siderne for leksemer adskiller sig fra de almindelige emne-sider på Wikidata: Der er specielle felter til angivelse af sprog, leksikal kategori (ordklasse), grammatiske karakteristikker og for betydninger er der “gloss”-er. Idéen er at få Wikidata til at fungere som en struktueret og maskinlæsbar pendant til Wiktionary.

Da Wikidata, og dermed Wikidatas leksemer, er under Creative Commons Zero-licensen er det ikke umiddelbart nemt at finde gode leksikografiske resurser, og leksemerne er mere eller mindre indtastet manuelt. Der findes enkelte online værktøjer der letter indtastningen: Lucas Wekmeisters forms og Alicia Fagervings senses. Engelske leksemer er vel ikke overraskende dem der i øjeblikket er flest af. Fransk, svensk, nynorsk, polsk og tysk er også godt med. For dansk har jeg indtastet godt over 1.000 leksemer med tilhørende bøjninger og en del betydninger. Mange er linket til det danske ordnet der går under navnet DanNet. En del betydninger – særligt for navneordene – er linket til Wikidatas vanlige emner. Herfra kan man “gå rundt” i vidensgrafen og få hyponymer, hypernymer, synonymer og oversættelser.

Fyldigheden af Wikidatas leksemer både hvad angår antal leksemer og interlinkningen – er stadig noget svag og de forskellige ordbøger man kan skabe ud fra data (etymologisk ordbog, oversættelsesordbog, begrebsordbog, retstavningsordbog) er vel i øjeblikket noget sølle.

Parallel med indtastningen af leksemer har jeg udviklet og udvikler en webapplikation til at vise Wikidatas leksemer: Ordia. Den er tilgængelig fra Wikimedias computersky Toolforge. Da Ordia benytter Wikidata Query Service er det muligt at skabe sider på Ordia der samler information fra forskellige sider af Wikidata. I Ordia kan man for eksempel få en liste over alle bevægelsesverber eller navneord. Ordia har også en tekst-til-leksemer-funktion hvor man kan indtaste en tekst. Webapplikationen vil  udtrække ordene fra teksten, lave en forespørgsel mod Wikidata Query Service med ordene og vise matchede leksemformer og deres betydninger.

Der er stadig mange uklare elementer og åbne spørgsmål ved annoteringen af leksemerne. For eksempel, er den måde vi angiver at et verbum er et anbringelsesverbum brugbar? Skal den transitive og intransive udgave af verbet “hængte” være en eller to leksemer? Skal vi angive oversættelse ved hver enkelt betydning? Skal dansk s-genitiv angives i Wikidata? Kan vi med Wikidata specificere grammatik, således at det på sigt ville være muligt at skabe en grammatiktjekker? Hvad kan Wikidata leksemerne i det hele taget bruges til?

Advertisements

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s