Month: April 2019

Wikidata leksemer og Ordia

Posted on Updated on

ordia-danish-lexical-categoriesI 2018 fik Wikidata mulighed for at repræsentere leksemer (ordbogsopslag) og herunder deres former (dvs. bøjninger) og betydninger (på engelsk: senses). Wikidata-siderne for leksemer adskiller sig fra de almindelige emne-sider på Wikidata: Der er specielle felter til angivelse af sprog, leksikal kategori (ordklasse), grammatiske karakteristikker og for betydninger er der “gloss”-er. Idéen er at få Wikidata til at fungere som en struktueret og maskinlæsbar pendant til Wiktionary.

Da Wikidata, og dermed Wikidatas leksemer, er under Creative Commons Zero-licensen er det ikke umiddelbart nemt at finde gode leksikografiske resurser, og leksemerne er mere eller mindre indtastet manuelt. Der findes enkelte online værktøjer der letter indtastningen: Lucas Wekmeisters forms og Alicia Fagervings senses. Engelske leksemer er vel ikke overraskende dem der i øjeblikket er flest af. Fransk, svensk, nynorsk, polsk og tysk er også godt med. For dansk har jeg indtastet godt over 1.000 leksemer med tilhørende bøjninger og en del betydninger. Mange er linket til det danske ordnet der går under navnet DanNet. En del betydninger – særligt for navneordene – er linket til Wikidatas vanlige emner. Herfra kan man “gå rundt” i vidensgrafen og få hyponymer, hypernymer, synonymer og oversættelser.

Fyldigheden af Wikidatas leksemer både hvad angår antal leksemer og interlinkningen – er stadig noget svag og de forskellige ordbøger man kan skabe ud fra data (etymologisk ordbog, oversættelsesordbog, begrebsordbog, retstavningsordbog) er vel i øjeblikket noget sølle.

Parallel med indtastningen af leksemer har jeg udviklet og udvikler en webapplikation til at vise Wikidatas leksemer: Ordia. Den er tilgængelig fra Wikimedias computersky Toolforge. Da Ordia benytter Wikidata Query Service er det muligt at skabe sider på Ordia der samler information fra forskellige sider af Wikidata. I Ordia kan man for eksempel få en liste over alle bevægelsesverber eller navneord. Ordia har også en tekst-til-leksemer-funktion hvor man kan indtaste en tekst. Webapplikationen vil  udtrække ordene fra teksten, lave en forespørgsel mod Wikidata Query Service med ordene og vise matchede leksemformer og deres betydninger.

Der er stadig mange uklare elementer og åbne spørgsmål ved annoteringen af leksemerne. For eksempel, er den måde vi angiver at et verbum er et anbringelsesverbum brugbar? Skal den transitive og intransive udgave af verbet “hængte” være en eller to leksemer? Skal vi angive oversættelse ved hver enkelt betydning? Skal dansk s-genitiv angives i Wikidata? Kan vi med Wikidata specificere grammatik, således at det på sigt ville være muligt at skabe en grammatiktjekker? Hvad kan Wikidata leksemerne i det hele taget bruges til?

Advertisements

Ordia: Suggestion for a lightning talk at WikidataCon 2019

Posted on Updated on

Ordia is a Wikidata front-end running on the Wikimedia Toolforge https://tools.wmflabs.org/ordia/. Ordia displays information about the lexemes of Wikidata, including their forms and senses. It makes use of the Wikidata Query Service and can thus aggregate information from various different Wikidata pages. For instance, the language aspect shows statistics for the number of lexemes, forms and senses with respect to languages. Ordia also shows overviews over lexical categories, grammatical features, properties and the use of references. If a user input a text into a specific input field, Ordia can extract the individual words and query for the individual words. This talk will demonstrate the various uses of Ordia and briefly discuss the status of Wikidata lexemes.

Ideal number of attendees: 20

Take away: Attendees will know how to use Ordia and the limitation of Ordia and Wikidata lexemes.

Valg til Wikimedia Foundation-bestyrelsen af affiliates-valgte medlemmer

Posted on Updated on

De såkaldte affiliates, hvilket er Wikimedia chapters, User groups og Thematic groups, har mulighed for at vælge to pladser til Wikimedia Foundations (WMF) bestyrelse (Board of Trustees). Tidligere har det blot været Chapters der har haft mulighed for at vælge medlemmer, men fra januar 2019 er det nu også det betydelige antal af User groups der får indflydelse. Som jeg forstår er det for at få en bredere fundering, måske specielt af hvad der betegnes “emerging communities”.

De to nuværende affiliates-valgte er tidligere formand Christophe Henner fra Frankrig og ukrainske Nataliia Tymkiv. Communities vælger tre bestyrelsesmedlemmer. Disse medlemmer er James Heilman, Canada, Dariusz Jemielniak, Polen og spanske María Sefidari der i øjeblikket er formand. I forhold til affiliates-valgte synes der at være en fornemmelse for at community-valgte er fra store communities: Engelsk Wikipedia, Spansk Wikipedia. Det gælder så ikke helt for den polsk-valgte Jemielniak, der dog har gjort sig bemærket med en engelsk-sproget bog.

Affiliates-valget vil ske hurtigt i løbet af foråret 2019, hvor der først er en periode med nominereringer og derefter det egentlige valg. En håndfuld Wikimedianere fungerer som facilitatorer for valget. Disse facilitatorer kan ikke samtidig være nominerede, men hvis de fratræder facilitatorrollen kan de godt stille op. Jeg har indtryk af at de to nuværende medlemmer genopstiller.

Wikimedia Danmark skal deltage i afstemningen og spørgsmålet er så hvem vi skal stemme på og hvilke kriterier vi skal benytte. Henner og Tymkiv virker udmærkede og har jo erfaring. I hvilken grad de har evner til at banke i bordet og komme med originale levedygtige visioner står mindre klart for mig. Af andre der muligvis vil nomineres kan være Shani Evenstein. Hun virker også udmærket.

En person der stiller op bør ud over det formelle krav om bestyrelsesværdighed, have vægtig bestyrelseserfaring, forståelse for Wikimedia-bevægelsen og være et rimeligt tilgængeligt ansigt i det internationale Wikimediamiljø. Derudover være indstillet på at lægge en god portion ulønnet arbejdstimer på skæver timer af døgnet, og være opmærksom på at man arbejder for WMF, – ikke for affiliates, community eller Wikipedia. Hvis man kigger på sammensætningen i WMF er Europa & Nordamerika godt repræsenteret, dog ingen fra Nordeuropa. Der er en læge (James Heilman), akademikere, grundlæggeren Jimmy Wales, en med økonomierfaring (Tanya Capuano) og forskellige andre erfaringer. Henner synes at være den eneste med teknisk erfaring (et element jeg ville værdsætte) og derudover kan man sige at der mangler repræsentation fra Latinamerika (omend Seridari jo taler spansk), Afrika og Østasien (Esra’a Al Shafei har rod i Bahrain).

Afstemningen koordineres på Meta ved Affiliates-selected Board seats. Der findes vejledning til vælgere på Primer for user groups. Den hollandske formand Frans Grijzenhout har oploadet en handy scorematrix for kandidaterne. Nomineringen har også sin egen side. Nomineringerne er åbne indtil 30. April 2019. Efter at nomineringerne er indkommet er der kort tid i april og lidt af maj til at udfritte de nominerede.