Wikidata

On the road to joint embedding with Wikidata lexemes?

Posted on Updated on

road-to-joint-embedding

Is is possible to use Wikidata lexemes for joint embedding, i.e., combining word embedding and knowledge graph entity embedding?

You can create on-the-fly text examples for joint embedding with the Wikidata Query Service. This SPARQL will attempt to interpolate a knowledge graph entity identifier into a text using the short usage example text (P5831):

 SELECT * {
  ?lexeme dct:language ?language ;
          wikibase:lemma ?lemma ;
          ontolex:lexicalForm ?form ;
          p:P5831 [
            ps:P5831 ?text ;
            pq:P5830 ?form 
          ] .
  BIND(SUBSTR(STR(?form), 32) AS ?entity)

  ?form ontolex:representation ?word .
  BIND(REPLACE(?text, STR(?word), ?entity) AS ?interpolated_text)
}

The result is here.

The interpolations are not perfect: There is a problem with capitalization in the beginning of a sentence, and short words may be interpolated into the middle of longer words (I am not able to get a regular expression with word separator “\b” working). Alternatively the SPARQL query result may be downloaded and the interpolation performed in a language that supports advanced regular expression patterns.

The number of annotated usage examples in Wikidata across languages is ridiculously small compared to the corpora typically applied in successful word embedding.

Update:

You can also interpolate the sense identifier: Here is the Wikidata Query Service result.

Advertisements

Danish public domain authors publishing after the spelling reform of 1948

Posted on Updated on

One annoying feature with finding Danish language use examples for Wikidata lexemes is the Spelling reform of 1948 and the requirement of Creative Commons Zero license of Wikidata.

The Spelling reform of 1948 means that old public domain works in Danish, e.g., by Søren Kirkegaard and Hans Christian Andersen are with an old spelling which entails capital first letter for common nouns, the use of “aa” instead of the modern “å” and certain other spelling variations.

Works in Danish published after 1948 might have the new spelling (but verbatim reprints/republications of, e.g., Hans Christian Andersen’s works might still have the old spelling). Unfortunately the copyright law requires the author to dead for more than 70 years before his/her works fall into public domain and we can use it in Wikidata (It is unclear – to me at least – whether the use of short excerpts, e.g., a subsentence from a copyrighted work can be regarded as public domain). Given that we are now more than 70 years away from 1948 we might begin to be “lucky” to see works published after the spelling reform and where the author has died, e.g., in 1949. Such work will soon fall into public domain and we could use these in various context in Wikidata, particularly for the language use examples in Wikidata lexemes. Can we find such works?

My idea was to turn to Wikidata and formulate a SPARQL query against Wikidata Query Service for works published after 1948 and where the author has a death date. Here is one attempt:

SELECT ?work ?workLabel ?author ?authorLabel ?death_date WHERE {
  ?work wdt:P50 ?author .
  ?work wdt:P407 wd:Q9035 .
  ?work wdt:P577 ?publication_date .
  ?author wdt:P570 ?death_date .
  FILTER (YEAR(?publication_date) > 1948)
  SERVICE wikibase:label { bd:serviceParam wikibase:language   
    "[AUTO_LANGUAGE],da,en". }
}
ORDER BY ?death_date
LIMIT 100

The result is available here. Works of Steen Steensen Blicher, Søren Kierkegaard, H.C. Andersen, Meïr Aron Goldschmidt, Ludvig Mylius-Erichsen are in public domain and some of the works have been published after 1948. Some of Ludvig Mylius-Erichsen’s works are available on Wikisource, e.g., Julegæster fra havet. The version on Wikisource is with a modern Danish spelling. It has been used a bit for Wikidata lexemes, see the Ordia page for Julegæster fra havet: https://tools.wmflabs.org/ordia/reference/Q22084925.

Wikidata leksemer og Ordia

Posted on Updated on

ordia-danish-lexical-categoriesI 2018 fik Wikidata mulighed for at repræsentere leksemer (ordbogsopslag) og herunder deres former (dvs. bøjninger) og betydninger (på engelsk: senses). Wikidata-siderne for leksemer adskiller sig fra de almindelige emne-sider på Wikidata: Der er specielle felter til angivelse af sprog, leksikal kategori (ordklasse), grammatiske karakteristikker og for betydninger er der “gloss”-er. Idéen er at få Wikidata til at fungere som en struktueret og maskinlæsbar pendant til Wiktionary.

Da Wikidata, og dermed Wikidatas leksemer, er under Creative Commons Zero-licensen er det ikke umiddelbart nemt at finde gode leksikografiske resurser, og leksemerne er mere eller mindre indtastet manuelt. Der findes enkelte online værktøjer der letter indtastningen: Lucas Wekmeisters forms og Alicia Fagervings senses. Engelske leksemer er vel ikke overraskende dem der i øjeblikket er flest af. Fransk, svensk, nynorsk, polsk og tysk er også godt med. For dansk har jeg indtastet godt over 1.000 leksemer med tilhørende bøjninger og en del betydninger. Mange er linket til det danske ordnet der går under navnet DanNet. En del betydninger – særligt for navneordene – er linket til Wikidatas vanlige emner. Herfra kan man “gå rundt” i vidensgrafen og få hyponymer, hypernymer, synonymer og oversættelser.

Fyldigheden af Wikidatas leksemer både hvad angår antal leksemer og interlinkningen – er stadig noget svag og de forskellige ordbøger man kan skabe ud fra data (etymologisk ordbog, oversættelsesordbog, begrebsordbog, retstavningsordbog) er vel i øjeblikket noget sølle.

Parallel med indtastningen af leksemer har jeg udviklet og udvikler en webapplikation til at vise Wikidatas leksemer: Ordia. Den er tilgængelig fra Wikimedias computersky Toolforge. Da Ordia benytter Wikidata Query Service er det muligt at skabe sider på Ordia der samler information fra forskellige sider af Wikidata. I Ordia kan man for eksempel få en liste over alle bevægelsesverber eller navneord. Ordia har også en tekst-til-leksemer-funktion hvor man kan indtaste en tekst. Webapplikationen vil  udtrække ordene fra teksten, lave en forespørgsel mod Wikidata Query Service med ordene og vise matchede leksemformer og deres betydninger.

Der er stadig mange uklare elementer og åbne spørgsmål ved annoteringen af leksemerne. For eksempel, er den måde vi angiver at et verbum er et anbringelsesverbum brugbar? Skal den transitive og intransive udgave af verbet “hængte” være en eller to leksemer? Skal vi angive oversættelse ved hver enkelt betydning? Skal dansk s-genitiv angives i Wikidata? Kan vi med Wikidata specificere grammatik, således at det på sigt ville være muligt at skabe en grammatiktjekker? Hvad kan Wikidata leksemerne i det hele taget bruges til?

Ordia: Suggestion for a lightning talk at WikidataCon 2019

Posted on Updated on

Ordia is a Wikidata front-end running on the Wikimedia Toolforge https://tools.wmflabs.org/ordia/. Ordia displays information about the lexemes of Wikidata, including their forms and senses. It makes use of the Wikidata Query Service and can thus aggregate information from various different Wikidata pages. For instance, the language aspect shows statistics for the number of lexemes, forms and senses with respect to languages. Ordia also shows overviews over lexical categories, grammatical features, properties and the use of references. If a user input a text into a specific input field, Ordia can extract the individual words and query for the individual words. This talk will demonstrate the various uses of Ordia and briefly discuss the status of Wikidata lexemes.

Ideal number of attendees: 20

Take away: Attendees will know how to use Ordia and the limitation of Ordia and Wikidata lexemes.

Coming Scholia, WikiCite, Wikidata and Wikipedia sessions

Posted on

In the coming months I will have three different talks on Scholia, WikiCite, Wikidata and Wikipedia at al.:

  • 3. October 2018 in DGI-byen, Copenhagen, Denmark as part of Visuals and Analytics that Matter conference, – the concluding conference for the DEFF-sponsored project Research Output & Impact Analyzed and Visualized (ROIAV).
  • 7. November 2018 in Mannheim as part of the Linked Open Citation Database (LOC-DB) 2018 workshop.
  • 13. december 2018 at the library of the Technical University of Denmark as part of Wikipedia – a media for sharing knowledge and research, an event for researchers and students (and still in the planning phase).

In september I presented Scholia as part of the Workshop on Open Citations. The slides with title Scholia as of September 2018 is available here.

Scholia is more than scholarly profiles

Posted on Updated on

Scholia, a website originally started as service to show scholarly profiles from data in Wikidata, is actually not just for scholarly data.

Scholia can also show bibliographic information for “literary” authors and journalists.

An example that I have begun on Wikidata is for the Danish writer Johannes V. Jensen whose works pose a very interesting test case for Wikidata, because the interrelation between the works and editions can be quite complicated, e.g., news paper articles being merged into a poem that is then published in an edition that are then expanded and re-printed… Also the scholarly and journalistic work about Johannes V. Jensen can be recorded in Wikidata. Scholia currently records 30 entries about Johannes V. Jensen, – and that does not necessarily includes works about works written by Johannes V. Jensen.

An example of a bibliography of a journalist is that of Kim Wall. Her works are almost always addressing very unique topics, – fairly relevant as sources in Wikipedia articles. Examples include an article on a special modern Chinese wedding tradition in Fairy Tale Romances, Real and Staged and an article on furries It’s not about sex, it’s about identity: why furries are unique among fan cultures.

An interesting feature about most of Wall’s articles, is that she let the interviewee have the final word by adding a quotation as the very final paragraph. That is also the case with the two examples linked above. I suppose that say something of Wall’s generous journalistic approach.

 

 

Hyppige elementer blandt bedste danske film

Posted on Updated on

Bo Green Jensen har skrevet bogen De 25 bedste danske film, hvor man blandt andet finder Vredens Dag, Kundskabens træ, Babettes gæstebud og Den eneste ene. Denne korte liste på 25 film, der blev udgivet i 2002, har jeg lige indtastet i Wikidata via “katalog”-egenskaben. Når det er gjort, kan man benytte Wikidata Query Service til, med en SPARQL-databaseforespørgsel, at finde elementer der går igen blandt filmene. En sådan SPARQL-forespørgsel kunne se sådan ud:

SELECT (COUNT(?item) AS ?count) ?value ?valueLabel WHERE {
  ?item wdt:P972 wd:Q12307844 .
  ?item ?property ?value .
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],da,en". }
}
GROUP BY ?value ?valueLabel
HAVING (COUNT(?item) > 1)
ORDER BY DESC(?count)

Denne version tæller film og ordner elementerne efter hvor mange film de enkelte elementer indgår i. Informationen i Wikidata er nok ikke helt komplet. Med Magnus Manskes Listeria-værktøj kan man dog få en tabel konstrueret der viser at hver enkelt film er rimeligt godt dækket ind.

SPARQL’en findes her og resultatet ses her.

Det er ikke overraskende at et af de elementer der findes ved alle de 25 film er at de er oplistet i De 25 bedste danske film. Det er lissom en tautologi… Hvis vi går videre ned i hyppighed finder vi at Bodil Kjer og Anne Marie Helger er de højest placerede personer.

Bodil Kjer forbindes nok mest med gråtonede film fra 1940’erne og 1950’erne – i listen finder man hende som skuespiller i Otte akkorder, John og Irene og Mød mig på Cassiopeia – men i sin senere karriere gjorde hun sig også bemærket, dels som skrøbelig frue i Strømer, dels i den første danske Oscarvindende spillefilm. Hun er ikke en overraskelse.

Hvad jeg finder overraskende er at Anne Marie Helger ligger med 5 elementer, og dermed den næsthøjeste person på listen. Hun er skuespiller i Strømer, Johnny Larsen, selvfølgelig Koks i kulissen, og Erik Clausens De frigjorte. Hun figurerer også som manuskriptforfatter på Christian Braad Thomsens film.

En tak længere nede kommer Erik Balling, Ebbe Rode, Ib Schønberg og Anders Refn. Balling er producent på to film på listen og stod for både instruktion og manuskript på Poeten og Lillemor. Anders Refn er filmklipper på to og var tillige i en dobbeltrolle med instruktion og manuskript til Strømer.

Min navnebror Finn Nielsen er med på listen i forbindelse med tre film: Strømer, Johnny Larsen og Babettes gæstebud. Han gjorde forøvrigt også en fin(n) præstation i Kærlighedens smerte, som ikke kom på listen da instruktøren allerede er repræsenteret med Kundskabens træ.

Sverige står som samproduktionsland på fire film. Det er særligt i de senere års film, men den første film er faktisk Sult som jo er fra 1960’erne.

Og så iøvrigt mangler Bodil Kjer at blive talt med en ekstra gang: Som ekstra 26. emne lister Bo Green Jensen Far til fire-serien. I denne serie indgår der en legetøjselefant ved navn Bodil Kjer…