Oberseminar CL

Oberseminar Computerlinguistik (WS 2021/2022)

Prof. Dr. Fotis Jannidis, Leonard Konle (Julius-Maximilians-Universität Würzburg)

Mittwoch, den 01.12.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

“Disruptionen der Literaturwissenschaft am Beispiel der DVjs”

Folgt.

Oberseminar Computerlinguistik (SS 2021)

Dr. Bodo Winter (University of Birmingham)

Mittwoch, den 07.07.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

“Statistics in linguistics: Thoughts on recurrent issues and pedagogy”

It is safe to say that linguistics is undergoing a quantitative revolution. Thanks to widely available open-source programming languages such as R and Python, analyses in our field are becoming increasingly more sophisticated. However, certain age-old issues persist despite these developments. In this talk, I want to openly reflect on what I personally see as the most pressing issues of statistical methodology in our field, based on my experience of teaching statistics workshops and consulting on projects in various subfields, from corpus linguistics over phonetics to typology. I will highlight that despite the increasing use of linear mixed effects models, violations of the independence assumption are still a persistent issue, in particular in corpus linguistics. I will review how linear mixed effects models are used across different subfields of linguistics, and discuss the fact that there are currently no standards whatsoever about what random effects structures are appropriate for corpus linguistics. Towards the end of my talk, I will argue that most issues we face in linguistics are ultimately rooted in a statistical pedagogy that is quite far removed from the complexities of linguistic datasets, and that still teaches classical significance tests even though these are rendered obsolete by the linear model framework. Instead of focusing on prefab procedures such as t-tests and ANOVAs, we should be teaching students how to reason about and build explicitly generative statistical models. Towards the end of my talk I will discuss some of the pedagogical advantages of moving teaching in linguistics towards a framework that endorses Bayesian multilevel modeling facilitated by the easy-to-use R package “brms”.

Dr. Katrin Götz-Votteler (FAU) & Dr. Simone Hespers (FAU)

Mittwoch, den 30.06.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

“Alternative Wirklichkeiten”

Fake News und Verschwörungstheorien haben Hochkonjunktur: Lügen werden als Informationen getarnt und fadenscheinige Theorien ziehen bisher anerkannte Wahrheiten in Zweifel. Und spätestens wenn mit dem Begriff »alternative Fakten« Wahlmöglichkeiten auf dem Feld der Tatsachen suggeriert werden, kommt die Frage nach der willkürlichen Manipulation der Wirklichkeit auf.

Doch was sind Fake News eigentlich? Wie funktionieren Verschwörungstheorien? Und warum sind wir dafür offensichtlich so anfällig? Katrin Götz-Votteler und Simone Hespers gehen den Gründen für den gegenwärtigen Erfolg dieser Phänomene nach und zeigen, wie kommunikative Mechanismen und Prozesse unbewusst auf unsere Meinungsbildung wirken. Der Sprache als wesentliches Kommunikationsmittel kommt hier eine ebenso große Bedeutung zu wie visuellen Codes und Bildern, die vor allem in Form von Fotografien ein »Fenster zur Welt« auch außerhalb der eigenen Erfahrungsmöglichkeiten öffnen.

Prof. Dr. Dagmar Gromann, Zentrum für Translationswissenschaft, Universität Wien

Mittwoch, den 26.05.2021, 16:15-17:45 Uhr via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

Learning Terminological Concept Systems from Multilingual Texts

Terminological inconsistency represents one major source of  misunderstanding in specialized communication. One vital measure to counteract such inconsistency is the creation of a terminological concept system (TCS) that represents concepts, their terms and interrelations. A multilingual TCS can ensure that different parties in a communication, such as medical,  political, and news teams in times of crisis, consistently refer to phenomena by utilizing the same words. For instance, “COVID-19 isSpread airborne” represents a highly informative relation, especially when equipped with terms in several languages. Several approaches to extrat terms from text have been proposed, however, few also consider representing interrelations between concepts and terms. In this talk, I will present ongoing research within the project Extracting Terminological Concept Systems from Natural Language Text (Text2TCS) to improve multilingual term and relation extraction in domain-specific contexts. To this end, we currently rely on pre-trained language models, in particular XLM-R, as well as innovative uses of Neural Machine Translation (NMT) models, which I will present alongside additional experiments we have conducted. Resulting solutions of the project will be integrated into the European Language Grid (ELG) until summer this year.

Project website: https://text2tcs.univie.ac.at/

Oberseminar Computerlinguistik (WS 2020/21)

Jun.-Prof. Dr. Stefan Hartmann (Heinrich-Heine-Universität Düsseldorf)

Collostructional analysis: A short primer

Mittwoch 09.12.2020, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

In this talk, I give a brief overview over collostructional analysis, a family of methods measuring associations and dissociations proposed by Stefanowitsch & Gries (2003, 2005) and Gries & Stefanowitsch (2004). The first part of the talk introduces the theoretical foundations of the method as well as its operationalization. In addition, its relation to other methods such as Schmid’s (2000) “attraction” and “reliance” is discussed, and some frequent criticisms that the method has attracted are addressed (Bybee 2010, Gries 2012, Schmid & Küchenhoff 2013, Gries 2015, Küchenhoff & Schmid 2015). The second, more practically-oriented part offers a hands-on tutorial using Flach’s (2017) R package collostructions.

 

References

Bybee, Joan L. 2010. Language, Usage and Cognition. Cambridge: Cambridge University Press.

Flach, Susanne. 2017. collostructions: An R Implementation for the Family of Collostructional Methods.

Gries, Stefan Th. 2012. Frequencies, probabilities, and association measures in usage-/examplar-based linguistics. Some necessary clarifications. Studies in Language 11(3). 477–510.

Gries, Stefan Th. 2015. More (old and new) misunderstandings of collostructional analysis: On Schmid and Küchenhoff (2013). Cognitive Linguistics 26(3). 505–536.

Gries, Stefan Th. & Anatol Stefanowitsch. 2004. Extending Collostructional Analysis: A Corpus-Based Perspective on “Alternations.” International Journal of Corpus Linguistics 9(1). 97–129.

Schmid, Hans-Jörg. 2000. English Abstract Nouns as Conceptual Shells: From Corpus to Cognition. . Vol. 34. Berlin, New York: De Gruyter.

Stefanowitsch, Anatol & Stefan Th. Gries. 2003. Collostructions: Investigating the Interaction of Words and Constructions. International Journal of Corpus Linguistics 8(2). 209–243.

Stefanowitsch, Anatol & Stefan Th Gries. 2005. Covarying Collexemes. Corpus Linguistics and Linguistic Theory 1(1). 1–43.

Küchenhoff, Helmut & Hans-Jörg Schmid. 2015. Reply to “More (old and new) misunderstandings of collostructional analysis: On Schmid & Küchenhoff” by Stefan Th. Gries. Cognitive Linguistics 26(3). 537–547.

Schmid, Hans-Jörg & Helmut Küchenhoff. 2013. Collostructional Analysis and other Ways of Measuring Lexicogrammatical Attraction: Theoretical Premises, Practical Problems and Cognitive Underpinnings. Cognitive Linguistics 24(3). 531–577.

Jan Oliver Rüdiger (Leibniz-Institut für Deutsche Sprache, Mannheim)

Einführung in den CorpusExplorer

Mittwoch 16.12.2020, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

Der CorpusExplorer ist eine OpenSource Software für Korpuslinguist*innen und Text-/Data-Mining-Interessierte. Der CorpusExplorer vereint über 50 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dieser Vortrag führt zuerst in die Grundlagen ein, zeigt dann aber auch, wie die Shell/Konsole verwendet werden kann, um z. B. den CorpusExplorer aus R/Python heraus zu nutzen.

Minhaeng Lee (Yonsei University, Seoul)

Ein Drei-Ebenen-Modell der Stimmungsanalyse – mit Exkurs zu einigen speziellen Korpora

Mittwoch 03.02.2021, 16:15–17:45, via Zoom (Link folgt über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

Der Vortrag kann als Screencast zusammen mit dem Handout auf der persönlichen Webseite von Prof. Lee heruntergeladen werden.

In dem Vortrag wird ein Drei-Ebenen-Modell der Stimmungsanalyse („Sentiment Analysis“) vorgestellt und exemplarisch gezeigt, wie das Modell funktioniert. Dabei werden deutsche Texte als Untersuchungsgegenstand benutzt, um Stimmungswerte („Sentiment-scores“) zu ermitteln. Die Ergebnisse dieser Analyse werden im Folgenden erläutert. Für die Stimmungsanalyse wurden 22 Einzeltexte aus verschiedenen Korpora zur Analyse herangezogen: 1. ein Gutenberg-Korpus, 2. ein Literatur-Korpus und 3. ein Werbeslogan-Korpus. Das Literaturkorpus umfasst ausgewählte Texte der Gattungen (i) Liebesroman, (ii) biografischer Roman, (iii) Kriminalroman, (iv) Theaterstück, (v) Autobiografie, (vi) historische Texte und (vii) schöne Literatur. Zur Gattung ‘schöne Literatur’ gehören Werke deutscher Autoren wie Goethe, Kafka, Hesse, Thomas Mann, Heinrich Mann und Werke von Leo Tolstoi und Jane Austen. Die Korpora sind nicht-ausgewogen und können lediglich als Korpora mit speziellen Zwecken klassifiziert werden. Sie wurden vom Autor dieses Beitrags mit Hilfe von einem CWB-Werkzeug erstellt. Für die Analyse der Gattung ‘biografischer Roman’ wurde „Das schönste der Welt“ gewählt, das das Leben des italienischen Impressionisten Segantini dargestellt hat. Die Gattung ‘Kriminalroman’ umfasst Conan Doyles „Sherlock Holmes“ und Neuhausens „Wer Wind sät“. Als ‘Autobiografie’ wurden die Autobiografien von Hillary Clinton und Michelle Obama analysiert. Neben Shakespeares „Romeo und Julia“ wurde Lessings „Emilia Galotti“ für die Gattung ‘Theaterstück’ verwendet. Als ‘Historische Texte’ wurden Yuval Noah Hararis „Eine kurze Geschichte der Menschheit (Sapiens)“ und Charles Van Dorens „Geschichte des Wissens“ für die Stimmungsanalyse ausgewählt. Insbesondere wurden Korpora einbezogen, um die Gattungen ‘Werbeslogan’ und ‘Liebesroman’ zu analysieren. Das Korpus der Werbeslogans beträgt die Größe 90.567 Wörter (15.757 Slogans). Andererseits beträgt das Korpus des Liebesromans die Größe 906.249 Wörter. Was weitere spezielle Korpora betrifft, werden das Korpus der Werbeslogans und das Gesicht-Korpus mit Daten über Polysemie vorgestellt und es wird gezeigt, wie sie für linguistische Untersuchungen nutzbar gemacht werden.

Philipp Heinrich & Stefan Evert (CCL, FAU Erlangen-Nürnberg)

News from the Corpus Workbench (CWB): Embedding CWB in a CL Workflow | Finite State Queries

verlegt auf Mittwoch 17.02.2021, 16:15–17:45, via Zoom (Link über uniinterne Verteiler, externe Anmeldungen gerne über info@linguistik.uni-erlangen.de!)

Many powerful corpus query engines – notably the IMS Open Corpus
Workbench (CWB), the (No)Sketch Engine, and several other tools inspired
by them – offer a query language based on generalised regular expressions
(formulated over complex token descriptions rather than individual
characters). This enables researchers to locate lexico-grammatical
patterns of interest and collect corpus instances in a concordance. Many
applications of corpus linguistics – notably corpus-based discourse
analysis and computational lexicography – are furthermore in need of
collocations or word sketches, as well as dispersion and keyword analyses
(based on metadata annotation included in the corpus).

The first part of the talk gives a practical introduction to cwb-ccc, an
open-source Python package that translates CWB query results into pandas
dataframes and then performs collocation analyses for different contexts.
It also offers keyword analysis for subcorpora defined by metadata
constraints.

The second part of the talk gives the first publicly available
introduction to the CWB implementation of corpus queries by
non-deterministic simulation of finite-state automata. It also addresses
pitfalls and limitations of finite-state queries, in particular certain
corner cases that may not be evaluated correctly.

Oberseminar Computerlinguistik (WS 2019/20)

Andreas Blombach (FAU)

Wie verständlich sind linguistische Fachtexte?

Mittwoch 29.01.2020, 16:15–17:45, Bismarckstr. 12, Raum 0.320

Wer einen Text liest, den er nicht oder nur schwer versteht, hält sich womöglich für zu dumm dafür. Wieder andere unterstellen dagegen vielleicht dem Verfasser, sein Thema nicht wirklich durchdrungen zu haben – andernfalls könnte er es ja einfacher darstellen. In jedem Falle ist etwas schiefgelaufen.

Der Vortrag beschäftigt sich u.a. mit folgenden Fragen: Was ist Verständlichkeit eigentlich? Wie lässt sich das messen? Welche Eigenschaften von Texten wirken sich darauf aus? Und welche Rolle spielt der Leser dabei?

Dazu sollen zunächst in groben Zügen die Geschichte und Erkenntnisse der Verständlichkeitsforschung nachgezeichnet werden, ehe Zwischenergebnisse einer eigenen Untersuchung zur (Un-)Verständlichkeit linguistischer Fachtexte vorgestellt werden.

Oleg Harlamov (BA LingInf)

Corpus Query Lingua Franca, Teil 2 (CQLF-2): Eine Ontologie für Korpusabfragesprachen

Mittwoch 30.10.2019, 16:15–17:45, Bismarckstr. 12, Raum 0.320

Oleg Harlamov stellt seine Forschungsarbeiten im Rahmen eines Praktikums am Lehrstuhl für Korpus- und Computerlinguistik sowie eines laufenden Bachelorarbeitsprojekts vor.  Er arbeitet dabei eine Ontologie für Korpusabfragesprachen am Beispiel des Corpus Query Processor (CQP) aus, die in den in Entwicklung befindlichen ISO/DIN-Standard CQLF-2 einfließen wird.

Prof. Dr. Susanne Liebmann-Wurmer (FAU, Kunstpädagogik) & Prof. Dr. Stefan Evert (FAU, Korpus- und Computerlinguistik)

Kunstpädagogin trifft auf Computerlinguist: Wie tickt eigentlich ein/e …?

Mittwoch 06.11.2019, 18:15–20:00, Bismarckstr. 1a, Kleiner Hörsaal

Treffen sich eine Kunstpädagogin und ein Computerlinguist … Was wie der Beginn eines Witzes anmutet, ist Programm bei der Veranstaltungsreihe „Wie tickt eigentlich ein/e …?“ des Zentralinstituts für Wissenschaftsreflexion und Schlüsselqualifikationen (ZiWiS) der Friedrich-Alexander-Universität Erlangen-Nürnberg (FAU): Prof. Dr. Susanne Liebmann-Wurmer und Prof. Dr. Stefan Evert, werden am Mittwoch, 6. November, um 18.15 Uhr, im Kleinen Hörsaal, Bismarckstraße 1a, in kurzen Impulsvorträgen erläutern und diskutieren, wie ihr jeweiliges Fach „tickt“.

Was sind die grundlegenden Methoden des Fachs und wie sieht der Forschungsalltag aus? Was sind zentrale Begriffe und Fragestellungen? Wo bestehen Schnittstellen zu anderen Fächern? Nach kurzen Impulsen werden diese und andere Fragen gemeinsam mit dem Publikum diskutiert.
Das Format gibt Einblicke in die Arbeitsweise anderer, auch – vermeintlich – fachlich weit entfernter Disziplinen. Dadurch können Interessierte die eigenen Vorstellungen einem Realitätscheck unterziehen. Wissenschaftlerinnen und Wissenschaftler entdecken vielleicht neue interdisziplinäre Potenziale an der Volluniversität FAU.

Oberseminar Computerlinguistik (SS 2019)

Lukas Sönning & Dr. Stefan Hartmann (Universität Bamberg)

The English comparative alternation revisited: A fresh look at theory and data

Mittwoch, 29.05.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)

Lukas Sönning und Stefan Hartmann stellen in ihrem Vortrag ein Korpusprojekt zu alternativen Komparativbildungen (nicht Fakten) im Englischen vor (deadlier vs. more deadly usw.). Dabei werfen sie methodische Grundsatzfragen auf und nutzen korpusbasierte Methoden, um vorherrschende Ansichten in der bisherigen Forschung ein wenig in Frage zu stellen und neue Erklärungsansätze vorzuschlagen.

Dr. Besim Kabashi (Lehrstuhl für Korpus- und Computerlinguistik, FAU)

Kollokationen im Albanischen

Mittwoch, 05.06.2019, 16:30–18:00, Bismarckstr. 12 (Raum 0.320)

Im Vortrag wird über die Arbeit berichtet, ein Wörterbuch des Albanischen zu kompilieren. Zu Beginn wird allgemein auf das Thema Kollokationen eingegangen. Anschließend werden die Arbeitsschritte besprochen, die bei der Zusammenstellung des Wörterbuches notwendig sind, u.a. die Datenquellen, Arbeitsmethoden und Werkzeuge, sowie die Auswahl der Lemmata und ihrer Typen.   

Daniel Rieß (doctima GmbH, Alumnus der Linguistischen Informatik)

Die Welt der Technischen Redaktion

Mittwoch, 26.06.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)

In dem Vortrag wird doctima (Dienstleistungen in Technische Dokumentation, Content Management, Softwareentwicklung) und die Branche kurz vorgestellt. Dabei werden insbesondere computerlinguistische Inseln im Arbeitsalltag gezeigt, d. h. die Aufgaben, bei denen Wissen aus Computer- bzw. Korpuslinguistik von Vorteil ist und für Studierende interessant sein können.

Dr. Sascha Wolfer (Leibniz-Institut für Deutsche Sprache, Mannheim)

Verständlichkeit juristischer Fachtexte: Eyetracking-Korpora in der Verständlichkeitsforschung

Mittwoch, 17.07.2019, 16:15–17:45, Bismarckstr. 12 (Raum 0.320)

Dass die meisten juristischen Texte schwer verständlich sind, ist vermutlich einigermaßen unumstritten. Aus dieser Einsicht können wir leicht ableiten, dass sie hinsichtlich ihrer Verständlichkeit optimiert werden sollten. Im Vortrag werde ich vorstellen, wie mit Reformulierungen auf drei linguistischen Ebenen (Nominalisierungen, komplexe Nominalphrasen, exzessiv eingebettete Sätze) die Verarbeitung juristischer Texte zumindest im Ansatz erleichtert werden kann.

Auf methodischer Ebene werde ich zeigen, wie Eyetracking- oder Lesekorpora erstellt und ausgewertet werden. Dabei lasse ich mich von den folgenden Fragen leiten: Was unterscheidet Eyetracking-Korpora von „klassischen“ linguistischen Korpora? Wie gehen wir vor, wenn wir Eyetracking-Korpora auswerten bzw. linguistische Aussagen aus ihnen ableiten? Welchen Herausforderungen stehen wir gegenüber, wenn wir Eyetracking-Korpora natürlicher Texte erstellen und auswerten?

Auf einem „Nebenschauplatz“ des Vortrags werde ich die Konzepte Lesbarkeit und Verständlichkeit gegenüberstellen. Auch der Verstehensprozess und das Verstehensprodukt werde ich auf konzeptueller Ebene vergleichen und (hoffentlich) verbinden. Ich möchte schließen mit etwas „Werbung“ für ein für die wissenschaftliche Forschung verfügbares Eyetracking-Korpus, das aus populärwissenschaftlichen Texten zusammengestellt wurde.