Quantitative Ansätze in den Literatur- und Geisteswissenschaften Quantitative Ansätze in den Literatur- und Geisteswissenschaften Systematische und historische Perspektiven Herausgegeben von Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht Gefördert von der VolkswagenStiftung. ISBN 978-3-11-052200-6 e-ISBN (PDF) 978-3-11-052330-0 e-ISBN (EPUB) 978-3-11-052337-9 Dieses Werk ist lizenziert unter der Creative Commons Attribution-NonCommercial- NoDerivatives 4.0 International License. Weitere Informationen finden Sie unter http://creativecommons.org/licenses/by-nc-nd/4.0/. Library of Congress Control Number: 2018936214 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.dnb.de abrufbar. © 2018 Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht, publiziert von Walter de Gruyter GmbH, Berlin/Boston Dieses Buch ist als Open-Access-Publikation verfügbar über www.degruyter.com. Umschlagfoto: Frank Keller „light room I“ Druck und Bindung: CPI books GmbH, Leck ♾ Gedruckt auf säurefreiem Papier Printed in Germany www.degruyter.com Inhalt Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht Einleitung: Quantitative Ansätze in den Literatur- und Geisteswissenschaften 1 Teil 1: Applikationen Jonas Kuhn Computerlinguistische Textanalyse in der Literaturwissenschaft? Oder: »The Importance of Being Earnest« bei quantitativen Untersuchungen 11 Nils Reiter und Marcus Willand Poetologischer Anspruch und dramatische Wirklichkeit: Indirekte Operationalisierung in der digitalen Dramenanalyse Shakespeares natürliche Figuren im deutschen Drama des 18. Jahrhunderts 45 Christof Schöch Zeta für die kontrastive Analyse literarischer Texte Theorie, Implementierung, Fallstudie 77 Florian Barth Zwischen Elisabeth Hauptmann und Bertolt Brecht: Stilometrische Studien einer Zusammenarbeit 95 Friedrich Michael Dimpel Narratologische Textauszeichnung in Märe und Novelle 121 Angelika Zirker, Judith Glaesser, Augustin Kelava und Matthias Bauer Kompetenzmodellierung im Fach Englisch: Literaturwissenschaft meets Psychometrie 149 Gabriel Viehhauser Digital Humanities ohne Computer? Alte und neue quantifizierende Zugänge zum mittelhochdeutschen Tagelied 173 vi Inhalt Teil 2: Reflexionen Toni Bernhart Quantitative Literaturwissenschaft: Ein Fach mit langer Tradition? 207 Cornelis Menke Zum Ideal der Quantifizierung 221 Friederike Schruhl Quantifizieren in der Interpretationspraxis der Digital Humanities 235 Emmerich Kelih Quantitative Verfahren in der russischen Literaturwissenschaft der 1920er und 1930er Jahre B. I. Jarcho und sein Beitrag zur quantitativen Literaturgeschichte 269 Benjamin Krautter Über die Attribution hinaus Forschungsperspektiven der Stilometrie als Anwendungsfeld in der Literaturwissenschaft 289 Carolin Hahn Forschung benötigt Forschungsinfrastrukturen Gegenwärtige Herausforderungen literaturwissenschaftlicher Netzwerkanalysen 315 Celia Krause und Philipp Hegel Überlegungen zur quantitativen Kodikologie 335 Anne Baillot Die Krux mit dem Netz Verknüpfung und Visualisierung bei digitalen Briefeditionen 355 Julia Lossau Der Raum und das Quantitative 371 Beiträgerinnen und Beiträger 389 https://doi.org/10.1515/9783110523300-001 Einleitung: Quantitative Ansätze in den Literatur- und Geisteswissenschaften Die Rede von digitalen Verfahren, die die geisteswissenschaftliche Forschung re- novieren werden, ist derzeit ubiquitär, trübt aber den Blick dafür, dass quantita- tive Ansätze geisteswissenschaftlicher Forschung nicht neu sind, sondern auf eine lange Geschichte zurückblicken können. Denn der z ählende Umgang mit Texten ist keinesfalls erst durch die ›digitale Revolution‹ der Geisteswissenschaf- ten denkbar geworden. Vielmehr wird schon seit ungefähr 200 Jahren das, was vom späten Wilhelm Dilthey als Gegenstand der verstehenden und qualitativ ori- entierten Geisteswissenschaften bestimmt wurde, zum ›messbaren‹ Objekt er- klärt. Seit Beginn des 19. Jahrhunderts werden quantifizierende Verfahren ange- wandt, um Sprache und literarische Texte zu beschreiben, zu analysieren und zu interpretieren. Bis in die ersten Jahre des 21. Jahrhunderts sind solche Ansätze – beispielsweise aus den informellen Gruppen um Wilhelm Fucks oder Max Bense – in der Literaturwissenschaft stark unterrepräsentiert; im Zuge der Digital Humanities gewinnen sie jedoch wieder stark an Bedeutung. Diese Entwicklung fortschreibend, entwerfen auch die einzelnen Beiträge dieses Bandes historisch und systematisch reflektierte Perspektiven für eine auch, aber nicht ausschließ- lich, in den Digital Humanities beheimatete Quantitative Literatur- und Geistes- wissenschaft und diskutieren ihr Potential in theoretischer und praktischer Hin- sicht. Um die Mitte des 19. Jahrhunderts unternehmen Wissenschaftler in zahlrei- chen Ländern der Welt und unabhängig voneinander den Versuch, literarische und sprachliche Parameter mit zählenden, messenden und rechnenden Metho- den zu bestimmen und zu deuten. Auffallend dabei ist –und dies gilt bis ins frühe 20. Jahrhundert –, dass diese Vorstöße nicht in erster Linie von Philologen unter- nommen werden, sondern von Physikern, Mathematikern, Meteorologen, Philo- sophen oder Psychologen. Gegen Ende des 19. Jahrhunderts lässt sich vor allem in Russland und Europa ein genuines Interesse an einem quantifizierenden Um- gang mit Sprache und Literatur beobachten. 1 Das erste Frequenzwörterbuch des Deutschen erschien 1898. Friedrich Wilhelm Kaeding, der Herausgeber, wurde 1 Peter Grzybek, Emmerich Kelih: »Empirische Textsemiotik und quantitative Text-Typologie«, in: Text & Reality. Text & Wirklichkeit , hg. v. Jeff Bernard, Jurij Fikfak und Peter Grzybek. Ljubl- jana, Wien, Graz 2005, S. 95–120. © 2018 Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht, publiziert von De Gruyter. Dieses Werk ist lizenziert unter der CreativeCommons Attribution-NonCommercial-NoDerivatives 4.0 International License. https://doi.org/10.1515/9783110523300-001 Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht von fast 1000 freiwilligen Helfern unterstützt, um die von ihm erfassten 11 Mio. Wörter zu systematisieren. 2 Ohne Zweifel ist diese Zahl beeindruckend, doch vor dem Hintergrund der zeitgenössischen Verfügbarkeit und Möglichkeit der Verar- beitung von Daten verliert sie sogleich an Imposanz. 115 Jahre nach der Herausgabe des Frequenzwörterbuchs, im April 2013, ver- kündete Google Books, 30 Mio. Bücher gescannt zu haben; das hauseigene Textanalysetool Ngram-Viewer erlaubt es derzeit, 5,2 Mio. davon zu durchsuchen – das entspricht etwa 500 Mrd. Wörtern, von denen 37 Mrd. der deutschen Spra- che zugehörig sind. 3 Die 5,2 Mio. Bücher entsprechen etwa 4% aller jemals ge- druckten Bücher. Lesen kann diese Menge natürlich niemand, aber neben dem häufig referierten Problem der beschränkten Leseleistung eines Menschen muss perspektivisch gerade die steigende Menge der Buchproduktion 4 als Argument für eine Anpassung der Literaturwissenschaft an den Medienwandel der Gesell- schaft hin zum Digitalen genannt werden. Wurden von 1740 bis 1900 etwa 32.000 Romane im englischsprachigen Raum publiziert, erschienen allein in Deutsch- land seit 2005 Jahr für Jahr etwa 75.000 bis 85.000 Bücher, bei einem recht stabi- len Belletristik-Anteil von gut 30%. 5 Zwar existiert ein Gutteil dieser Bücher ›nur‹ digital, doch der Blick in den Bestand einer einzigen Bibliothek vermag die Not- wendigkeit effizienter Digitalisierungstechniken aufzuzeigen: Die Württembergi- sche Landesbibliothek nennt als Bestand 3,7 Millionen gedruckte Bücher, 15.420 Handschriften, 7.087 Inkunabeln und 180.439 Autographe. Es benötigte die Le- benszeit von über 7.000 Wissenschaftlern, um diesen Bestand einmal komplett zu lesen – etwa um nach einem bestimmten Ausdruck zu fahnden. Im Vergleich dazu benötigte Google Books am 20. Dezember 2017 genau 0,54 Sekunden, um in 2 Friedrich Wilhelm Kaeding: Häufigkeitswörterbuch der deutschen Sprache. Festgestellt durch einen Arbeitsausschuß der deutschen Stenographiesysteme . Berlin 1898; Toni Bernhart: »›Von Aalschwanzspekulanten bis Abendrotlicht‹. Buchstäbliche Materialität und Pathos im ›Häufig- keitswörterbuch der deutschen Sprache‹ von Friedrich Wilhelm Kaeding«, in: Ethos und Pathos der Geisteswissenschaften. Konfigurationen der wissenschaftlichen Persona seit 1750 , hg. v. Ralf Klausnitzer, Carlos Spoerhase und Dirk Werle. Berlin, Boston 2015, S. 165–189. 3 Jean-Baptiste Michel (u. a.): »Quantitative Analysis of Culture Using Millions of Digitized Books«, in: Science (2011) H. 331, S. 176–182. 4 Marcel Lepper: »Big Data, Global Villages«, in: Philological Encounters 1 (2016), S. 131–162. 5 Die Zahlen stammen vom Börsenverein des Deutschen Buchhandels: http://www.boersenver ein.de/sixcms/media.php/976/Titelproduktion_Erst_und_Neuauflage_final.pdf und http://ww w.boersenverein.de/sixcms/media.php/1117/Tab.4_BuBiZ_2017.pdf (beide 24.10.2017). Einleitung: Quantitative Ansätze in den Literatur- und Geisteswissenschaften den bereits digitalisierten Beständen 202.000.000 Treffer für das Suchwort »Le- sen« zu finden. 6 Auf den ersten Blick scheint sich hieraus vor allem ein arbeitsökonomisches Argument ableiten zu lassen; immerhin könnten zeitintensive Archiv- und Biblio- theksbesuche bald der Vergangenheit angehören. Tatsächlich erstreckt sich der durch die Textdigitalisierung ermöglichte Wandel aber auch auf die inhaltliche Ebene der Texterschließung und Textanalyse. Denn mit dem Textkorpus wächst potentiell auch der Geltungsbereich literaturwissenschaftlicher Aussagen. Diese häufig als ›demokratisierend‹ oder ›entkanonisierend‹ lancierte Entwicklung der zunehmend ungerichteten und auf Masse abzielenden Digitalisierung gedruckter Wissensbestände durch Großkonzerne und öffentliche bestandhaltende Institu- tionen ist jedoch nicht ganz unkritisch zu betrachten. Sie stellt uns vor eine stattliche Reihe ökonomischer, juristische, politischer und schließlich auch tech- nischer und wissenschaftlicher Probleme und Herausforderungen. Die verschie- denen wissenschaftlichen Disziplinen müssen dabei je eigene Wege im Umgang mit den digitalen Sammlungen finden. Für die Geistes- und Literaturwissenschaft ist das Novum quantitativer An- sätze jedoch nicht nur die Frage nach dem Was , sondern insbesondere auch die Frage nach dem Wie , also nach der Methodik des Umgangs mit den textuellen Artefakten. Hier schließt der Band sowohl an Diskussionen der Methodologie als auch an zeitgenössische Diskussionen über spezifisch literaturwissenschaftli- ches Arbeiten an, die unter dem Stichwort Praxeologie der Literaturwissenschaft verhandelt werden. 7 Hinzu kommt die Beobachtung, dass quantitative Verfahren in den Literatur- und Geisteswissenschaften lange Zeit unter erheblichem Legiti- 6 http://www.google.de/search?q=lesen&btnG=Nach+B%C3%BCchern+suchen&tbm=bks&tbo =1&hl=de (20.12.2017). 7 Vgl. Steffen Martus und Carlos Spoerhase: »Praxeologie der Literaturwissenschaft«, in: Ge- schichte der Germanistik (2009) 35/36, S. 89–96; Marcus Willand: »Replik: Steffen Martus und Carlos Spoerhase: Praxeologie der Literaturwissenschaft«, in: Aussiger Beiträge 5 (2011), S. 180– 184; Carlos Spoerhase: »Big Humanities. ›Größe‹ und ›Großforschung‹ als Kategorien geisteswis- senschaftlicher Selbstbeobachtung«, in: Geschichte der Germanistik 37/38 (2010), S. 9–27; Stef- fen Martus, Carlos Spoerhase: »Die Quellen der Praxis. Probleme einer historischen Praxeologie der Philologie. Einleitung«, in: Zeitschrift für Germanistik 23 (2013) H. 2, S. 22 1–225, Theorien, Methoden und Praktiken des Interpretierens , hg. v. Andrea Albrecht, Lutz Danneberg, Olav Krae- mer und Carlos Spoerhase. Berlin 2015; vgl. auch den Beitrag von Friederike Schruhl in diesem Band. Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht mationsdruck standen. Vor diesem Hintergrund wird es aufschlussreich sein, ge- rade eine genuin quantitative Methodengeschichte für die Geisteswissenschaften zu rekonstruieren, an die auch in der Zukunft angeschlossen werden kann. 8 Bei genauerer Betrachtung zeigt sich, dass in den gegenwärtigen Literatur- und Geisteswissenschaften quantitative Ansätze breit vertreten sind. Doch es ist kaum möglich, einen gemeinsamen Nenner dieser Forschung auszumachen. Die- ses Desiderat erkannte der Wissenschaftsrat bereits 2012 in den Sozial- und Ver- haltenswissenschaften und sprach folgende Empfehlung zur »Weiterentwick- lung der wissenschaftlichen Informationsstrukturen in Deutschland bis 2020« aus: Zur verbesserten Integration von quantitativen und qualitativen Forschungsansätzen in den Sozial- und Verhaltenswissenschaften wird der DFG und dem BMBF empfohlen, sich abzustimmen und ein Programm auszuschreiben, das Modellprojekte in diesem Bereich fördert. Das Programm sollte sich an Wissenschaftlerinnen und Wissenschaftler richten. Gegenstand der Ausschreibung sollte einerseits die Bearbeitung einer fachwissenschaftli- chen Fragestellung mittels einer Verbindung quantitativer und qualitativer Forschungsda- ten und -methoden sein. Darüber hinaus sollten entsprechende Projekte andererseits auch zur Weiterentwicklung von Standards und Methoden für die Langzeitverfügbarmachung von qualitativen Forschungsdaten beitragen. 9 Diese Forderung einer Interaktion und Vermittlung quantitativer und qualitativer Forschungsansätze beschränkt sich nicht auf die Sozialwissenschaften, sondern scheint sich zuletzt und im Vergleich zu früheren Versuchen dieser Art nun län- gerfristig und über Disziplinengrenzen hinweg auch in einer Institutionalisie- rung der Digital Humanities niederzuschlagen. So sind seither, in den fünf Jahren 8 Ein fachgeschichtlich interessantes Beispiel aus der zweiten Hälfte des 20. Jahrhunderts ist gerade das Verschwinden quantitativer Verfahren aus der Literaturwissenschaft, das sich mit einem Verweis auf die Geschichte der Linguistik erklären lässt. Diese hatte ab den 1970er Jahren, auch im Zuge der Emanzipation von der Literaturwissenschaft, deren quantitative Verfahren in- korporiert und weiterentwickelt. So ist in der Sprachwissenschaft Quantitative Linguistik seit Jahrzehnten ein etabliertes Spezialgebiet mit ausgeprägter Theoriebildung, eigenen Zeitschrif- ten, Lehrbüchern und Lehrstühlen. 9 Wissenschaftsrat: »Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informa- tionsinfrastrukturen in Deutschland bis 2020« (13.07.2012), S. 58. http://www.wissenschafts- rat.de/download/archiv/2359-12.pdf (10.08.2013) Einleitung: Quantitative Ansätze in den Literatur- und Geisteswissenschaften nach der Empfehlung des Wissenschaftsrates, etwa 50 Digital Humanities-Pro- fessuren im deutschsprachigen Raum ausgeschrieben worden. 10 »Interdisziplina- rität« in den DH bedeutet nicht nur, i n den D - und H-Disziplinen gemeinsame Forschungsfragen oder Forschungsgegenstände zu entwickeln, sondern viel- mehr auch, zwischen disziplinspezifischen Formen der Modellierung und Opera- tionalisierung von Forschungsfragen auf theoretischer und methodischer Ebene zu vermitteln. Diese Vermittlung findet dabei sowohl zwischen den Forschungs- positionen selbst als auch zwischen den sie charakterisierenden Theorien, Methoden und Praktiken statt. Als Übertrag für die quantifizierende Perspektive und gleichsam als leitmoti- vische Bedingung für die in diesem Band versammelten Beiträge ist auf diesem Wege die Prämisse eines theoriegeleiteten Umgangs mit Daten eingeführt. Die da- mit explizierte Korrektiv-Funktion theoretisch entworfener Modelle durch die Forderung ihrer praktischen Anwendbarkeit auf Daten funktioniert ebenso vice versa als Korrektur eines unsystematischen Umgangs mit Daten durch Theorie. Der geisteswissenschaftlich-interdisziplinär ausgerichtete Band mit Fokus auf die literaturwissenschaftliche Forschung soll als Plattform dieses Dialogs dienen und die Wissenschaftsfähigkeit der disziplinspezifischen Modellierungen auf den Prüfstand setzen. Dabei sollen – idealiter ausgerichtet auf die brisante Frage nach den Möglichkeiten einer interdisziplinären Standardisierung quantitativer Verfahren 11 – in einem ersten Schritt quantitative Verfahrensmodelle gesichtet, Verfahrenskataloge erstellt und gegebenenfalls die Grundlagen für Empfehlun- gen von best-practice -Modellen als Antwort auf spezifische Fachfragen vorberei- tet werden. Der Band fußt auf der Tagung »Scientia Quantitatis. Quantitative Literatur- wissenschaft in systematischer und historischer Perspektive«, die im Oktober 2014 von den Abteilungen für Neuere deutsche Literatur des Instituts für Litera- turwissenschaft, dem Stuttgart Research Center for Text Studies der Universität Stuttgart und dem Deutschen Literaturarchiv Marbach mit Unterstützung der 10 Vgl. Patrick Sahle: »Zur Professoralisierung der Digital Humanities«, http://dhd-blog.org/?p =6174 (20.12.2017). Teilweise wurden Professuren mehrfach ausgeschrieben; d. h. die Zahl der tatsächlichen Professuren ist etwas niedriger. 11 Vgl. das Sonderheft des Journal of Literary Theory 5 (2011) H. 2, dessen Beiträger auf die Frage antworten, ob (und wenn ja, welche) Standards und Normen im Feld der literary studies festzu- machen seien. Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht VolkswagenStiftung im Schloss Herrenhausen in Hannover stattfand. 12 Die Refe- rentinnen und Referenten der Tagung haben ihre Beiträge für den Druck überar- beitet; weitere Beiträge kamen auf Einladung der Herausgeberinnen und Heraus- geber hinzu und erweitern diesen Band. Unterschiedliche Ordnungsprinzipien böten sich an, um die Beiträge in die- sem Band zu gruppieren. Eine Unterscheidung nach stärker systematischer oder stärker historischer Perspektivierung wäre denkbar, eine Unterteilung in Bei- träge, die quantitative Ansätze eher praktisch anwenden oder eher methoden- theoretisch oder wissenschaftsgeschichtlich reflektieren; schließlich wäre auch eine chronologische Reihung hinsichtlich der Gegenstände möglich, die von den Beiträgen als Forschungsobjekt in den Blick genommen werden. Denkbar wäre auch eine Gliederung nach den Fachgebieten Computerlinguistik und Linguistik, Literaturwissenschaft, Archiv- und Handschriftenkunde, Bildungsforschung, Wissenschaftsgeschichte und Geographie. Weil jedoch sämtliche Beiträge min- destens auf zwei der genannten Bereiche ausgreifen, erschien uns eine ver- gleichsweise offene Gliederung nach den zwei Teilen »Applikationen« und »Re- flexionen« angemessen. Der erste Teil »Applikationen« wird eröffnet durch den Beitrag von Jonas Kuhn, der am Beispiel von Abenteuerromanen das textanalytische Potential com- puterlinguistischer Verfahren exploriert und in der Form eines Werkstattberichts langjährige Kooperationserfahrungen zwischen Computerlinguistik und Litera- turwissenschaft reflektiert. Nils Reiter und Marcus Willand nehmen dramatische Texte in den Blick, die – anders als erzählende Texte – erst allmählich zu einem Forschungsgegenstand quantitativer und computergestützter Analysemethoden werden. Besondere Aufmerksamkeit richten sie dabei auf die Operationalisie- rung literaturwissenschaftlicher und dramenpoetologischer Fragestellungen. Dramenanalytisch ist auch der Beitrag von Christof Schöch, der das Distanzmaß Zeta nach John Borrows verwendet, um die Gattungen Komödie, Tragödie und Tragikomödie messend miteinander zu vergleichen und so auf methodischer Ebene Zeta weiterzuentwickeln. Der poetischen Zusammenarbeit von Bertolt 12 Vgl. Ruth Kuntz-Brunner: »Zwischen den Zeilen. Mit Technik und Methode«, in: Impulse. Das Wissenschaftsmagazin der VolkswagenStiftung 1 (2015), S. 72–75; Peggy Bockwinkel: »Tagungs- bericht Scientia Quantitatis – Quantitative Literaturwissenschaft in systematischer und histori- scher Perspektive«, 30.09.–02.10.14 in Hannover, in: Glottotheory 6.1 (2015), S. 229–235; Frie- derike Schruhl: »Scientia Quantitatis. Quantitative Literaturwissenschaft in systematischer und historischer Perspektive (Tagung in Hannover v. 30.9.–2.10.2014)«, in: Zeitschrift für Germanis- tik , NF 25.2 (2015), S. 423–424. Einleitung: Quantitative Ansätze in den Literatur- und Geisteswissenschaften Brecht mit Elisabeth Hauptmann widmet sich Florian Barth in seiner stilometri- schen Studie, gefolgt von Friedrich Michael Dimpel, der Textauszeichnungen in den Gattungen Märe und Novelle vornimmt und die gewonnenen Daten narrato- logisch evaluiert. Empirische Bildungsforschung und Literaturwissenschaft ver- knüpfen Angelika Zirker, Judith Glaesser, Augustin Kelava und Matthias Bauer in ihrer Studie, die am Beispiel eines Shakespeare-Sonetts Textverstehen misst. Wenn Gabriel Viehhauser mittels quantifizierender Methoden mittelhochdeut- sche Tagelieder analysiert und interpretiert, leitet er mit seinem methodologisch reflektierten Rekurs auf Forschungen, die aus der Zeit des prä-digitalen Zeitalters stammen, über auf den zweiten Teil des Bandes. Dieser zweite Teil »Reflexionen« beginnt mit einem wissenschaftsgeschicht- lichen Abriss zur Verwendungsgeschichte quantitativer Methoden in den letzten zwei Jahrhunderten von Toni Bernhart. Cornelis Menke reflektiert kritisch die Vorstellung eines Quantifizierungsideals und Friederike Schruhl sichtet aus pra- xeologischer Perspektive Forschungsaufsätze in DH-Zeitschriften mit dem Ziel, quantifizierende Interpretationspraktiken zu identifizieren. Benjamin Krautter nimmt bekannte Verfahren zur Autorschaftsattribution kritisch in den Blick, um nach stilometrischen Erweiterungsmöglichkeiten dieser wohl ältesten und pro- minentesten quantitativen Verfahren zu fragen. Literaturwissenschaftliche Netz- werkanalyse ist das Thema des Beitrags von Carolin Hahn, während Celia Krause und Philipp Hegel eine quantitative Kodikologie entwickeln. Ebenfalls mit Netz- werken, deren Punkten und Kanten, Grenzen und Weiten beschäftigt sich Anne Baillot. Abgeschlossen und zugleich geöffnet wird der zweite Teil durch den Bei- trag von Julia Lossau, die das Fach der Geographie auf programmatische Aspekte und Verständnisweisen des Quantitativen hin durchmisst. Wie danken den Autorinnen und Autoren für ihre Beiträge und die sehr in- spirierende und produktive Zusammenarbeit. Anja-Simone Michalski danken wir für die Aufnahme unseres Bandes in das Verlagsprogramm von Walter de Gruyter und Stella Diedrich für die Begleitung des gesamten Produktionsprozesses. Den studentischen Hilfskräften Anja Braun, Martin Kuhn und Florian Barth danken wir für ihre gründliche Mitarbeit bei Korrektorat und Texteinrichtung. Dem Deut- schen Literaturarchiv Marbach und dem Stuttgart Research Centre for Text Stu- dies schulden wir Dank für die Basisfinanzierung dieser Buchveröffentlichung. Unser besonderer Dank schließlich gilt der VolkswagenStiftung, die durch ihre großzügige Mittelbewilligung diesen Band in dieser Form ermöglicht hat. Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht Stuttgart und Heidelberg, im Dezember 2017 Teil 1: Applikationen https://doi.org/10.1515/9783110523300-002 Jonas Kuhn Computerlinguistische Textanalyse in der Literaturwissenschaft? Oder: »The Importance of Being Earnest« bei quantitativen Untersuchungen Abstract: In its first part, this article gives some illustrative insights into the spec- trum of methods and model types from Computational Linguistics that one could in principle apply in the analysis of literary texts. The idea is to indicate the con- siderable potential that lies in a targ eted refinement and extension of the analysis procedures, as they have been typically developed for newspaper texts and other everyday texts. The second part is a personal assessment of some key challenges for the integration of working practices from Computational Linguistics and Lit- erary Studies, which ultimately leads to a plea for an approach that derives the validity of model-based empirical text analysis from the annotation of reference corpus data. This approach should make it possible, in perspective, to refine modeling techniques from Computational Linguistics in such a way that even complex hypotheses from Literary Theory can be addressed with differential, data-based experiments, which one should ideally be able to integrate into a her- meneutic argumentation Einleitung Die Computerlinguistik und die Sprachtechnologieforschung entwickeln ihre Modelle und Methoden überwiegend für Gebrauchstexte wie Zeitungsartikel, Produktbesprechungen auf Internetseiten, Forenbeiträge in den Sozialen Medien etc. Dennoch üben literarische Texte mit ihren vielfältigen Herausforderungen an die Textanalyse eine große Anziehungskraft auf Computerlinguistinnen und -lin- guisten aus und in den wichtigsten Publikationsorganen, den Tagungsbänden der großen Computerlinguistikkonferenzen, erscheinen seit vielen Jahren verein- zelt, aber immer wieder Beiträge zur Erweiterung von computerlinguistischen Analysemodellen, die auf Charakteristika literarischer Texte abzielen. 1 1 Vgl. u. a. David K. Elson, Nicholas Dames und Kathleen R. McKeown: »Extracting social net- works from literary fiction«, in: Proceedings of the 48th Annual Meeting of the Association for © 2018 Jonas Kuhn, publiziert von De Gruyter. Dieses Werk ist lizenziert unter der CreativeCommons Attribution-NonCommercial-NoDerivatives 4.0 International License. https://doi.org/10.1515/9783110523300-002 Jonas Kuhn Die wachsende Aufmerksamkeit für die Digital Humanities – nicht zuletzt dank der Förderinitiativen der letzten Jahre im deutschsprachigen Raum – hat das Interesse in der Computerlinguistik-Community für interdisziplinäre Zusam- menarbeit mit der Literaturwissenschaft weiter verstärkt. Wer sich in einer tech- nischen und vorwiegend methodenorientierten Disziplin auf einen Analysege- genstand aus einem anderen Fachkontext einlässt, tut dies in dem Bewusstsein bzw. in der sicheren Erwartung, dass die etablierten Analysemodelle stark ange- passt und erweitert werden müssen (beispielsweise um der Vielschichtigkeit eines Erzähltextes gerecht zu werden) und dass in der interdisziplinären Koope- ration die methodischen Grundannahmen aus den unterschiedlichen Fächerkul- turen sorgfältig herausgearbeitet und die gemeinsame Agenda entsprechend dif- ferenziert aufgesetzt werden muss. Der vorliegende Beitrag skizziert einerseits, wie die zu erwartenden Anpassungen des methodischen Vorgehens aus Sicht der Computerlinguistik aussehen, und wirft andererseits die Frage auf, ob und wie diese tatsächlich einen fruchtbaren Beitrag zu literaturwissenschaftlichen Kern- fragen leisten können – oder ob die Grundannahmen zur textanalytischen Praxis so stark divergieren, dass noch grundlegendere Anpassungen erforderlich wä- ren. Die Computerlinguistik kann auf lange, fruchtbare Kooperationserfahrungen mit der theoretischen Linguistik zurückblicken, aus der u. a. Praktiken des quan- titativ-korpuslinguistischen Arbeitens mit Werkzeugunterstützung (wie Part-of- Speech-Tagging , also automatische Auszeichnung von Wortarten) hervorgegan- gen sind. Hierfür waren und sind durchaus unterschiedliche Erkenntnisinteres- sen und Arbeitshypothesen abzustimmen – methodisch hat sich die Computer- linguistik in den letzten 20 bis 30 Jahren sehr weit von der Linguistik entfernt, es Computational Linguistics , ACL ’10. Stroudsburg, PA, USA, 2010 (Association for Computational Linguistics), S. 138–147; David Bamman, Ted Underwood und Noah A. Smith: »A Bayesian Mixed Effects Model of Literary Character«, in: Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics. Baltimore 2014, S. 370–379; Justine Kao und Daniel Jurafsky: »A Computational Analysis of Style, Affect, and Imagery in Contemporary Poetry«, in: Proceedings of the Workshop on Computational Linguistics for Literature ( Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technolo- gies, NAACL-HLT ), Montréal 2012, S. 8–17; Hardik Vala, David Jurgens, Andrew Piper und Derek Ruths: »Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets recognized: On the difficulty of detecting characters in literary texts«, in: Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing , hg. v. Association for Compu- tational Linguistics. Lisabon September 2015; Julian Brooke, Adam Hammond und Graeme Hirst: »Using Models of Lexical Style to Quantify Free Indirect Discourse in Modernist Fiction«, in: D ig- ital Scholarship in the Humanities (2016) Computerlinguistische Textanalyse in der Literaturwissenschaft? dominieren statistische Modelle der Sprachverarbeitung. Und so hat sich ein Be- wusstsein für einen methodischen Anpassungsbedarf in Abhängigkeit von lingu- istischer Beschreibungsebene – Phonologie, Morphologie, Syntax, Semantik, As- pekte der Pragmatik – und theoretischem Ansatz herausgebildet. Aus com- puterlinguistischer Sicht erscheint es naheliegend, die Kooperation mit Linguis- tinnen und Linguisten als paradigmatisch für einen Dialog zwischen der geistes- wissenschaftlichen Auseinandersetzung mit Sprache und Text und der komputa- tionellen Modellierung von Textanalyseprozessen generell zu betrachten. Der Übergang zu literarischen Texten lässt aus dieser Sicht sicherlich besondere Her- ausforderungen an die Analysetiefe und die Abstimmung des deskriptiven Be- griffsinventars erwarten, also einen intensiveren Anpassungsprozess, aber kei- nen grundsätzlich anders gearteten. In konkreten Überlegungen zu möglichen Kooperationen zwischen Literaturwissenschaft und Computerlinguistik erweist es sich jedoch nicht selten, dass die Herausforderungen weniger in einer schritt- weisen Erweiterung der vorhandenen Analysemodelle liegen, sondern vielmehr das hermeneutisch geprägte Grundverständnis auf der einen und das stark expe- rimentell-datenorientierte Vorgehen auf der anderen Seite selbst kooperations- freudige Partner zunächst vor grundsätzlichere Fragen stellen. Diese Situation und ein möglicher Ansatz für die Praxis sollen in diesem Aufsatz aus dem Blick- winkel eines Computerlinguisten mit Interesse an einer fundierten Erweiterung des textanalytischen Methodeninventars diskutiert werden. Teil 1 skizziert exemplarisch textanalytische Problemstellungen jenseits der etablierten linguistischen Analyseebenen, für die der Computerlinguistik ein In- ventar an Modellierungsverfahren zur Verfügung steht, welches sich grundsätz- lich um weitere Analyseebenen erweitern lässt. Das übliche Vorgehen besteht in einem Aufbrechen einer komplexeren Analyseaufgabe in Teilschritte, für die sich die jeweils beabsichtigte Kategorisierung von empirischen Texteigenschaften operationalisieren lassen, also auf Basis einer intersubjektiven Übereinstim- mung festgelegt werden können. Konkret wird anhand eines Beispiels aus Mark Twains Adventures of Tom Sawyer illustriert, welche oberflächenorientierten Analyseschritte erforderlich sind, um in Erzähltexten wörtliche Rede den Figuren zuzuordnen. Viele operationalisierte Analysemodelle lassen sich (i) für qualitative Frage- stellungen bei der Textanalyse einsetzen (und sicherlich auch für den Abgleich von literaturtheoretischen Hypothesen gegen die Empirie, also einen einzelnen Text oder eine kleine Auswahl von Werken); mit der Möglichkeit einer Automati- sierung bestimmter Teilanalysen erschließen sich jedoch – mit der nötigen me- thodenkritischen Reflexionsbereitschaft – vor allem auch Wege, (ii) ein größeres Korpus von Zieltexten hinsichtlich ausgewählter Eigenschaften systematisch zu Jonas Kuhn untersuchen, beispielsweise explorativ im Sinne des Distant Reading oder für Vergleichsstudien. Im Rahmen des vorliegenden Bandes liegt der Fokus auf (ii), also automatisierten Analyseschritten in der Aufbereitung von größeren Korpora für mögliche quantitative Fragestellungen. Eine computergestützte Identifika- tion und Zuordnung von Figurenrede in Mark Twains Huckleberry Finn soll bei- spielhaft verdeutlichen, wie der Einsatz von computerlinguistischen Analysemo- dellen es ermöglicht, ein größeres Textkorpus in einer feineren Granularität zu erschließen – hier für stilistische Untersuchungen zur Figurenrede – als dies mit gängigen quantitativen Verfahren möglich ist. Teil 2 soll etwas ausführlicher auf die eingangs angedeutete Problematik ein- gehen, die im weitesten Sinn wissenschaftstheoretisch bzw. -soziologisch ist: Trotz der großen Dynamik innerhalb der Fachcommunity der Digital Humanities , in der aus naheliegenden Gründen ein Ausloten von korpusorientierten Model- lierungsmöglichkeiten mit computerlinguistischen Verfahren methodologisch relevant ist, erscheinen Vertreter aus den »Kernbereichen« der Literaturwissen- schaften (sofern eine derartige Generalisierung überhaupt zulässig ist) vielfach reserviert, wenn es um die Frage geht, ob sie einer Argumentation folgen würden, die sich teils auf computerlinguistische Analysen stützt. Teil 2 spekuliert über Gründe für diese Reserviertheit (im Anschluss an einen Beitrag zur Methodendis- kussion des interdisziplinären Autorenteams Hammond/Brooke/Hirst 2013) und schließt Überlegungen an, ob und, wenn ja, wie sie auf breiterer Basis zu über- winden wäre. Diejenigen, die sich gegenüber computergestützten Verfahren in der Litera- turwissenschaft offen zeigen (und sie werden immer mehr und sind in der deutschsprachigen Digital Humanities -Community recht gut vernetzt), sehen sich einer – oft unübersichtlichen – Fülle von technischen Möglichkeiten gegenüber; mangels etablierter Arbeitspraktiken zur Integration von klassisch hermeneuti- schen Arbeitsschritten und formalisierten Analysemodellen ist zunächst unklar, wie sich geeignete Kombinationen methodenkritisch etablieren lassen und wie vermieden werden kann, dass Werkzeuge entgegen ihren Anwendungsbedin- gungen eingesetzt und so eine irreführende Pseudo-Objektivität erzeugt wird. Zu diesem Punkt argumentiert dieser Beitrag abschließend für sehr hohe Standards bei der Legitimation eines werkzeuggestützten Analyseschritts, wobei sich diese Standards durch eine Probe aufs Exempel etablieren lassen: Dabei wird die Ana- lyse des Untersuchungsgegenstandes durch die Analyse eines unabhängig anno- tierten »Referenzkorpus« gegengeprüft – unter Beachtung der Regeln der Kor- pusannotationspraxis, die auch (und gerade) in den Zuständigkeitsbereich hermeneutischer Praxis fallen sollten. Das Ausfindigmachen und die sorgfältige