title: Digital Humaniora og Humanistiske Data (Workshop: Automatiseret Tekst Analyse)
place: Nobelparken, bygning 1453, lokale 415, Jens Chr. Skous Vej.
time: Februar 9, 2017.
instructor: Kristoffer L. Nielbo (KLN)
contact: kln@cas.au.dk
link: https://github.com/kln-courses/text_scholarkl. 9.00-10.30
Digital Humaniora (DH) omhandler computing og digitalisering indenfor de humanistiske domæner. To markante trends indenfor DH er Computational Humanities og DH 2.0, som har fokuseret på at hhv. at anvende eller at analysere computing og digitalisering. På baggrund af datavidenskabens success, har man på det seneste set en tredje trend, humanities data, som arbejder med af forbinde humanistiske domænekompetencer indenfor sprog og kultur med såkaldte dataintensive metoder (fx., metoder tilpasset store tekstsamlinger). Dette modul introducerer DH med særligt fokus på tekstanalyse baseret på humanities data.
kl. 10.50-14.30
Automatiseret tekstanalyse dækker over teknikker til at finde mønstre i ustrukturerede og teksttunge data. Teknikker baseret på statistisk læring (el. maskinlæring) giver en række muligheder for at træne modeller, der kan annotere, opsummere og udforske store tekstsamlinger. I denne workshop gennemgås eksempler på hvordan simple scripting sprog kan implementere sådanne teknikker.
kl. 10.50-12.30
kl. 13.30-14.30
sentiment analysis
Nielsen, F. Årup. (2011). A new ANEW: Evaluation of a word list for sentiment analysis in microblogs. arXiv Preprint arXiv:1103.2903.
Usuperviseret maskinlæring
Tangherlini, T. R., & Leonard, P. (2013). Trawling in the Sea of the Great Unread: Sub-corpus topic modeling and Humanities research. Poetics, 41(6), 725–749.
Superviseret maskinlæring
Underwood, T. (2016). The Life Cycles of Genres. Journal of Culture Analytics.
Deltagere vil have fordel at at installere enten R eller Python, men det er ikke obligatorisk. For nemheds skyld brug RStudio (R IDE) eller Anaconda (Python distribution).