Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

Carita Paradis

doi:10.5878/002925

Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

https://doi.org/10.5878/002925

I studien har man undersökt i vilken utsträckning språkanvändare är överens om vilka ståndpunkter som uttrycks i vardagligt språk eller om tolkningarna skiljer sig åt. För att utföra denna uppgift utvecklades ett omfattande kognitivt-funktionellt ramverk bestående av tio kategorier som representerade olika inställningar och som baserades på tidigare arbeten om talares uppfattning som finns i litteraturen. En korpus av åsiktsladdade texter, där talare tar ställning och positionerar sig, sammanställdes genom The Brexit Blog Corpus (BBC). Ett analytiskt gränssnitt för annoteringarna upprättades och data annoterades av två oberoende annotatorer. Annoteringsförfarandet, överenskommelsen om hur annoteringen skulle bedrivas och förekomsten av mer än en inställningskategori bland de studerade uttalandena finns beskrivna. Den noggranna analytiska annoteringsprocessen har hög utsträckning lett till tillfredsställande inter- och intra-annoteringar, vilket i den slutliga versionen av BBC resulterade i en guldstandardkorpus Syfte: Syftet med studien är att undersöka om det är möjligt att identifiera olika talares inställning i diskursen genom att tillhandahålla en analytisk resurs för detta och därefter utvärdera nivån av enighet mellan olika talare i diskursen. BBC är en samling av texter som hämtats från bloggar. Korpustexterna är tematiskt relaterade till den brittiska folkomröstningen 2016 som gällde huruvida Storbritannien borde förbli medlemmar i Europeiska unionen eller ej. Texterna extraherades från Internet under perioden juni till augusti 2015. Med Gavagai API (https://developer.gavagai.se) hittades texterna med hjälp av nyckelord som: Brexit, EU referendum, pro-Europe, europhiles, eurosceptics, United States of Europe, David Cameron, eller Downing Street. URL:erna som hämtades filtrerades så att endast engelska sidor som beskrivs som bloggar valdes. Varje nedladdad dokument delades upp i sententiella uttalanden, varav 2 200 uttalanden valdes slumpmässigt för analysen. Den slutliga storleken på korpusen är 1 682 uttalanden, 35 492 ord (169 762 tecken utan mellanslag). Varje uttalande innehåller mellan 3 och 40 ord med en medellängd på 21 ord. För dataannoteringsförloppet användes verktyget the Active Learning and Visual Analytics (ALVA) (https://doi.org/10.1145/3132169 och https://doi.org/10.2312/eurp.20161139). Två annotatorer, varav den ena är en professionell översättare med licentiatexamen i engelsk lingvistik och den andra har en doktorsexamen i beräkningslingvistik, utförde annoteringarna oberoende av varandra. Datasetet kan laddas ned i två olika format: antingen som Excel-fil eller i ett rådatabasformat (ZIP-arkiv) som kan vara användbart för analytiska ändamål och maskininlärning, till exempel med Python-biblioteket scikit-learn. Excel-filen innehåller ytterligare en variabel (utterance word length). ZIP-arkivet innehåller en uppsättning kataloger (t.ex. "contrariety" och "prediction") som motsvarar inställningskategorierna. Inuti varje sådan katalog finns två kataloger som motsvarar annoteringar som tilldelar eller inte tilldelar respektive kategori som uttalanden (t.ex. inom den överliggande kategorin "prediction" finns det två underliggande kataloger, där den ena heter "prediction" och innehåller uttalanden som märkts med denna kategori, och "no" som innehåller resterande uttalanden). Inne i katalogerna finns det textfiler som innehåller individuella uttalanden. Vid användande av data från den här studien önskar primärforskaren att citering också görs till publikationen: Vasiliki Simaki, Carita Paradis, Maria Skeppstedt, Magnus Sahlgren, Kostiantyn Kucher, and Andreas Kerren. Annotating speaker stance in discourse: the Brexit Blog Corpus. In Corpus Linguistics and Linguistic Theory, 2017. De Gruyter, published electronically before print. https://doi.org/10.1515/cllt-2016-0060

Citering och åtkomst

Tillgänglighetsnivå:

Data är fritt tillgängliga

Skapare/primärforskare:

Forskningshuvudman:

Linnéuniversitetet
Öppnar nytt fönster hos ror.org.
RORÖppnas i en ny tabb

Citering:

Språk:

Engelska

Metod och utfall

Datainsamling

Administrativ information

Ämnesområde och nyckelord

Relationer

Publikationer

Kontakt

Andreas Kerrenandreas.kerren@lnu.se

Metadata

Version 1.0

Linnéuniversitetet

Annotating speaker stance in discourse: the Brexit Blog Corpus (BBC)

Citering och åtkomst

Tillgänglighetsnivå:

Skapare/primärforskare:

Forskningshuvudman:

Citering:

Språk:

Metod och utfall

Analysenhet:

Tidsperiod(er) som undersökts:

Variabler:

Antal individer/objekt:

Dataformat/datastruktur:

Datainsamling

Tidsperiod(er) för datainsamling:

Datakälla:

Administrativ information

Ansvarig institution/enhet:

Finansiering

Finansiär:

Referensnummer:

Ämnesområde och nyckelord

CESSDA Topic Classification:

Standard för svensk indelning av forskningsämnen 2025:

Nyckelord:

Relationer

Hemsida:

Publikationer

Citering:

Kontakt

Metadata

Kontakt

Metadata