Browsing by Subject "Reddit"
Now showing items 1-5 of 5
-
(2020)In the past two decades, an increasing amount of discussions are held via online platforms such as Facebook or Reddit. The most common form of disruption of these discussions are trolls. Traditional trolls try to digress the discussion into a nonconstructive argument. One strategy to achieve this is to give asymmetric responses, responses that don’t follow the conventional patterns. In this thesis we propose a modern machine learning NLP method called ULMFiT to automatically detect the discourse acts of online forum posts in order to detect these conversational patterns. ULMFiT finetunes the language model before training its classifier in order to create a more accurate language representation of the domain language. This task of discourse act recognition is unique since it attempts to classify the pragmatic role of each post within a conversation compared to the functional role which is related to tasks such as question-answer retrieval, sentiment analysis, or sarcasm detection. Furthermore, most discourse act recognition research has been focused on synchronous conversations where all parties can directly interact with each other while this thesis looks at asynchronous online conversations. Trained on a dataset of Reddit discussions, the proposed model achieves a matthew’s correlation coefficient of 0.605 and an F1-score of 0.69 to predict the discourse acts. Other experiments also show that this model is effective at question-answer classification as well as showing that language model fine-tuning has a positive effect on both classification performance along with the required size of the training data. These results could be beneficial for current trolling detection systems.
-
(2016)Internetin kielen tutkimus on lisääntynyt voimakkaasti viime vuosina, mutta internetgenret ovat silti edelleen laajalti tutkimattomia. Vaikka sosiaalisen median alustat kuten Twitter ja Facebook ovat saaneet jonkin verran huomiota, monet sivustot ja näkökulmat ovat vielä käymättä läpi. Tutkin pro gradussani Redditin sisäistä rekisterivaihtelua käyttämällä Douglas Biberin kehittämää multidimensionaalista menetelmää. Tavoitteenani on arvioida Biberin menetelmän soveltuvuutta Redditin rekisteritutkimuksen välineenä ja selvittää, millaisia rekisterivaihtelun ulottuvuuksia Redditissä on. Rekisterillä tarkoitetaan Biberin määritelmän mukaisesti tilanteen vaatimusten perusteella valittua kielen varieteettia. Tilanteen vaatimuksiin sisältyvät mm. tekstin tarkoitus, vuorovaikutteisuus, olosuhteet tai osanottajien välinen suhde. Douglas Biberin multidimensionaalinen menetelmä on määrällis-laadullinen tapa tutkia tekstikorpuksen sisällä tekstien välillä esiintyvää rekisterivaihtelua. Kustakin tekstistä lasketaan esiintymistaajuudet suurelle määrälle kielenpiirteitä. Tämän jälkeen tilastollisia menetelmiä (tarkemmin sanottuna faktorianalyysiä) käyttämällä löydetään piirteitä, joiden taajuudet kasvavat ja pienenevät yhdessä. Tällaisilla yhteen kuuluvilla piirteillä tulkitaan olevan yhteinen kommunikatiivinen funktio eli kommunikatiivinen syy, jonka vuoksi niillä on tapana esiintyä yhdessä, ja niiden määrässä havaittavien muutosten katsotaan ilmentävän tekstien erilaista sijoittumista piirreryhmien taustalla olevilla rekisteriulottuvuuksilla. Näin löydetyt rekisteriulottuvuudet nimetään lopuksi niiden kommunikatiivisten funktioiden mukaan. Reddit on pääasiassa englanninkielinen sosiaalisen median sivusto, joka koostuu tuhansista niin kutsutuista subredditeistä. Kuka tahansa voi perustaa uuden subredditin, joten Redditin subredditit käsittelevät kaikkia kuviteltavissa olevia aiheita ja teemoja eri näkökulmista. Käsittelen tutkimuksessani 37 subredditiä, joista keräsin itse kirjoittamallani tietokoneohjelmalla automaattisesti viestejä ja niiden kommentit yhden kuukauden aikana kesäkuussa 2015. Keräämäni aineisto sisältää 34 402 viestiä kommentteineen. Pääasiassa keskityin kuitenkin viesteihin, joiden kokonaissanamäärä oli 400 tai suurempi. Tällaisia viestejä aineistossani on 10 594 kappaletta, ja niiden yhteissanamäärä on lähes 17,5 miljoonaa sanaa. Tutkimukseni perusteella tutkimissani subredditeissä on kolme yleistä rekisteriulottuvuutta, joilla viestit liikkuvat: “henkilöfokus tai faktuaalinen fokus”, “informatiivinen tai osallistuva tyyli” ja “nykyhetken abstrakti tai menneen ajan narratiivinen fokus”. Näistä ainakin toinen ja kolmas ulottuvuus vastaavat hyvin Douglas Biberin myöhemmin esittämiä universaaleja rekisteriulottuvuuksia. Multidimensionaalinen menetelmä soveltuu Redditin (ja siten mahdollisesti muunkin sosiaalisen median) rekisteritutkimuksen välineeksi, mutta hienojakoisempi rekisterivaihtelun tarkastelu vaatinee menetelmän edelleen kehittelyä, sillä esimerkiksi yksittäisiä kommentteja tarkastellessa tekstin lyhyys tekee normalisoiduista taajuuksista nopeasti merkityksettömiä.
-
(2016)Internetin kielen tutkimus on lisääntynyt voimakkaasti viime vuosina, mutta internetgenret ovat silti edelleen laajalti tutkimattomia. Vaikka sosiaalisen median alustat kuten Twitter ja Facebook ovat saaneet jonkin verran huomiota, monet sivustot ja näkökulmat ovat vielä käymättä läpi. Tutkin pro gradussani Redditin sisäistä rekisterivaihtelua käyttämällä Douglas Biberin kehittämää multidimensionaalista menetelmää. Tavoitteenani on arvioida Biberin menetelmän soveltuvuutta Redditin rekisteritutkimuksen välineenä ja selvittää, millaisia rekisterivaihtelun ulottuvuuksia Redditissä on. Rekisterillä tarkoitetaan Biberin määritelmän mukaisesti tilanteen vaatimusten perusteella valittua kielen varieteettia. Tilanteen vaatimuksiin sisältyvät mm. tekstin tarkoitus, vuorovaikutteisuus, olosuhteet tai osanottajien välinen suhde. Douglas Biberin multidimensionaalinen menetelmä on määrällis-laadullinen tapa tutkia tekstikorpuksen sisällä tekstien välillä esiintyvää rekisterivaihtelua. Kustakin tekstistä lasketaan esiintymistaajuudet suurelle määrälle kielenpiirteitä. Tämän jälkeen tilastollisia menetelmiä (tarkemmin sanottuna faktorianalyysiä) käyttämällä löydetään piirteitä, joiden taajuudet kasvavat ja pienenevät yhdessä. Tällaisilla yhteen kuuluvilla piirteillä tulkitaan olevan yhteinen kommunikatiivinen funktio eli kommunikatiivinen syy, jonka vuoksi niillä on tapana esiintyä yhdessä, ja niiden määrässä havaittavien muutosten katsotaan ilmentävän tekstien erilaista sijoittumista piirreryhmien taustalla olevilla rekisteriulottuvuuksilla. Näin löydetyt rekisteriulottuvuudet nimetään lopuksi niiden kommunikatiivisten funktioiden mukaan. Reddit on pääasiassa englanninkielinen sosiaalisen median sivusto, joka koostuu tuhansista niin kutsutuista subredditeistä. Kuka tahansa voi perustaa uuden subredditin, joten Redditin subredditit käsittelevät kaikkia kuviteltavissa olevia aiheita ja teemoja eri näkökulmista. Käsittelen tutkimuksessani 37 subredditiä, joista keräsin itse kirjoittamallani tietokoneohjelmalla automaattisesti viestejä ja niiden kommentit yhden kuukauden aikana kesäkuussa 2015. Keräämäni aineisto sisältää 34 402 viestiä kommentteineen. Pääasiassa keskityin kuitenkin viesteihin, joiden kokonaissanamäärä oli 400 tai suurempi. Tällaisia viestejä aineistossani on 10 594 kappaletta, ja niiden yhteissanamäärä on lähes 17,5 miljoonaa sanaa. Tutkimukseni perusteella tutkimissani subredditeissä on kolme yleistä rekisteriulottuvuutta, joilla viestit liikkuvat: “henkilöfokus tai faktuaalinen fokus”, “informatiivinen tai osallistuva tyyli” ja “nykyhetken abstrakti tai menneen ajan narratiivinen fokus”. Näistä ainakin toinen ja kolmas ulottuvuus vastaavat hyvin Douglas Biberin myöhemmin esittämiä universaaleja rekisteriulottuvuuksia. Multidimensionaalinen menetelmä soveltuu Redditin (ja siten mahdollisesti muunkin sosiaalisen median) rekisteritutkimuksen välineeksi, mutta hienojakoisempi rekisterivaihtelun tarkastelu vaatinee menetelmän edelleen kehittelyä, sillä esimerkiksi yksittäisiä kommentteja tarkastellessa tekstin lyhyys tekee normalisoiduista taajuuksista nopeasti merkityksettömiä.
-
(2024)This thesis discusses and analyses Japanese pop idol group fan communities’ language and group identity on Reddit. The purpose of the study is to find out what kind of language the community members use and for what purposes, and what it tells us about online fan community practices and dynamics. The data sources are five different subreddits: r/AKB48, r/Nogizaka46, r/Keyakizaka46, r/Sakurazaka46, and r/Hinatazaka. These were chosen since globally J-pop is not as represented as K-pop (Korean pop), therefore there is not as much research on the fan practices and communities, even though global J-pop fan communities are active and form their own culture online. The study was conducted by utilising mixed methods: text analysis and corpus tools of Sketch Engine, as well as discourse analysis of the Reddit posts and their comments in context. It was found that J-pop idol subreddit members use multiple language features to build group identity and to express themselves as fans; these features include the use of different pronouns and community-specific vocabulary and terms. Through the analysis it was discovered that in smaller subreddits the use of in-group language such as the pronoun we is more prevalent, and that the community members aim to build a sense of community and contribute positively as members and fans; it was also found that buying merchandise and consuming products related to the idol groups is not a significant part of being a fan in these subreddits, when looking at top posts of all time. The fan community members use the Reddit platforms to discuss, share emotions, encourage, and support both idol groups and their fellow fan community members.
-
(2024)This thesis discusses and analyses Japanese pop idol group fan communities’ language and group identity on Reddit. The purpose of the study is to find out what kind of language the community members use and for what purposes, and what it tells us about online fan community practices and dynamics. The data sources are five different subreddits: r/AKB48, r/Nogizaka46, r/Keyakizaka46, r/Sakurazaka46, and r/Hinatazaka. These were chosen since globally J-pop is not as represented as K-pop (Korean pop), therefore there is not as much research on the fan practices and communities, even though global J-pop fan communities are active and form their own culture online. The study was conducted by utilising mixed methods: text analysis and corpus tools of Sketch Engine, as well as discourse analysis of the Reddit posts and their comments in context. It was found that J-pop idol subreddit members use multiple language features to build group identity and to express themselves as fans; these features include the use of different pronouns and community-specific vocabulary and terms. Through the analysis it was discovered that in smaller subreddits the use of in-group language such as the pronoun we is more prevalent, and that the community members aim to build a sense of community and contribute positively as members and fans; it was also found that buying merchandise and consuming products related to the idol groups is not a significant part of being a fan in these subreddits, when looking at top posts of all time. The fan community members use the Reddit platforms to discuss, share emotions, encourage, and support both idol groups and their fellow fan community members.
Now showing items 1-5 of 5