Etikettarkiv: Big data

Litterära termer 42: distant reading/fjärrläsning

morettiKöp

”Algorithms might be poor at grasping context, but they excel at sifting through large amounts of data. This means they’re well-suited to what Franco Moretti at the Stanford Literary Lab calls distant reading – a zoomed-out, macroscopic literary analysis of hundreds, sometimes thousands, of texts. By crunching through this ‘big data’, Moretti and his followers hope to discover aspects of literature that are invisible to scholars who go about merely reading books.”

Citerat ur ”When robots read books” av Inderjeet Mani i aeon magazine. Uttrycket ”som bara läser böcker” är lite lustigt.

Ola Wihlke

Lämna en kommentar

Under Litterära termer

Big data, Bigger data

”As with the similarly inferential sciences like evolutionary psychology and pop-neuroscience, Big Data can be used to give any chosen hypothesis a veneer of science and the unearned authority of numbers. The data is big enough to entertain any story. Big Data has thus spawned an entire industry (‘predictive analytics’) as well as reams of academic, corporate, and governmental research; it has also sparked the rise of ‘data journalism’ like that of FiveThirtyEight, Vox, and the other multiplying explainer sites.”

Citerat ur ”View From Nowhere – On the cultural Ideology of Big Data” av Nathan Jurgenson i The New Inquiry. En väldigt bra essä om Big Data, om rötterna i positivismen och om ideologin.

O.W.

Lämna en kommentar

Under Artiklar

Big Data, Big Bucks

NYPL

NYPL

Under de senaste decennierna har humaniora haft ganska svårt att hävdas sig i kampen med andra discipliner om livsviktig finansiering. Men så dök Big Data upp som en begrepp för något tiotal år sedan och ingav nytt hopp – med hjälp av datorers superkraft och enorma ansamlingar data, som Googles inskannade böcker, skulle humaniora få det nya verktyg det så väl behövde.

Är Big Data räddningen för humaniora? Säkert, om man tror att räddningen är förmågan att samla in och analysera enorma mängder data. Verktyget Ngram Viewer kan man onekligen ha mycket roligt med, men kan Big Data hjälpa oss att förstå något nytt, som vi inte redan visste? Mark O’Connell i New Yorker är skeptisk: ”Bright Lights, Big Data”. Och det är Joshua Rothman i samma tidskrift: ”An Attempt to Discover the Laws of Literature”. Franco Moretti och hans Distand Reading är nog inte lösningen på litteraturvetenskapens och humanioras grundläggande problem.

Ola Wihlke

Lämna en kommentar

Under Artiklar

Så knäckte forskarna bestsellerkoden

Flertalet författare och förläggare skulle med största sannolikhet inte ha något emot om man på förhand skulle kunna avgöra om en bok blir en flopp eller succé. För en tid sedan presenterade ett forskarlag i USA en studie som pekar i riktning mot att det ska gå att ordna inom en inte helt avlägsen framtid. Forskarna lade fram sina resultat i ”Success with Style: Using Writing Style to Predict the Success of Novels.

Photo credit: Wikipedia

Berättar en av de tre forskarna, Yejin Choi: ”We examined the quantitative connection between writing style and successful literature. Based on novels across different genres, we investigated the predictive power of statistical stylometry in discriminating successful literary works, and identified the stylistic elements that are more prominent in successful writings.”

Och i pressmeddelandet reds begreppen ut: ”Statistical stylometry is the statistical analysis of variations in literary style between one writer or genre and another. The study reports, for the first time, that the discipline can be effective in distinguishing highly successful literature from its less successful counterpart, achieving accuracy rates as high as 84%.”

Det är en sak att i efterhand vaska fram vilka romaner som varit framgångsrika, men det är oerhört många saker som ska klaffa för att en bok ska bli en succé, som tur och tajming till exempel. Och så kan det vara behändigt med en skicklig redaktör och en bra förläggare. Bra marknadsföring. Välvilliga recensenter.

Men vad var det som skiljde de framgångsrika böckerna och de inte fullt så framgångsrika böckerna åt? Det liknar mer kuckelimuck-medicin än något i stil med ett framgångsrecept:

”For example, the research indicated that more successful books make more frequent use of discourse connectives (conjunctions such as ”and”, ”but”, ”or”) to join sentences and prepositions. Prepositions, nouns, pronouns, determiners (words that precede nouns to indicate whether the noun is specific or general, e.g. ”your letter”), and adjectives are also predictive of highly successful books. Less successful books are characterized by a higher percentage of verbs, adverbs, and foreign words. They also rely more on topical words that could be almost cliché (”love”), typical locations, and extreme (”breathless”) and negative (”bruised”) words.”

Det är svårt att tänka sig att författare, som kanske skrivit fyra fem böcker redan, skulle kunna ha någon större nytta av att känna till de här syntaktiska och stilistiska skillnaderna. Författare blir knappast framgångsrika för att de använder ”och”, ”men” och ”eller” lagom ofta. Det kanske hjälper, men kreativitet och fantasi är mer avgörande. Vem som helst svänger  inte ihop en berättelse om Hogwarts, Gregor Samsa eller Raskolnikov. Och hur många främmande ord finns det inte i Harry Potter-böckerna?

Men det märkligaste är några av de andra resultaten, som också är lite kontraintuitiva:

”We made an unexpected observation on the connection between readability and the literary success—that they correlate into the opposite directions,” säger Choi. Och påpekar snabbt att dessa resultat endast pekar på en korrelation, inte kausalitet, och lägger sedan till: ”We conjecture that the conceptual complexity of highly successful literary work might require syntactic complexity that goes against readability.”

O.W.

Lämna en kommentar

Under Artiklar

Essä: ”Death by data: how Kafkas The Trial prefigured the nightmare of the modern surveillance state” av Reiner Stach

”Kafka was the first author to understand what it means when people are turned into statistical entities and when every move they make is compiled as data. For Kafka, the problem was not the machine – bureaucracy itself is blameless; it is not an active agent. The blame is ours. We are the ones checking the boxes, sharing our photographs and forgetting to delete.”

Citerat ur ”Death by data” i New Statesman, 16 januari, 2014. Reiner Stach argumenterar för att vår belägenhet är kafkaartad, snarare än orwellsk. I likhet med Kafka själv ser han inte Josef K, huvudperson i Processen, bara som ett offer för en anonym allseende byråkrati.

Det samma gäller oss. Vi blir utsatta för allt mer övervakning, men vi ger också frivilligt upp allt mer av våra privatliv, exempelvis till Facebook och Google.

O.W.

Lämna en kommentar

Under Artiklar, Citat

Verklighetens ekonomiska elände, efter 10 år dyker det upp i litteraturen

Häromdagen publicerades en studie av ett brittisk forskarteam i tidskriften PLOS ONE. Forskarna har kunnat påvisa en stark korrelation mellan en böckers ”literary misery index”, som bestäms av frekvensen av ord som ”anger”, ”fear”, ”sadness” och ”disgust”, och ett economic misery index, som bestäms av arbetslöshetssiffror och inflation, i USA eller Storbritannien tio år innan bokens publicering.

Apropå graferna man fick fram av studien, som bygger på ungefär fem miljoner digitaliserade böcker utgivna under 1900-talet, sa Alex Bentley, studiens huvudförfattare, i ett pressmeddelande: ”It looked like Western economic history, but just shifted forward by a decade.”

Variationen och förekomsten av eländiga ord respektive positiva ord var lätt att få fram eftersom varenda ord i de här böckerna var katalogiserade. Forskarnas analys visade att det literära eländet stod på topp under 40-talet, efter den stora depressionen, varpå den gick ned under 50-talet och sedan gick upp något under 70- och 80-talet.

Det är lite förbryllande att eländet sipprar in så långsamt i litteraturen, med en ofta tio år lång fördröjning, men det har forskarna naturligtvis också tänkt på. För det första tar det tid att skriva en bok, så en bok påbörjad under 30-talets depression kanske publicerades först följande decennium. ”Perhaps this ‘decade effect’ reflects the gap between childhood when strong memories are formed, and early  adulthood, when authors may begin writing books,” resonerade Bentley. ”Consider for  example, the dramatic increase of literary misery in the 1980s, which follows  the ‘stagflation’ of the 1970s. Children from this generation who became authors  would have begun writing in the 1980s.”

Det är svårt att påstå att de här forskningsresultaten – man gjorde även en mindre studie på tysk litteratur som visade samma resultat – är direkt häpnadsväckande. Till och med författare tvingas ju leva i den ekonomiska verkligheten, även om de ibland anklagas för att vara värdsfrånvända. Det kanske skulle bli intressant om man bröt ned det undersökta  materialet i olika genrer eller tittade på lyrik och prosa för sig? Eller inte.

Vi får kanske vänja oss vid tanken på ännu fler postapokalyptiska dystopier det här decenniet, haveriet 2008 ligger ju inte så långt tillbaka i tiden, men reagerar inte dagens författare mycket snabbare? Efter 11 september tog det inte lång tid innan fiktionen på olika sätt behandlade terror i allmänhet och terrorattackerna mot USA i synnerhet. Allt kanske inte går fortare och fortare, men just i det här fallet verkar det vara så. Undersökningen handlade visserligen om korrelationen med underliggande ekonomiska faktorer, men tio år låter ändå som en lång reaktionstid.

Ola Wihlke

Lämna en kommentar

Under Artiklar, Nyheter

e-böcker som registrerar hur du läser

Föreställ dig att du är författare. Skulle du vilja veta i detalj hur dina böcker läses? Skulle du vilja veta sånt som om dina läsare skummar vissa partier och läser andra långsamt eller om de hoppar över vissa kapitel och om de ens läser färdigt böckerna?

Flera nystartade amerikanska företag samlar in den här typen av information om läsarnas beteende. Amazon och Barnes & Noble har gjort det länge med hjälp av sina läsplattor, men den informationen behandlas som affärshemligheter. Företag som Oyster, Scribd och Entitle har däremot, berättar en artikel i New York Times, för avsikt att tjäna pengar på den information man samlar in. Författare ser ut som den mest naturliga målgruppen.

Mot en fast månadsavgift på ungefär 10 dollar får man av de här företagen tillgång till ungefär 100.000 olika e-böcker, och så länge man är prenumerant får man läsa hur många titlar man vill. Det ser ut som en riktigt bra deal för prenumeranterna, men de bjussar alltså företagen på information om hur de läser.

Artikeln är lite vag, men ämnet är onekligen fantasieggande. Tänk om en majoritet av alla författare började skriva mer i enlighet med detaljerad feedback från sina läsare. Det troliga är väl att det skulle leda till en mer strömlinjeformad litteratur? Eller till den ultimata romanen?

Scribd har precis börjat analysera den data man samlat in från sina läsare. Resultaten är både väntade och lite överraskande:

The longer a mystery novel is, the more likely readers are to jump to the end to see who done it. People are more likely to finish biographies  than business titles, but a chapter of a yoga book is all they need. They speed through romances faster than religious titles, and erotica fastest of all.

Data från Oysters läsare visar att det är 25% större sannolikhet att en bok blir läst till slutet om den är indelad i kortare kapitel. Man tycker att utvecklingen borde gynna novellen, men det kanske bara är önsketänkande.

Förlagsbranschen är, än så länge, inte eld och lågor:

Before writers will broadly be able to use data, the services must become viable by making deals with publishers to supply books. Publishers, however, are suspicious of yet another disruption to their business. HarperCollins has signed up with Oyster and Scribd, but Penguin Random House and Simon & Schuster have thus far stayed away.

Och alla undrar, naturligtvis, vad Amazon tänker göra. Gissningsvis har marknadens enda supermakt råd att köpa både Oyster, Scribd och Entitle. Eller kanske troligare, köp av ett av företagen och sedan sänka de två andra med oslagbara priser.

Mer på samma tema: ”Big data’s next frontier: Crowd-testing fiction” av Laura Miller i Salon, 9 januari, 2014

Ola Wihlke

Lämna en kommentar

Under Artiklar, Nyheter