Köp utan ångerrätt
Bild: Google/Scanpix
För något år sedan dök en arg man upp i en butik i Minneapolis, i den amerikanska delstaten Minnesota. Han krävde att få tala med föreståndaren.
När denne dök upp höll mannen fram några rabattkuponger från Target – den kedja som butiken tillhörde.
– Min dotter fick det här i posten! Försöker ni uppmuntra henne att bli gravid? sa han enligt en beskrivning av händelseförloppet som så småningom dök upp i landets tidningar.
Föreståndaren tittade på kupongerna. De gjorde reklam för mammakläder, barnrumsinredning och andra produkter som onekligen riktade sig till blivande föräldrar – inte till unga kvinnor som fortfarande gick i gymnasiet.
Så föreståndaren bad om ursäkt. Några dagar senare ringde han upp mannen för att än en gång berätta hur olyckligt utskicket var.
Då sa mannen att det var han själv som skulle be om ursäkt. Det hade visat sig att hans dotter var gravid. Target hade bara kommit på det före honom.
Hur gick det till? I just det här fallet är det svårt att veta exakt vilket köpbeteende som triggade Targets datorer att föra in den unga kvinnan i kategorin, men företaget hade just då ett forskningsprogram som gick ut på att hitta gravida kvinnor bland både potentiella och befintliga kunder.
Ett beteende som avslöjade kvinnorna kunde vara att de plötsligt bytte ut sin vanliga tvål mot en parfymfri variant, eller att de började köpa järntabletter.
På egen hand berättar beteendeförändringarna väldigt lite; många människor börjar plötsligt oroa sig för kemikalier, och fler än gravida upplever järnbrist. Men vid en sammanvägning av hundratals parametrar kan ett företag med hög träffsäkerhet sålla ut inte bara gravida kunder; de kan hitta allt från golfspelande trebarnsfäder till kostnadsmedvetna sportfiskare. Om man dessutom köper konsumentinformation från andra företag ökar möjligheterna.
Det här är en del av det som numera kallas »big data«. Det är ett begrepp som ännu inte fått en svensk översättning men som går ut på att samla in och processa stora mängder information i jakt på värdefulla samband.
Man brukar säga att »big data« slog igenom på allvar 2009, men skördandet av stora datamängder har pågått betydligt längre på olika håll i samhället: inom meteorologi, trafikforskning och börshandel. Inom politiken slog det igenom med George W Bushs återvalskampanj 2004 och förfinades till perfektion i förra årets val. Obamakampanjen satt då på hundratals datapunkter om varje väljare och på samma sätt som när Target hittade sin gravida tonåring kunde de politiska analytikerna sålla ut allt från homosexuella militärer till kristna vänstermänniskor – och anpassa budskapet efter mottagaren.
Så egentligen är det inte överraskande att de amerikanska underrättelsetjänsterna arbetar på samma sätt. Men få hade nog kunnat inse hur det gick till.
Det var i förra veckan som Washington Post och The Guardian släppte sin bomb. De två tidningarna hade inte samarbetat, men under lång tid arbetat med i stort sett samma sak.
Det började på torsdagen. Då avslöjade The Guardian att internet- och telefonbolaget Verizon dagligen hade gett säkerhetsmyndigheten National Security Agency uppgifter om sina kunders telefonsamtal. Inte själva innehållet i samtalen, utan så kallad »metadata« som telefonnummer, plats och tid för samtalen.
Och det var bara början. Dagen efter berättade Washington Post att National Security Agency (NSA) och FBI haft tillgång till serverinnehållet hos USA:s stora teknikföretag, däribland Google, Yahoo, Microsoft, Skype och Apple.
Programmet gick under namnet Prism och hade aldrig offentliggjorts tidigare.
Exakt hur informationsöverföringen mellan företagen och NSA ser ut är inte helt klarlagt. Företagen gick genast ut och förnekade alla uppgifter om att de skulle ha byggt en »bakdörr« för amerikanska regeringen att komma in och snoka i användarnas privata uppgifter. Men i ett dokument som Washington Post kom över beskrivs upplägget som att särskilda »collection managers« skickar instruktioner till datorutrustning som finns placerad på ett ställe som kontrolleras av företagen.
Därmed skulle NSA eller FBI inte ha direkttillgång till servrarna, men ändå väldigt långtgående befogenheter. Anledningen är omtolkningar och omskrivningar av amerikansk lag.
Avslöjande dokument. Edward Snowden, som jobbat på både CIA och NSA, överlämnade sekretessbelagda dokument om amerikanska myndigheters övervakning till medierna.
Efter 2007 års Protect America Act och 2008 års FISA Amendment Acts blev det lättare för privata företag att samarbeta med myndigheterna om datautlämning. Under samma tid – mellan 2004 och 2007 – började Bushadministrationen övertala federala domare att tillåta övervakning i nya former.
Innan dess hade myndigheter varit tvungna att visa att ett »mål« eller en »facility« sannolikt var inblandat i terrorism eller spionage.
Efter Bushadministrationens ansträngningar omdefinierades vad en »facility« var. Genom fyra nya domstolsbeslut stod det klart att även en stor datamängd kunde vara en »facility«. Därmed öppnades dörren för helt nya sätt att avlyssna människors kommunikation.
– Som jag tolkar det kan man till exempel söka utifrån en lista av ord i en viss del av världen, säger Sam Sundberg, författare med inriktning på teknik och internet.
Prism innebär en positionsframflyttning jämfört med tidigare metoder. Sedan lång tid har till exempel NSA särskilda »lyssningsposter« i kablar runtom i världen. Informationen bearbetas därefter i ett enormt nytt bergrum i Utah. Det är ett projekt som fått uppmärksamhet, men metoden är egentligen inte så väsensskild mot vad FRA, Försvarets radioanstalt, gör i Sverige. Att myndigheter däremot går in i servrar och skopar upp information eller urskillningslöst får tillgång till telefonregister är nytt.
Ur ett integritetsperspektiv är Prism alltså revolutionerande. Men för underrättelsetjänsterna själva är den bara en del av ett arbete som pågått länge. Så sent som i mars talade CIA:s teknikchef Gus Hunt på en tillställning i New York som hette Giga OM Structure Data Conference. Han lade då korten på bordet och förklarade vad de höll på med:
– Vi försöker samla allting och bevara det för evigt.
Sedan avslöjandena har Barack Obama varit under viss press, men de politiska konsekvenserna borde ändå bli begränsade. Bland båda partier i kongressen finns ett starkt stöd för de nya metoderna, och färska opinionsundersökningar visar att fler demokrater än republikaner tycker att Prism är okej.
Varför just Barack Obama – juridikläraren som var så skeptisk under Bushåren – utvidgat övervakningen av amerikaner och utlänningar är svårare att förklara. Det kortaste svaret är att det förmodligen inte har med honom att göra, utan med teknikutvecklingen.
Vid millennieskiftet var blott en fjärdedel av all världens information digital. Lite mer än tio år senare var det bara några få procent som inte var det. Samtidigt blev datorerna snabbare och algoritmerna bättre. Det skapade en teknologisk revolution.
»Data blev en råvara,« skriver Viktor Mayer-Schönberger och Kenneth Cukier, som skrivit boken »Big Data: A revolution that will transform the way we live, work and think«.
En omdebatterad egenskap hos »big data« är att man inte längre behöver en teori för att göra en analys. Det är en avgörande skillnad jämfört med traditionell vetenskap. En forskare som tidigare testat olika hypoteser mot en datamängd kan nu låta en dator på egen hand borra sig ner i statistik på jakt efter samband. Vad de sambanden beror på kan vara mindre viktigt. Ett exempel som Schönberger och Cukier nämner är att skicket på en begagnad bil har ett samband med vilken färg bilen har. Även om det är intressant att ta reda på varför är bara vetskapen om sambandet värdefull.
Det är en kritiserad utgångspunkt. Vissa statistiker menar att ett sådant angreppssätt endast producerar slumpmässiga och värdelösa samband som »Kalmar FF har inte förlorat på en regnig torsdag sedan 1936«.
Oavsett om »big data« håller vad det lovar är det förklarligt att underrättelsetjänster ger sig in i matchen. Det är också troligt att omfattningen är större än vad som bevisats. Washington Post och The Guardian har redan hittat två andra, hittills okända program – Blarney och Boundless Informant – som inte är lika kontroversiella men likt Prism sysslar med datainsamling i stor skala.
Att programmen redan är viktiga är tydligt. I NSA:s rapporter är Prism den viktigaste källan i ett av sju fall. Och i presidentens dagliga genomgångar citerades data från programmet 1 477 gånger förra året.
Förmodligen var det här en teknik som NSA, CIA och FBI ansåg att de inte kunde avvara. Inte när Wal-Mart, Ikea, Target och andra shoppingjättar redan använde den. Och inte när servrarna som tog hand om större delen av världens information bara stod där hos Google, Apple och Yahoo. I Kalifornien. På det amerikanska fastlandet. Det var ju bara att ta.
Det här var – som det stod i de läckta dokumenten – ett område där USA hade »hemmaplansfördel«.
Bakgrund |Big data – så används det
TV
Innan streamingtjänsten Netflix satsade pengar i produktionen av hyllade tv-serien »House of Cards« gav servrarnas konsumentdata råg i ryggen. Företaget kunde se att prenumeranterna gärna såg David Finchers filmer, verkade älska Kevin Spacey och dessutom gillade den brittiska originalserien. Men det är bara ett av många exempel. Varje dag skördas information från 30 miljoner videospelningar utifrån flera parametrar. Man analyserar till och med när tittarna brukar pausa.
Översättning
Tidiga översättningstjänster byggde på grammatiska regler. Google valde i stället ett statistiskt angreppssätt. Genom att samla enorma datamängder av översatta böcker och texter kan programmet se att meningen »det brinner i knutarna« på engelska ska översättas till »the urgency is growing«. Alla idiomatiska uttryck är inte helt korrekta än – men programmet förfinas.
Vindkraft
Att smälla upp ett vindkraftverk kräver enorma förberedelser. Det danska företaget Vestas har byggt upp en databas på 2,8 petabytes med bland annat data från 35 000 meteorologiska stationer. För att göra det lite mer komplicerat är den blåsigaste platsen dessutom inte alltid det mest lönsamma stället att sätta upp ett vindkraftverk på. Vestas planerar nu att utöka databasen till 20 petabyte.