Evolucija statističkih metoda u društvenim znanostima: od deskriptivne statistike do računalne inteligencije (I dio)
Transformacija statističkih metoda u društvenim znanostima predstavlja jednu od najznačajnijih metodoloških revolucija u akademskom istraživanju tijekom posljednjih 175 godina. Počevši s rudimentarnom deskriptivnom statistikom i jednostavnim anketama iz sredine devetnaestog stoljeća, područje je evolviralo kroz jasno razgraničene razvojne faze, dosegnuvši današnje sofisticirane računalne analize koje pokreće umjetna inteligencija i veliki podaci. Ova evolucija ne odražava samo tehnološki napredak, već i fundamentalnu promjenu u načinu na koji istraživači konceptualiziraju istraživanja, prikupljaju podatke i analiziraju društvene fenomene, odnosno odražava prelazak od osnovnih numeričkih sažetaka prema složenim prediktivnim modelima sposobnima procesuirati velike količine podataka u stvarnom vremenu.
Temelji: epoha tradicionalne statistike (1850.-1960.)
Pionirski doprinosi i rani metodološki razvoj
Temelji moderne statistike društvenih znanosti nastali su sredinom devetnaestog stoljeća kroz pionirski rad nekoliko ključnih figura koje su uspostavile konceptualni okvir za kvantitativnu analizu društvenih pojava. Adolphe Quetelet, koji se često smatra ocem društvene statistike, revolucionirao je područje društvenih istraživanja 1830-ih i 1840-ih godina uvođenjem koncepta “društvene fizike” i primjenom statističkih principa na društvene fenomene. Queteletov rad predstavljao je paradigmatski pomak od čisto deskriptivnih pristupa prema sistematičnoj kvantitativnoj analizi društvenog ponašanja, postavivši temelje za ono što će postati moderna metodologija društvenih znanosti. Počevši od 1853. godine organizirao je prve međunarodne statističke kongrese stvarajući globalnu mrežu statističara i standardizirajući metodološke pristupe. Njegove reforme belgijske statistike iz 1840-ih postale su model drugim europskim zemljama. Koncept “l’homme moyen” (prosječni čovjek) kojeg je Quetelet uveo pružio je statistički okvir za razumijevanje populacijskih karakteristika i društvenih fenomena utječući tako na buduća istraživanja u društvenim znanostima.
Adolphe Quetelet

Izvor: https://commons.wikimedia.org/wiki/File:Adolphe_Qu%C3%A9telet_by_Joseph-Arnold_Demannez.jpg
Matematički temelji postavljeni tijekom tog razdoblja pokazali su se izuzetno trajnima. Razvoj korelacijske i regresijske analize krajem 19. stoljeća od strane Francisa Galtona pružio je važne alate za ispitivanje odnosa između varijabli. Njegov rad na nasljeđivanju i ljudskim karakteristikama uveo je statističke koncepte koji ostaju ključni za moderne društvene znanosti, uključujući koeficijent korelacije i regresiju prema prosjeku[1]. Galtonova suradnja s matematičarima i sistemski pristup prikupljanju podataka uspostavili su metodološke standarde koji su utjecali na generacije istraživača koje su uslijedile.
Karl Pearson dodatno je formalizirao ove statističke temelje kroz razvoj Hi-kvadrat (χ²) testa i sveobuhvatnog matematičkog okvira za statističku analizu. Pearsonovim osnivanjem prvog sveučilišnog odjela za statistiku na svijetu na University College London 1911. godine, statistika se institucionalizirala kao akademska disciplina te se stvorio model statističkog obrazovanja koji se globalno proširio. Njegovi doprinosi korelacijskoj analizi, testiranju hipoteza i statističkoj teoriji odlučivanja stvorili su matematičku infrastrukturu koja je podržavala istraživanja u društvenim znanostima tijekom cijelog 20. stoljeća.
Karl Pearson

Izvor: https://commons.wikimedia.org/wiki/File:Karl_Pearson,_1910_(cropped).jpg
Značaj ovih pionirskih doprinosa postaje još jasniji kada razmotrimo kako su postavili temelje za sve kasnije metodološke inovacije. Bez Galtonovih uvida u korelaciju i Pearsonovih formalnih matematičkih okvira, napredak prema današnjim složenim analitičkim tehnikama bio bi nezamisliv. Ovi pioniri statistike nisu samo razvili statističke alate nego i oblikovali način na koji društvene znanosti pristupaju empirijskim podacima i znanstvenoj verifikaciji.
Metodološka standardizacija i razvoj anketnih istraživanja
U razdoblju od 1900. do 1950. godine došlo je do značajnog napretka u razvoju metode ankete i razvoju tehnika uzorkovanja. Razvoj metoda probabilističkog uzorkovanja pružio je rigorozan temelj za statističko zaključivanje s uzorka na populaciju. Ove metodološke inovacije odgovorile su na fundamentalna pitanja o reprezentativnosti i statističkoj valjanosti koja su mučila ranije deskriptivne pristupe.
Ronald Fisher doprinio je eksperimentalnom dizajnu i statističkom zaključivanju uspostavom teoretskog okvira za moderno testiranje statističkih hipoteza. Fisherov rad demonstrirao je praktične primjene statističkih metoda u stvarnom kontekstu, dok je njegov razvoj analize varijance (ANOVA) i procjene najveće vjerojatnosti ponudio alat za ispitivanje složenih odnosa u društvenim podacima. Računalni strojevi koje je Fisher uveo predstavljali su rane pokušaje mehanizacije statističkog računanja, nagoviještajući tehnološku revoluciju koja će transformirati područje desetljećima kasnije.
Pojava standardiziranih anketnih tehnika tijekom tog razdoblja stvorila je metodološki temelj za opsežnija društvena istraživanja. Modeli pogrešaka u anketama i teorija uzorkovanja pružili su okvire za kontroliranje kako pogrešaka uzorkovanja tako i onih koje nisu vezane uz uzorkovanje, omogućujući pouzdanije i valjanije rezultate istraživanja. Ovaj period predstavlja ključnu prekretnicu u evoluciji društvenih znanosti, prelazak od intuitivnih, često subjektivnih pristupa prema sistematičnim, empirijski utemeljenim metodama. Standardizacija nije bila samo tehnička nužnost, nego je omogućila usporedbu rezultata između različitih istraživanja i istraživača, postavljajući temelje za kumulativno znanstveno znanje koje karakterizira zrele discipline.
Ronald A. Fisher

Izvor: https://commons.wikimedia.org/wiki/File:RonaldFisher1912.jpg
Institucionalni razvoj i profesionalna organizacija
Uspostavljanje statističkih društva i profesionalnih organizacija tijekom 19. i ranog 20. stoljeća stvorilo je institucijsku podršku za metodološki razvoj i diseminaciju znanja. Kraljevsko statističko društvo Londona, Američka statistička asocijacija, kao i Međunarodni statistički institut osnovani sredinom i krajem 19. stoljeća, počeli su djelovati kao forumi za dijeljenje istraživačkih nalaza i uspostavljanje profesionalnih standarda. Ove organizacije olakšale su međunarodnu suradnju i pridonijele standardizaciji statističkih metoda.
Integracija statističkih metoda u sveučilišne kurikulume tijekom tog razdoblja osigurala je prijenos metodološkog znanja, a osnivanje statističkih odjela i razvoj specijaliziranih programa obrazovanja stvorio je profesionalnu klasu statističara koji su mogli realizirati interdisciplinarna istraživanja u društvenim znanostima. Ova institucionalna infrastruktura pokazala se važnom za podršku idućeg, složenijeg koraka u razvoju statističkih tehnika koji će slijediti u narednim desetljećima.
Kvantitativna revolucija i pojava mješovitih metoda (1960.-2000.)
Računalni napredak
Kvantitativna revolucija u društvenim znanostima, koja je počela krajem 1950-ih i dosegnula punu snagu 1960-ih, predstavljala je fundamentalnu transformaciju u istraživačkoj metodologiji, primarno pokretanu tehnološkim napretkom i novim teoretskim perspektivama. Ova revolucija bila je ujedno i paradigmatski pomak koji je zamijenio usredotočenost na opis s fokusom na objašnjenje, predviđanje i testiranje teorija. Pri tom je razvoj računala fundamentalno promijenio krajolik statističke analize. Naime, prije kompjuterizacije, statistički izračuni bili su naporan manualni proces koji je ozbiljno ograničavao složenost analiza koje su istraživači mogli poduzeti. Razvoj računala 1960-ih omogućilo je istraživačima procesiranje većih skupova podataka i izvođenje sofisticiranih statističkih procedura kakve prije nisu bile moguće. Sveučilišta i istraživačke institucije počeli su osnivati računalne centre što je „demokratiziralo“ statističku analizu, tj. omogućilo njenu širu primjenu u brojnim disciplinama. Ovaj tehnološki skok nije bio samo kvantitativna promjena – bio je to kvalitativni preokret koji je omogućio istraživačima da postavljaju pitanja i testiraju hipoteze koje su prije bile nedostupne empirijskoj provjeri. Računalna moć postala je, u određenom smislu, proširenjem same istraživačke mašte.
Bušene kartice

Fotografija: Stefan Kühn, Wikimedia Commons, licenca GFDL
Prvi statistički softveri
Razvoj softvera 1960-ih i 1970-ih omogućio je istraživačima da puno lakše koriste računalnu snagu kroz jednostavnija statistička sučelja. SPSS, lansiran 1968. godine, revolucionirao je istraživanja u društvenim znanostima budući da je funkcionirao kao korisnički prilagođen statistički softver posebno prilagođen za društvene znanstvenike. Statističke tehnike učinio je dostupnima istraživačima bez opsežnog programskog iskustva te tako značajno obogatio kutiju s metodološkim alatom potrebnim društvenim znanstvenicima. Godine 1970. izdana je prva verzija Genstata s funkcijama ANOVA-e, regresije, analize glavnih komponenti, jednostruke analize klasteriranja i općenitih izračuna na vektorima, matricama i tablicama. Slične mogućnosti pružao je i SAS razvijen između 1966. i 1976.
Ova softverska revolucija predstavljala je demokratizaciju korištenja složenih statističkih analiza na dosad neviđenoj razini. Istraživači koji su prije morali ovladati složenim programskim jezicima ili se oslanjati na statističare sada su mogli samostalno provoditi sofisticirane analize. Međutim, tehnološki napredak donio je i nove izazove. Kako je veća dostupnost statističkih softvera mogla dovesti do neprikladne primjene statističkih tehnika, povećala se i potreba za boljim poznavanjem statističkih procedura i njihovih ograničenja. Značaj ovakvih inovacija postaje jasno vidljiv kada se razmotri u kojoj mjeri su one ubrzale tempo istraživanja i omogućile testiranje kompleksnijih teorijskih modela. Ono što je nekad zahtijevalo mjesece ručnog računanja sada se moglo izvršiti u satima. Time se povećala mogućnost istraživača da se više usredotoče na konceptualne i teoretske aspekte svojeg rada.
Metodološke inovacije i teoretski razvoj
Kvantitativna revolucija donijela je fundamentalne promjene u način na koji su društveni znanstvenici konceptualizirali istraživačke probleme i analitičke pristupe. Pokret je naglašavao razvoj teoretskih modela, testiranje hipoteza i potragu za univerzalnim zakonima koji upravljaju društvenim fenomenima. Ovo je predstavljalo značajno odstupanje od ranijih deskriptivnih pristupa i približilo metodologiju društvenih znanosti paradigmama prirodnih znanosti. Matematičke i statističke tehnike postale su središnje za istraživanja društvenih znanosti tijekom tog razdoblja. Napredne multivarijatne metode, uključujući faktorsku analizu, klastersku analizu i modeliranje strukturnih jednadžbi, omogućile su istraživačima da simultano ispituju složene odnose između višestrukih varijabli. Ove tehnike omogućile su sofisticiranije teoretsko testiranje i pružile uvide u društvene fenomene koje je bilo nemoguće postići jednostavnijim analitičkim pristupima.
Pojava mješovitih metoda
Paralelno s kvantitativnom revolucijom, kasno 20. stoljeće svjedočilo je razvoju mješovitih metoda kao zasebnog metodološkog pristupa koji je nastojao integrirati upotrebu kvantitativnih i kvalitativnih tehnika unutar jednog istraživačkog projekta. Ovaj razvoj temeljio se na činjenici da složeni društveni fenomeni često zahtijevaju višestruke analitičke perspektive i da je kruto razdvajanje kvantitativnih i kvalitativnih pristupa nepotrebno, ograničavajuće. Mješovite metode inicijalno su nastale iz evaluacije programa, gdje su istraživači ustanovili da kvantitativne mjere same po sebi nisu dovoljne za razumijevanje učinkovitosti programa i implementacijskih procesa. Otkriveno je da kombiniranje kvantitativnih mjera ishoda s kvalitativnim uvidima u funkcioniranje programa pruža sveobuhvatnije i primjenjivije nalaze. Ovo praktično iskustvo demonstriralo je vrijednost metodološke integracije i pridonijelo teoretskom razvoju okvira mješovitih metoda. Formalizacija istraživanja mješovitih metoda tijekom 1990-ih uspostavila je sistematičke pristupe za kombiniranje različitih tipova podataka i analitičkih tehnika. Ove metodološke inovacije stvorile su podlogu za iskorištavnaje prednosti kako kvantitativnih tako i kvalitativnih pristupa uz ublažavanje njihovih ograničenja. Umjesto rigidnog inzistiranja na jednom “ispravnom” načinu istraživanja, društvene znanosti počele su prihvaćati da različita pitanja zahtijevaju različite metodološke alate.
Računalna revolucija: strojno učenje i veliki podaci (2000.-danas)
Digitalna transformacija i proliferacija podataka
Trenutna računalna revolucija u društvenim znanostima predstavlja najdrastičniju metodološku transformaciju i fundamentalno mijenja način na koji istraživači konceptualiziraju prikupljanje, analizu i interpretaciju podataka. Ova revolucija pokretana je eksponencijalnim rastom digitalnih izvora podataka, napretkom u snazi računala i razvojem sofisticiranih analitičkih tehnika posuđenih iz računalnih znanosti i umjetne inteligencije.
Razmjeri transformacije podataka bez su presedana u ljudskoj povijesti. Digitalna pohrana informacija porasla je s manje od 1% krajem 1980-ih na preko 99% do 2012. godine, pri čemu čovječanstvo stvara više podataka svake 2,5 do 3 godine nego što je proizvedeno od početka civilizacije. Ova digitalna transformacija stvorila je nove i goleme izvore podataka za istraživanja u društvenim znanostima, uključujući platforme društvenih mreža, zapise digitalnih transakcija, senzorne mreže i administrativne baze podataka koje bilježe ljudsko ponašanje u neviđenoj mjeri i granularnosti. Platforme društvenih mreža pojavile su se kao posebno bogat izvor podataka o ponašanju, pružajući uvide u stvarnom vremenu u ljudsku komunikaciju i obrasce ponašanja. Za razliku od tradicionalnih anketnih podataka, informacije s društvenih mreža bilježe prirodno ponašanje (otkrivene preferencije) umjesto odgovora na pitanja osmišljena od strane istraživača (otkrivanje preferencija). Time se otvaraju nove mogućnosti za razumijevanje društvenih pojava i fenomena. Međutim, i ovi izvori podataka postavljaju značajne izazove pred istraživače kako u pogledu njihove reprezentativnosti, tako i po pitanju privatnost i etičnosti.
Primjene strojnog učenja i metodološke inovacije
Tehnike strojnog učenja revolucionirale su analize u društvenim znanostima omogućujući znanstvenicima da identificiraju složene obrasce u velikim skupovima podataka koje bi bilo nemoguće otkriti koristeći tradicionalne statističke metode. Za razliku od konvencionalnih statističkih pristupa koji zahtijevaju da istraživači specificiraju odnose unaprijed, algoritmi strojnog učenja mogu otkrivati složene obrasce i nelinearne odnose kroz automatiziranu analizu struktura podataka. Obrada prirodnog jezika (NLP) transformirala je analizu tekstualnih podataka, omogućujući istraživačima procesiranje golemih korpusa objava na društvenim mrežama, novinskih članaka i drugih tekstualnih izvora, a u cilju boljeg razumijevanje javnog mnijenja, kulturnih trendova ili komunikacijskih obrazaca. Primjerice, tehnike analize osjećaja omogućuju istraživačima procjenjivanje javnih stavova prema društvenim pitanjima, političkim kandidatima i prijedlozima javnih politika, pružajući uvide koje bi bilo vrlo teško dobiti tradicionalnom metodom ankete. Mrežna analiza evoluirala je od jednostavnog relacijskog mapiranja prema sofisticiranom modeliranju složenih društvenih sustava, omogućujući razumijevanje protoka informacije kroz društvene mreže, načina formiranja i raspada zajednica te načina kako se u različitim društvenim kontekstima zrcale različiti tipovi društvenog utjecaja. Ove tehnike razotkrile su ranije skrivene obrasce društvene organizacije i pružile uvide u fenomene koji sežu od prijenosa bolesti do političke mobilizacije. Koristeći algoritme strojnog učenja prediktivno modeliranje omogućilo je društvenim znanstvenicima predviđanje društvenih fenomena s visokom preciznošću. Danas prediktivne tehnike imaju praktičnu primjenu u područjima poput prevencije kriminala, intervencija u sferi javnog zdravstva i ekonomske politike, demonstrirajući potencijal društvenih znanosti za izravni doprinos rješavanju društvenih problema.
Računalna društvena znanost kao interdisciplinarno područje
Naposljetku, razvila se računalna društvena znanost (eng Computational Social Science – CSS) kao zasebno interdisciplinarno područje koje integrira metode računalnih znanosti s teorijama društvenih znanosti. CSS predstavlja znatno više od jednostavne primjene računalnih alata u području društvenih znanosti. Ona podrazumijeva promišljanje društvenih fenomena kao računalnih procesa te razvoj novih teorijskih okvira primjerenih istraživanju društava u digitalnom dobu. Računalnim društvenim znanostima svojstveni su višestruki pristupi uključujući istraživanja pokretana podacima koja koriste nove izvore podataka, istraživanja pokretana metodama koja razvijaju nove analitičke tehnike i istraživanja pokretana modelima koja traže univerzalne zakone koji upravljaju društvenim ponašanjem. Pristupi usmjereni na digitalno društvo rješavaju probleme koji proizlaze iz algoritamskih sustava, dok perspektive društvene teorije koriste računalne metode za unapređivanje teoretskog razumijevanja društvenih fenomena. Analitika velikih podataka otvorila je još veći prostor za proučavanje društvenih fenomena na različitim razinama – od obrazaca individualnog ponašanja, preko interakcija unutar grupa i zajednica, pa sve do globalnih društvenih trendova.
Oblak riječi velikog broja radova iz CSS

Integracija umjetne inteligencije i budući smjerovi
Integracija umjetne inteligencije u društvena istraživanja danas označava vrhunac metodološkog razvoja. AI sustavi sve su sposobniji automatizirati složene analize i otkrivati nove uvide iz društvenih podataka. Veliki jezični modeli (LLM) i druge AI tehnologije mijenjaju način na koji istraživači pristupaju podacima i statističkim alatima, čime sofisticirane metode postaju dostupnije široj zajednici. Bayesove metode zadobile su važnost zahvaljujući svojoj usklađenosti sa strojnim učenjem te mogućnosti uključivanja prethodnog znanja i kvantificiranja nesigurnosti. Posebno, Bayesovo kauzalno zaključivanje nudi moćne alate za istraživanje uzročnih odnosa u opservacijskim podacima. Time pomaže rješavanju jednog od temeljnih izazova društvenih znanosti, gdje su eksperimenti često nemogući ili etički neprihvatljivi. Tehnike uzročnog zaključivanja evoluirale su izvan tradicionalnih eksperimentalnih i kvazi-eksperimentalnih dizajna uključujući sofisticirane metode za identificiranje uzročnih odnosa u složenim, višedimenzionalnim podacima. Ovaj novi metodološki krajolik ne predstavlja samo tehnološki napredak nego utjelovljuje fundamentalnu promjenu u tome kako konceptualiziramo društvo i naše sposobnosti za njegovo proučavanje.
[1] Ekonomistima će Galton biti poznato ime na marginama pretjerano duge i još uvijek neriješene konvergencijske debate.

Ovaj tekst je sufinanciran sredstvima Fonda za poticanje pluralizma i raznovrsnosti elektroničkih medija.
Autor
-
Luka Šikić predaje grupu kvantitativnih i metodoloških kolegija poput Uvoda u Statistiku, Primijenjene statistike, Data Science for Social Sciences, Obrade prirodnog jezika, Multivarijatne statistike, Analitike društvenih mreža, Novih medija i web tehnologija i dr. Studirao je ekonomiju i financije na raznim međunarodnim sveučilištima i Ekonomskom fakultetu u Zagrebu, gdje je stekao titulu doktora znanost. Od 2012. do 2020. godine radio je kao istraživač u Institutu Ivo Pilar, zatim od 2020. do 2023. godine kao postdoktorski istraživač na Fakultetu hrvatskih studija, a od 2023. godine izabran je u zvanje docenta na Hrvatskom katoličkom sveučilištu. Paralelno s akademskim radom bavi se samostalnim projektima u području podatkovnih znanosti i algoritamskog trgovanja na financijskim tržištima. Autor je većeg broja znanstvenih radova objavljenih u međunarodnim časopisima.
View all posts