tietokantojen suorituskyky

Wed, 17 Sep 2014 19:49:03 +0000

(nettip�iv�kirja 17.09.2014) Tietokantojenhan pit�isi olla suunniteltu tehokasta tiedon hakemista varten, vai mit�? Niiss� on erikseen ''indeksej�'' joiden perusteella pystyy erityisen nopeasti etsim��n juuri sellaisen tietueen, jossa tietyn kent�n arvo on juuri jokin haluttu (esimerkiksi henkil�n, jonka sukunimi on "Kakka"). Joskus indeksej� k�ytet��n my�s tiedon yhdistelyyn, mutta esim. LDAP-hakemistoissa oikeastaan ainoa, mit� niill� tehd��n, on juuri tietyn tietueen (tai tiettyjen tietueiden) etsint�.

Siksi minua ihmetytt�� asia, jonka olen usein saanut huomata k�yt�nn�ss�: Unixin (tai Linuxin) grep-ty�kalulla saa usein nopeammin haetuksi saman asian kuin tietokannasta kyselem�ll�. Jos siis olen tekem�ss� monia tietokantakyselyit�, olen usein p��ssyt tietokannan hidastelusta eroon tekem�ll� ensin tekstidumpin kaikista tietokannan tiedoista ja sitten tekem�ll� ihan tavallisia tekstihakuja t�st� dumpista.

Miten ihmeess� t�m� on mahdollista? Mille tietom��rille tyypillinen tietokantatoteutus on oikein suunniteltu? Jos esimerkiksi dumpissa oleva tietom��r� on 10-200 megatavua, grep-ratkaisu on tosi usein nopeampi (samalla koneella). Tied�n muutamia tyypillisi� syit�, miksi tietokanta saattaa skaalautua huonosti: ensinn�kin jotkin tietokannat yritt�v�t pit�� liian ''paljon'' tietoa muistissa, jolloin tiedostoa rivi kerrallaan tutkiva grep toimii paremmin (ja j�tt�� tilaa saman putkiston muille grepeille, samalla kun rinnakkaistuu n�tisti monelle prosessorille); ja jotkin taas l�htev�t oletuksesta, ett� ''vain'' levyhaut viev�t aikaa eik� muistin sis�ll� tapahtuvia operaatioita edes tarvitse optimoida, koska niiden ajank�ytt� on niin minimaalista levyoperaatioihin verrattuna (Postgresin dokumentaatiosta sai joskus t�llaisen kuvan).

* [merkint�: 2014-09] * [atehwa] * [kategoria: p�iv�kirjamerkint�] * [tekstimuotoinen yhteystietokanta] * [LDAP tietokantana] * [tekstity�kalut]