Datamaailman omenat ja päärynät vertailukelpoisiksi

Person holding apple fruit - Andrea P Coan

Vanhan sanonnan mukaan omenoita ja päärynöitä ei voi verrata keskenään. Sama sanonta esiintyy myös ranskan kielessä – comparer des pommes et des poires. Tämä liittynee calvadosin valmistukseen: molemmista hedelmistä tehdään calvadosia, mutta eräillä Ranskan alueilla perinteisiä maataloustuotteita säätelevässä AOC-sertifikaatissa määritetään sopivat lajikkeet ja niiden suhteelliset määrät erittäin tarkasti.

Sanonta viittaa keskenään vertailukelvottomina pidettyjen asioiden välisiin ilmiselviin eroihin. Arkielämässä asiayhteys ratkaisee, kannattaako asioita verrata toisiinsa. Jos tarkoituksena on tehdä makeaa ja ravinteikasta mehua, molemmat hedelmät käyvät. Kumpi tahansa voi sopia raikkaaseen hedelmäsalaattiin. Omenapiirakan leivonnassa on kuitenkin oltava tarkempana. Siihen tarvitaan hapokkaita omenoita, joten päärynät – saati muut hedelmät – eivät sovi siihen.

Tämä sanonta liittyy myös Platform of Trustin ontologian pääasialliseen tavoitteeseen eli datan harmonisointiin. Harmonisointi voidaan jakaa neljään kuvassa esitettyyn osaan.

Data models help harmonization of data


Yksi harmonisoinnin ilmiselvistä eduista on eri lähteistä saatavan datan yhteismitallistaminen. Kun olemassa olevia asioita luokitellaan yhtenäistä datamallia käyttäen, niistä tulee semanttisesti yhteismitallisia. Käytännössä tämä tarkoittaa sitä, että omenoita ja päärynöitä pystyy vertailemaan: malli nimittäin luokittelee molemmat syötäviksi hedelmiksi. Välillä on voitava poimia pelkät omenat kymmenestä eri hedelmäkorista. Tämäkin onnistuu helposti, sillä kaikki omenat on luokiteltu samalla tavoin riippumatta siitä, missä korissa ne ovat.

“Yksi harmonisoinnin ilmiselvistä eduista on eri lähteistä saatavan datan yhteensopivuus.”
Panu Pitkänen
 – Ontology Lead, Platform of Trust



Kaikki omenat voi kerätä eri koreista samalla tekniikalla. Mikä vielä parempaa, omenat voi myös kerätä kaikista kymmenestä korista samalla kertaa. Yhteismitallisuudesta on hyötyä niin yleisellä kuin yksilötasollakin. Yksilön tunnistaminen vaikkapa henkilötunnuksen perusteella mahdollistaa samaa henkilöä koskevien tietojen yhdistämisen eri datalähteistä.

Datan arvoina voi olla laitteiden mittoja, fyysisiä määriä tai muita datan sisältämiä tietoja. Datan harmonisointi tarkoittaa kaiken datan muuntamista samaan muotoon ja samojen mittayksiköiden käyttämistä. Käytännössä tämä tarkoittaa esimerkiksi sitä, että brittiläiset ja amerikkalaiset mittayksiköt muunnetaan metrijärjestelmään tai toisinpäin – aina asiakkaan tarpeesta riippuen.

Tätä on datan harmonisointi pähkinänkuoressa.

Tutustu ontologiaamme kätevän työkalun avulla osoitteessa https://standards.oftrust.net/v2/




Panu Pitkänen 150 x 150.png

Kiitos ajastasi! Kommentoithan alle, mikäli kirjoitus herätti ajatuksia.

Olen Panu Pitkänen ja toimin Platform of Trustin Ontology Leadina. Julkistimme kesäkuussa 2020 uuden version ontologiastamme, joka on datan harmonisoinnissa käytettävä tietomalli (tai datamalli). Uuteen versioon on tehty useita parannuksia. Kerron niistä ja muista ontologiaan liittyvistä aiheista tässä blogissa hyvin epäteknisellä tavalla. Toivottavasti teksteistä on iloa!

Ota yhteyttä puhelimitse +358 400 665 347, lähettämällä sähköpostia osoitteeseen panu.pitkanen@oftrust.net tai Twitterissä @panupit