Exceli automaatne vormistamine rikub geneetikauuringute andmeid (2)

Juhime tähelepanu, et artikkel on rohkem kui viis aastat vana ning kuulub meie arhiivi. Ajakirjandusväljaanne ei uuenda arhiivide sisu, seega võib olla vajalik tutvuda ka uuemate allikatega.
Toimetaja: Kaur Maran
Copy
Exceli lahtrites muutuvad geenilõikude nimed kuupäevadeks või raskestiarusaadavateks numbriteks.
Exceli lahtrites muutuvad geenilõikude nimed kuupäevadeks või raskestiarusaadavateks numbriteks. Foto: Kuvatõmmis

Exceli kasutamisel igaühele tüütu numbriformaadi automaatne muutmine põhjustab vigu ka meditsiini arendamisega seotud teadusartiklites.

Microsofti ülilevinud arvutustarkvara kasutajatele on tuttav olukord, kus pärast mõne numbri lahtritesse sisestamist otsustab programm, et tegemist peab olema näiteks kuupäevaga ja konverteerib tavalise numbri tihtipeale üsnagi meelevaldselt kuupäeva kujule.

Sama probleem võib aga esineda ka paljude geeninimede puhul. Näiteks septiin-2 geeni sümboli SEPT2 sisestamisel arvab Excel, et tegemist on 2002. aasta septembrit märkiva numbriga ja lahtrisse ilmub geeni õige koodi asemel hoopiski «sept.02». Samalaadseid vigu võib Excel toota ka teiste numbriformaatidega – geeninimest 2310009E13 saab tabelis näiteks 2.31E+13.

Grupp Austraalia teadlasi võttiski uurimise alla, kui palju selliseid vigu avaldatavasse geneetika artiklitesse jõuab. Selleks koguti kokku 3 597 aastatel 2005-2015 avaldatud 35 175 artikli lisades leiduvat Exeli tabelit. Eraldi uuringu jaoks kirjutatud otsingualgoritmi abil tehti kindlaks, et vigu esines 704 uuringuraportiga kaasnenud 987 failis. Kokku esines geeninimedes vigasid 19,6 protsendis artiklitest.

Vigade esinemine näis jaotuvat ajakirjade lõikes, kusjuures huvitaval kombel esines kõige enam Exceli põhjustatud valesid geeninimesid oli just kõige paremate mõjufaktoritega (impact factor) artiklites.

Artikli autorid rõhutavad oma töö arutlevas osas, et selliste tulemuste vältimiseks on nii artikleid koostavate teadlaste kui ka toimetajate roll väga oluline. Automaatse numbrite ümber vormistamise välja lülitamise võimalust ei ole jätkuvalt üheski Exceli versioonis. Sama probleem kaasneb ka Open Office’i ja teiste alternatiivsete programmidega.

Arvestades, et märkimisväärsel osal geenuuringutest on rakendus just meditsiinis, alates pärilike haigustega ja lõpetades vähiraviga, on programmi põhjustatud vead potentsiaalselt oluline rahvatervise risk. Täpsem mõju vajab aga täpsemat uurimist.

Exceli automaatvormingu põhjustatud vigaste geeninimede esinemine teadusajakirjades.
Exceli automaatvormingu põhjustatud vigaste geeninimede esinemine teadusajakirjades. Foto: Mark Ziemann, Yotam Eren and Assam El-Osta
Exceli automaatvormingust tingitud vigaste geeninimede esinemine aastate lõikes.
Exceli automaatvormingust tingitud vigaste geeninimede esinemine aastate lõikes. Foto: Mark Ziemann, Yotam Eren and Assam El-Osta
Tagasi üles