Svetová DNA
Technológia

Svetová DNA

Noah, šesťročný chlapec z Kanady, má chorobu, ktorá nemá meno. Lekári sa na MRI pozerajú na zmenšujúcu sa časť mozgu, nazývanú cerebellum. Majú podozrenie, že medzi miliónmi slov napísaných písmenami Noemovho genetického kódu je preklep. Chlapcovu DNA teda pošlú do sveta cez internet v nádeji, že rovnakú chybu nájdu aj u niekoho iného.

Chybu možno identifikovať, ak sa rovnaká chyba niekde nájde pomocou sieťových nástrojov. Vývojári z Toronta preto začali začiatkom roka 2016 testovať systém na výmenu genetických informácií medzi zdravotníckymi zariadeniami. Sieť v súčasnosti zahŕňa nemocnice z Kanady, USA a Spojeného kráľovstva. Účelom systému MatchMaker Exchange je automatizovať a globalizovať postupy porovnávania DNA. Cieľom informatikov pracujúcich na projekte je priblížiť metódy génového sekvenovania moderným telekomunikačným technológiám. Na svete ich je už asi 200 XNUMX. ľudia, ktorých genómy boli sekvenované. Čoskoro ich počet môže dosiahnuť milióny.

Kanadský spolutvorca MatchMaker David Haussler, bioinformatik z UC Santa Cruz, v roku 2013 spolu so skupinou ďalších založil Globálnu alianciu pre genomiku a zdravie, GA4GH, ktorú často prirovnáva k Internet Standards Organization. W3C. Do novej organizácie, zárodku „World DNA“ sa podarilo vstúpiť mnohým známym postavám a celým spoločnostiam, ako napríklad Google. GA4GH sa zaviazala zlepšovať protokoly, vyvíjať programovacie rozhrania (API) a formáty súborov na prenos genetických údajov cez sieť.

Jedným z argumentov v prospech vytvorenia takéhoto „genetického“ internetu je rýchlo rastúci objem dát generovaných v laboratóriách. Najväčšie a najefektívnejšie centrá sekvenujú ľudské genómy rýchlosťou dva genómy za hodinu (sekvenovanie prvého človeka trvalo trinásť rokov). Odhaduje sa, že tento rok sa celosvetovo vyprodukuje 85 petabajtov dát. V roku 2019 ich má byť dvojnásobok. A toto všetko – pokiaľ nebude vytvorená globálna sieť a možnosť vyhľadávania – bude v izolovaných, ťažko dostupných databázach. Za takýchto podmienok je napríklad nemožné otestovať všetky podobné mutácie, ktoré vedú k určitému typu rakoviny, v porovnaní s používanými liekmi a terapiami. A možnosť porovnávať v globálnej databáze by bola skvelým nástrojom pre lekárov. Haussler teda vytvoril genetický vyhľadávací nástroj s názvom Beacon, ktorý prehľadal dvadsať verejných databáz DNA a implementoval protokoly GA4GH. Hľadač môže klásť otázky o pozíciách genetických „písmen“ na jednotlivých chromozómoch genómov v databáze. Napriek uznaniu dôležitosti širokého prístupu k sekvenovanej DNA pre pokrok v medicíne existuje v spoločnosti, ako aj medzi lekármi a výskumníkmi, voči výmene takýchto údajov značný odpor. Myšlienka umiestniť ľudské genómy na internet sa mnohým zdá kontroverzná. Aby sa predišlo porušovaniu súkromia, GA4GH ponúka internetový model typu peer-to-peer.

Údaje vo večných reťazcoch

Na jednej strane sa snažíme o vytvorenie internetu s DNA dátami - na druhej strane DNA začína predstavovať zaujímavú alternatívu k počítačovému zaznamenávaniu dát. Skupina švajčiarskych vedcov z Technologického inštitútu v Zürichu pred pár mesiacmi predstavila techniku ​​kódovania údajov v reťazcoch DNA tak, aby ich bolo možné bez poškodenia a chýb uchovávať až dvetisíc rokov! Žiadna iná známa technológia zaznamenávania ľudských údajov sa nevyrovná tejto odolnosti. Samozrejme, že pozorný človek sa hneď opýta, ako bolo možné v jednej prezentácii dokázať dlhovekosť tisícročí. Ukazuje sa, že Švajčiari vyvinuli simuláciu takého dlhého obdobia tak, že dané vlákna DNA zapuzdreli do silikónových guľôčok a zahriali ich na teplotu asi 72 °C. Podľa vedcov sa týždeň pobytu pri tejto teplote rovná 2. rokom pri 10°C. Po takejto simulácii neboli zaznamenané žiadne chyby záznamu. Vedci tiež zdôrazňujú ďalšie výhody špirály DNA ako pamäťového média v porovnaní s pevnými diskami alebo magnetickými páskami. Napríklad päťterabajtový disk veľkosti knihy dokáže uložiť toto množstvo dát za optimálnych podmienok až na päťdesiat rokov. Záznam v kóde DNA nebude binárny, ale bude založený na použití štyroch nukleotidových písmen A, C, T a G. Keď hovoríme o úspechoch Švajčiarov, New Scientist uviedol nasledujúci výpočet: jeden gram molekulárnej DNA reťazce dokážu zakódovať 455 exabajtov informácií a podľa výpočtov spoločnosti EMC Computer v roku 2011 bolo celkové množstvo dát zozbieraných na Zemi 1,8 zettabajtu. Jeden zettabajt sa rovná 1 tisíc. Exabajtov, takže na zaznamenanie údajov za rok 2011 sú potrebné asi 4 gramy DNA. Samozrejme, od roku 2011 sa objem globálnych informácií trochu zvýšil a možno by mali pribudnúť tri gramy.

genetická informatika

prosperuje Je tiež potrebné pripomenúť, že už existuje programovací jazyk pre DNA. V posledných rokoch ho vyvinula skupina vedcov z Washingtonskej univerzity v USA. Predpokladá sa, že ovláda činnosť „chemického počítača“, takzvaných systémov používaných na syntézu DNA. Cieľom nie je len kontrolovať chemické reakcie ako automatizácia, roboty atď., ale aj kontrolovať dávkovanie liekov. Vážnou úlohou je vytvorenie počítačových algoritmov, ktoré umožňujú napríklad prispôsobiť umelé molekuly DNA prostrediu živých tkanív, v ktorých majú fungovať. Biologický svet je oveľa zložitejší a nepravidelnejší ako svet strojov. Ťažké však neznamená nemožné. „Našou myšlienkou je vytvoriť univerzálny jazyk, ktorý sa dá použiť na mnoho rôznych úloh,“ vysvetlil Georg Zelig z tímu programovacích jazykov DNA. Technológia sa časom využije okrem iného aj na programovanie samouskladacích molekúl v bunkách či vytváranie biosenzorov, ktoré monitorujú stav tela na bunkovej úrovni. Algoritmus používaný pri sekvenovaní DNA môže tiež pomôcť chrániť pred nevyžiadanou poštou, ktorá zaplavuje internet, teda pred spamom. Program s názvom Chung Kwei (z čínskeho talizmanu feng shui, ktorý chráni dom pred zlými duchmi) je účinný takmer na 97 percent. Bol založený na staršom Tiresiasovom algoritme (Tiresias je mýtická grécka veštkyňa), ktorý vyvinuli bioinformatici z výskumného centra Thomasa J. Watsona IBM v New Yorku pracujúcich na sekvenovaní DNA. Tento program hľadal opakujúce sa sekvencie v záznamoch genetického kódu, ktoré zvyčajne poskytujú dôležité informácie. Namiesto genómu vedci analyzovali 65 údajov pomocou algoritmu. najbežnejšie príklady spamu. Každý e-mail bol považovaný za reťazec DNA. Podarilo sa nám nájsť 6 miliónov opakujúcich sa (viac ako jeden e-mail) sekvencií písmen a číslic. Potom sa analyzovalo značné množstvo bežnej korešpondencie (niekedy nazývanej šunka – „šunka“ na rozdiel od spamu – „raňajky“). Sekvencie, ktoré sa opakovali v ham a spamových správach, boli odstránené. Následne sa analyzovala prichádzajúca korešpondencia. Čím vyšší je počet typických „spamových sekvencií“ na kilobajt e-mailu, tým istejší je, že ide o spam. Iba jeden z 65 bežných e-mailov bol omylom zastavený a miera rozpoznania spamu dosiahla 96,56 %.

Pridať komentár