Bio­in­for­ma­ty­ka jest jed­ną z naj­młod­szych nauk, któ­rej burz­li­wy roz­wój został wymu­szo­ny przez postęp w dzie­dzi­nie nauk bio­lo­gicz­nych, a umoż­li­wi­ły go doko­na­ne prze­ło­mo­we osią­gnię­cia mate­ma­ty­ków zaj­mu­ją­cych się algo­ryt­ma­mi kom­bi­na­to­rycz­ny­mi i ich wdro­że­nia w samej infor­ma­ty­ce.

Rysu­nek podwój­nej heli­sy DNA publi­ku­je­my za zgo­dą prof. Jac­ka Bła­że­wi­cza1.

Wie­lu bada­czy, mówiąc o bio­in­for­ma­ty­ce, ma na myśli głów­nie aspek­ty zwią­za­ne z bio­lo­gią na pozio­mie mole­ku­lar­nym (DNA, RNA, biał­ko). Sty­mu­lu­ją­cym to odkry­ciem było poda­nie w 1953 r. przez Wat­so­na i Cric­ka (razem ze współ­twór­ca­mi Wil­kin­sem i Fran­klin nagro­dzo­ny­mi Noblem w 1962 r.) mode­lu podwój­nej heli­sy łań­cu­cha DNA, prze­cho­wu­ją­ce­go (kodu­ją­ce­go) infor­ma­cję gene­tycz­ną we wszyst­kich orga­ni­zmach żywych, co barw­nie przed­sta­wia jeden z auto­rów w swej opo­wie­ści.2

Skle­ja­nie DNA – zada­nie z kon­kur­su matematyczno-informatycznego KOALA (4. edycja)

Ludz­ka nić DNA liczy ok. 3 mld ele­men­tów, czy­li czą­stek kwa­su dez­ok­sy­ry­bo­nu­kle­ino­we­go. Cząst­ka może mieć jed­ną z czte­rech war­to­ści: G, T, C lub A.

Odczy­ta­nie tak dłu­gie­go łań­cu­cha jest bar­dzo kło­po­tli­we. Ponie­waż łatwo jest odczy­tać krót­kie łań­cu­chy, więc jed­ną z metod odcy­fro­wa­nia DNA jest podzie­le­nie łań­cu­cha, a ści­ślej wie­lu kopii tego same­go łań­cu­cha w roz­two­rze, na mniej­sze odcin­ki. Podzia­ły dla poszcze­gól­nych kopii mogą być róż­ne i np. jed­na kopia łań­cu­cha ACTACAG może zostać podzie­lo­na na odcin­ki: ACT, AC, AG, a inna kopia na odcin­ki: AC, TA, CAG. Wszyst­kie tak powsta­łe odcin­ki współ­ist­nie­ją w tym samym roztworze.

Póź­niej wczy­tu­je się infor­ma­cje o odcin­kach do pamię­ci pro­gra­mu kom­pu­te­ro­we­go, któ­ry zaj­mu­je się odtwo­rze­niem praw­do­po­dob­ne­go wyglą­du wyj­ścio­we­go łań­cu­cha. Kom­pu­ter szu­ka takie­go łań­cu­cha, któ­ry zawie­ra wszyst­kie odcin­ki z roz­two­ru, a jed­no­cze­śnie jego dłu­gość jest jak najmniejsza.

Na przy­kład naj­krót­szym łań­cu­chem zawie­ra­ją­cym wszyst­kie odcin­ki: AC, GTA, CC, TAC jest przy­kła­do­wo GTACC. Kolej­ność odczy­tu jest waż­na i łań­cuch CCATG nie był­by dobrym rozwiązaniem.

Jaka jest naj­mniej­sza moż­li­wa dłu­gość łań­cu­cha zawie­ra­ją­ce­go wszyst­kie odcin­ki: ACTA,CTAT, CGAC, ATACGA, ACGA, TACG, GACTA, TATA?

Zada­nie pt. Skle­ja­nie DNA, zapi­sa­ne powy­żej, to przy­kład pro­ble­mu bio­lo­gicz­ne­go pole­ga­ją­ce­go na odczy­ta­niu łań­cu­cha DNA (tzw. sekwen­cjo­no­wa­niu DNA) jakie­go w natu­ral­nej wiel­ko­ści nie da się prze­pro­wa­dzić bez pomo­cy efek­tyw­ne­go algo­ryt­mu i odpo­wied­nich pro­gra­mów komputerowych.
W szer­szym uję­ciu pro­blem przed­sta­wio­ny w zada­niu pole­ga na odczy­ta­niu łań­cu­cha o dłu­go­ści oko­ło 3 miliar­dów nukle­oty­dów two­rzo­nych przez jed­ną z czte­rech zasad: ade­ni­nę („A”), guani­nę („G”), cyto­zy­nę („C”) i tymi­nę („T”).

Struk­tu­ra che­micz­na DNA
CC BY-SA 3.0

Meto­da zary­so­wa­na w zada­niu to jeden z kom­pu­te­ro­wo wspo­ma­ga­nych spo­so­bów zwa­ny „sekwen­cjo­no­wa­niem przez hybry­dy­za­cję”. Szkic nie uwzględ­nia na przy­kład błę­dów jakie mogą powstać w trak­cie odczy­ty­wa­nia sekwen­cji pole­ga­ją­cych na poja­wia­niu się odczy­tów, któ­rym nie odpo­wia­da­ją żad­ne rze­czy­wi­ste sekwen­cje (tzw. błę­dy dodat­nie) lub nie­od­czy­ty­wa­niu sekwen­cji, któ­re powin­ny być w roz­two­rze (tzw. błę­dy ujem­ne). Sekwen­cjo­no­wa­nie DNA ma dziś ogrom­ne zna­cze­nie w kry­mi­na­li­sty­ce, sądow­nic­twie, rol­nic­twie, arche­olo­gii, far­ma­ceu­ty­ce i medycynie.

Domnie­ma­ne roz­wią­za­nie zadania

Pozo­sta­je uza­sad­nić, że nie ma krót­sze­go łańcucha.

Sekwen­cja DNA sta­no­wi w pew­nym sen­sie pro­gram dzia­ła­nia mecha­ni­zmów w żywych komór­kach, w szcze­gól­no­ści pew­ne jej rejo­ny okre­śla­ją jakie biał­ko zosta­nie wytwo­rzo­ne a inne, w uprosz­cze­niu, kie­dy i gdzie (pro­ces regu­la­cji genów). Biał­ka kodo­wa­ne są za pomo­cą kodu gene­tycz­ne­go, w któ­rym trój­ki zasad kodu­ją poje­dyn­czy ami­no­kwas. Poje­dyn­cze biał­ko jest sekwen­cją ami­no­kwa­sów, któ­rych stan­dar­do­wo wyróż­nia­my 20. Więk­szość ami­no­kwa­sów może być zako­do­wa­na w DNA na kil­ka spo­so­bów (kil­ka róż­nych tró­jek zasad kodu­je ten sam aminokwas).

Sekwen­cje ami­no­kwa­sów to ina­czej łań­cu­chy poli­pep­ty­do­we i mogą one przyj­mo­wać zło­żo­ne struk­tu­ry prze­strzen­ne. Usta­le­nie bio­lo­gicz­nie aktyw­nych struk­tur prze­strzen­nych bia­łek odpo­wia­da­ją­cych danej sekwen­cji ami­no­kwa­so­wej jest jed­nym z cie­kaw­szych pro­ble­mów z jakim bory­ka się bio­lo­gia mole­ku­lar­na wspie­ra­na przez tzw. „bio­in­for­ma­ty­kę struk­tu­ral­ną”. Tutaj z pomo­cą przy­cho­dzą zaawan­so­wa­ne meto­dy infor­ma­tycz­ne tzw. ucze­nia maszy­no­we­go. Otóż zna­ne z doświad­czeń bio­lo­gicz­nych pary: sekwen­cja ami­no­kwa­sów i struk­tu­ra biał­ko­wa są poda­wa­ne na wej­ście pro­gra­mu uczą­ce­go się, któ­ry po peł­nym cyklu ucze­nia powi­nien umieć pra­wi­dło­wo wska­zać struk­tu­rę dla zada­nej sekwen­cji lub sekwen­cję dla zada­nej struk­tu­ry (np. przy pro­jek­to­wa­niu leków). W chwi­li obec­nej ist­nie­ją ogrom­ne bazy danych gro­ma­dzą­ce te odpo­wied­ni­ki i uży­wa­ne w maszy­no­wym ucze­niu. Pomi­mo tego cią­gle jesz­cze nam dale­ko do per­fek­cyj­ne­go pro­gno­zo­wa­nia struk­tur białek.

***

Kie­ru­nek stu­diów bio­in­for­ma­ty­ka jest pro­wa­dzo­ny m.in. na Wydzia­le Infor­ma­ty­ki i Tele­ko­mu­ni­ka­cji Poli­tech­ni­ki Poznań­skiej. Na tere­nie Poli­tech­ni­ki dzia­ła Euro­pej­skie Cen­trum Bio­in­for­ma­ty­ki i Geno­mi­ki (ECBiG) jako uni­kal­na na tere­nie Wiel­ko­pol­ski jed­nost­ka badawczo-rozwojowa, powsta­ła na bazie kon­sor­cjum zawią­za­ne­go pomię­dzy Poli­tech­ni­ką Poznań­ską a Insty­tu­tem Che­mii Bio­or­ga­nicz­nej Pol­skiej Aka­de­mii Nauk w Poznaniu.

Infor­ma­cje o autorze
Andrzej P. Urbań­ski, Insty­tut Infor­ma­ty­ki, Poli­tech­ni­ka Poznańska.
Wykła­da pro­gra­mo­wa­nie gier kom­pu­te­ro­wych, a w wol­nym cza­sie pisze opo­wia­da­nia czę­sto prze­ka­zu­ją­ce wie­dzę bądź motywacje.
Pisze powieść o pro­gra­mo­wa­niu w języ­ku Python.

Autor dzię­ku­je panu Macie­jo­wi Miło­sta­no­wi za kon­sul­ta­cję treści.


Przy­pi­sy

1 J. Bła­że­wicz, Bio­in­for­ma­ty­ka i jej per­spek­ty­wy, wykład inau­gu­ra­cyj­ny, Poli­tech­ni­ka Poznań­ska, 2011. http://www2.cs.put.poznan.pl/wp-content/uploads/2011/11/wyklad_inauguracyjny_2011.pdf

2 J. D. Wat­son, Podwój­na heli­sa. Histo­ria odkry­cia struk­tu­ry DNA, Warszawa,1995.