Šta su to uopšte proteini?
Reč “protein” se u našem kolokvijalnom jeziku obično odnosi na ishranu. Srpski jezik čak ima i reč koja je sinonim za protein: “belančevina,” koja dolazi od “belance” – dakle, od činjenice da su jaja bogata proteinima. Zbog ovoga, iznenađujuće veliki broj ljudi ima samo bledu, opštu ideju da su proteini deo ishrane, nešto što je “potrebno telu,” otprilike slično kao vitamini. Ali to preskače stvarnu širinu njihove uloge u biologiji.
Proteini daju oblik ćelijama i telu. Svi znaju da je kalcijum važan za kosti; ali kalcijum čini manje od 2% ljudskog tela. Naše kosti se u stvari većinom sastoje od proteina, pretežno kolagena. Isti ti kolageni (u pitanju je čitava “porodica” sličnih proteina) takođe daje strukturu koži. Proteini zvani keratini čine ljudsku kosu, rogove jelena i nosoroga, i kopita konja. Koža je elastična i meka zbog proteina koji se zove, naravno, “elastin.”
Proteini proizvode svo kretanje u biološkim sistemima. Kad god se pomerimo, to se događa zato što jedan protein (miozin) u našim mišićima koristi energiju da povuče lance sastavljene od drugog proteina (aktina) jedne prema drugima.
Proteini prenose signale. Kad god pomislimo misao, to se događa kroz dejstvo stotina različitih proteina u našem mozgu, koji oslobađaju i modulišu neurotransmitere, i time prenose signal od jedne nervne ćelije do sledeće. Vaše čitanje ovog teksta je zasnovano na činjenici da u oku imate proteine, opsine, koji su u stanju da reaguju na svetlost.
Proteini vrše hemijske reakcije neophodne za život. Kada pojedete neku hranu, nju u vašem probavnom sistemu razlažu razni enzimi – a sama reč “enzim” je prosto reč za protein koji ima hemijsku aktivnost. Kada vas napadne neka infekcija, vaš imuni sistem vas brani tako što proizvodi specijalnu kategoriju proteina, antitela, kojima prepoznaje i uništava napadača.
Ova ogromna fleksibilnost proteinske hemije omogućava život, razvoj, i sve ostalo. Razumevanje proteina je centralno za razumevanje biologije.
Kako proteini mogu da postignu sve to?
Gledajući taj opseg od strukture do hemije, postavlja se pitanje kako jedna kategorija supstanci može da ima tako raznolike funkcije? Razlog za to je dvostruk: tu je njihova hemijska struktura, i zatim, tu je predmet ovog teksta, njihova konačna trodimenzionalna struktura.
Proteini se sastoje od dvadeset* osnovnih sastavnih delova, takozvanih amino-kiselina. Svaka od tih dvadeset ima delove kroz koje se može povezati sa drugim amino-kiselinama, tako da formira dugačak lanac. Neki proteinski lanci imaju par desetina delova, drugi mogu imati i desetine hiljada. Svaka amino-kiselina ima takođe i svoj posebni “bočni lanac,” koji je sačinjen od različitih hemijskih grupa. Neki od ovih bočnih lanaca su kiseline, neki su baze, neki su alkoholi. Neki su hidrofobični (odbijaju vodu), dok su drugi hidrofilični (privlače vodu). Neki su pozitivno naelektrisani, neki negativno, a neki su električno neutralni. Tačan red svih amino-kiselina u određenom proteinu se zove “sekvenca,” i od te sekvence zavisi i funkcija i ponašanje proteina.
*(Napomena: ogromna većina proteina se sastoji od dvadeset “klasičnih” aminokiselina. Postoje i dodatne amino-kiseline, ali one su retke, i van okvira ovog teksta.)
Naši geni, zapisani u našoj DNK, najvećim delom sadrže upravo informacije o tome kako napraviti ove lance: kojim redom treba povezati koliko amino kiselina u lanac, koju sekvencu treba napraviti da bi se proizveo određeni protein. U skoro svim našim ćelijama, ovo je jedna od osnovnih funkcija.
Ako zamislite lanac sastavljen od tako raznolikih delova, može vam izgledati da bi rezultat bio čist haos. I to i jeste tako… dogod taj lanac ostane neuređen. Međutim, ako ga ubacite u vodu (a naše ćelije su pune vode), taj lanac će početi da se samoorganizuje. Električno negativni bočni lanci privuku električno pozitivne. Hidrofobični delovi se okupe na gomilu, što “zgužva” ceo lanac. Hidrofilični delovi izbiju na površinu te gužve, da bi bili blizu vode u okruženju. Itd. Neorganizovani lanac se time pretvori u organizovani i relativno stabilan trodimenzionalni oblik.
Na slici ispod možete videti primer kako se to događa, sa jednim malim bakterijskim proteinom zvanim CI-2. Neorganizovani lanac amino-kiselina (levo) postaje organizovana struktura (desno).
Što nas dovodi do centralnog problema ovog teksta. Mi već decenijama možemo prilično lako da ustanovimo sekvencu DNK, i samim tim (pošto ona sledi iz DNK) i sekvencu praktično bilo kog proteina u organizmu. Ali… tu nalećemo na problem. Pogledajmo par primera.
a) Ako uzmemo jedan od gorepomenutih kolagena, recimo kolagen 1, i uporedimo pomoću DNK sekvenci kako on izgleda kod dvoje ljudi koji nisu bliski srodnici, naćićemo dosta razlika. Više amino-kiselina u lancu, možda čak i desetine, će biti drugačije. I to neće imati nikakvih efekata: različiti kolageni, ali eto, normalni ljudi. Ali onda naletimo na nekoga sa jednom specifičnom promenom na 908-moj tački u sekvenci kolagena 1, i odjednom vidimo da ta osoba ima izrazito slab skelet – možete im doslovno smrviti kosti u šaci ako se energično rukujete sa njima. Zašto? Zašto baš promena na tom mestu ima takve posledice, kada promene na drugim mestima nemaju?
b) U ćelijama pluća, sluzokože, i površine očiju možemo da nađemo protein po imenu CFTR. Možemo da ustanovimo da je njegova funkcija (uprošćeno govoreći) da pomaže da se proizvodi sluz koja štiti takva tkiva. I isto kao sa kolagenom, možemo da nađemo da različiti ljudi imaju razlike u mnogim amino-kiselinama u CFTR lancu. Ali kod ljudi kod kojih se poremeti jedna određena, 508-ma, odjednom nastaje teška bolest, cistična fibroza, i oni umiru vrlo mladi od stalnih teških infekcija pluća. Opet, zašto? Kako baš ta promena dovodi do problema?
To postaje jasno tek kada saznamo koja je trodimenzionalna struktura tih proteina. U slučaju kolagena, nalazimo da se oni uvijaju jedni oko drugih u trostruku spiralu. Mutacija na 908-moj tački lanca je baš na najgorem mogućem mestu, tamo gde je ta trostruka spirala najuža; promena dovodi da bočni lanac “viri” prema centru spirale, zbog čega cela spirala postaje mnogo slabija – kao uže koje se sastoji od tri tanja kanapa, ako se ti kanapi razdvoje i počnu da klize jedan preko drugog.
Isto tako, kada smo saznali koja je struktura CFTR, ustanovili smo da promena na 508-moj tački lanca dovodi do uvijanja celog proteina u pogrešnu strukturu; ćelija prepoznaje da je protein pogrešno napravljen, i uništava ga. Osoba otud ostaje bez pravilnog lučenja sluzi u plućima, sa nezaštićenom površinom pluća. Tu, u sluzi koja je mnogo gušća nego što treba da bude, bakterije se zatim razmnožavaju i izazivaju bolest i smrt.
Štaviše, postoje čak i situacije kada teška bolest može nastati samo kroz promene u strukturi, bez promena u sekvenci. Protein zvani PrP (skraćenica za “prion protein”) ima niz važnih funkcija u ljudskom mozgu. Ali ako se on ikada razmota, on zatim može da se pogrešno uvije u drugačiji oblik, koji je vrlo stabilan i otporan. Ako se to desi, tako pogrešno uvijen protein ima strašnu funkciju: svaki put kada naleti na neki drugi, normalno uvijen PrP, on onda taj normalan natera da se “preuvije” u novi oblik. Time se ta nova, pogrešna struktura “razmnožava” i širi kroz mozak. I kako se širi, tako se nervne ćelije razboljavaju i umiru. Čovek počne da gubi pamćenje, izgubi sposobnost hoda, govora, gutanja, razmišljanja… rezultat je demencija i smrt, u roku od dva-tri meseca od tog prvog početnog proteina koji se uvio u pogrešnu strukturu. Sve bez ikakvih mutacija ili promena u sekvenci!
Razumevanje strukture proteina je otud kritično za razumevanje funkcije, bolesti, i načina lečenja. Kada smo saznali šta je problem sa CFTR proteinom, mogli smo da počnemo da radimo na rešenju. Nakon dve decenije rada od strane hiljada naučnika širom sveta, ovo je dovelo do razvoja tri leka koja stabilizuju uvijanje CFTR proteina u njegovu pravilnu strukturu, što normalizuje funkciju i sprečava progresiju bolesti.
Ovde ćemo samo kratko pomenuti još nešto. Održavanje pravilnog uvijanja proteina je velika i važna funkcija u našem organizmu. Naše ćelije imaju niz sistema kontrole kojim sprečavaju stvaranje pogrešnih struktura (na primeru PrP možemo da vidimo i zašto!), sisteme koji uništavaju proteine koji se pogrešno uviju, i velike sisteme koji spašavaju pogrešno uvijene proteine i nateruju ih da se “pravilno preuviju.” Svaka od ovih stavki je tema o kojoj se može pisati niz ovakvih tekstova, tako da ćemo ih ovde preskočiti. Ali ako vas zanima, pogledajte reč “šaperon” (chaperone) na guglu.
Kako se saznaje koja je struktura proteina?
Nobelovac Kristijan Anfinsen je još tokom 1970-tih predložio “Anfisenovu Hipotezu” (koja se povremeno pojavljuje pod netačnim imenom “Anfinsenova Dogma”): trodimenzionalna struktura proteina zavisi od njegove sekvence. Dakle, ako znate od kojih amino-kiselina je protein sastavljen, i kojim redom, možete predvideti koja će biti njegov konačni trodimenzionalni oblik.
Ali pokušaji da se ovakva predviđanja naprave su decenijama bili neuspešni. Umesto toga, naučnici su morali da “rešavaju strukture” kroz krvavo težak rad.
Prvi pristup kojim se ovo izvodilo je rendgenska kristalografija, koju ću vam opisati iz ličnog iskustva. I bez ikakve gorčine, naravno.
Prvo, morate da proizvedete gigantsku količinu proteina koji vas zanima, milionima puta više nego što obično imate u organizmu. Ovo znači da morate da napravite genetski inženjerisane ćelije koje će proizvesti protein; da ih navedete da to izvedu a da pritom ne poumiru; i da zatim razdvojite protein koji vas zanima od svih drugih koji su prisutni u tim ćelijama.
Zatim, taj skupo napravljeni protein stavljate u male kapljice u kojima su pomešani sa različitim kombinacijama hemijskih supstanci, na različitim koncentracija soli, i u različitim pH vrednostima. Potrebno je isprobati hiljade, nekada desetine hiljada različitih kombinacija, pre nego što se nađe neka koja uspešno proizvodi kristal. U nekoliko legendarnih slučajeva, bile su potrebne decenije pokušaja, i doslovno milioni kombinacija. Za većinu proteina, ovaj proces je neuspešan: kristali prosto nikada ne nastanu.
Ako uspešno dobijete kristal… idete i proslavite to sa društvom. Onda, kada se otreznite, taj kristal – mikroskopski mali – pažljivo, četkicom koja ima samo jednu finu dlačicu, podignete iz kapljice i stavite u malu omču. Zatim tu omču sa kristalom smrznete u tečnom azotu, na -90°C. Nadate se pritom da se kristal neće raspasti čim ga dotaknete, ili da neće postati prah nakon zamrzavanja.
Pod uslovom da je zamrzavanje prošlo kako treba, taj kristal biva pažljivo izložen veoma snažnim rendgenskim zracima. Potrebni su veoma “čisti” i veoma snažni zraci, tako da se ovde najčešće koriste sinhrotroni – gigantske mašine sa prstenovima veličine više stotina metara (ja sam koristio Argonne, koji je 1.1 km dužine), u kojima elektroni relativističkih brzina (99.999% brzine svetlosti) oslobađaju snažne rendgenske zrake svaki put kad promene pravac kretanja. Zraci prolaze kroz kristal i tamo naleću na ponovnu strukturu atoma, pošto su proteini poređani uredno u okviru kristala. To ih prelama, i oni izlaze sa druge strane u obliku difrakcione senke. Ako se stavi detektor, na njemu to izgleda kao serija neobičnih tačkica.
Iz tih tačkica je moguće rekonstruisati, mnogo matematike, računice na univerzitetskom superkompjuteru, i drugih peripetija… je moguće izračunati strukturu elektrona u okviru kristala; a na osnovu toga je moguće napraviti trodimenzionalni model proteina. (Vidi sliku ispod.)
(Autor ovog teksta je uspeo, u tri uložene godine rada, da proizvede tri kvalitetne forme kristala proteina koga je izučavao; nijedan od ta tri nije proizveo rešive podatke. Što je jedan od razloga zbog kojih u autorovoj listi diploma možete da nađete magistraturu iz molekularne biofizike, nakon koje sledi vrlo neobičan skok u potpuno drugo polje, neurobiologiju, onako iznebuha.)
Prosto rečeno, ovo je jako teška, jako pipava, i jako nepredvidiva tehnika. Totalni početnik može da slučajno ubode savršen kristal, dok veliki eksperti lupaju glavom u zid. Kristalografija takođe ima i ogromno ograničenje da se njom mogu rešiti samo strukture proteina koji su potpuno rastvorljivi u vodi. Proteini koji se nalaze u ćelijskim membranama, ili proteini vezani za masti – jako retko mogu da se kristalizuju. Takođe, rešena struktura je uvek statična: proteini su fleksibilni, i stalno se pomeraju i vibriraju, što može biti važno za funkciju, ali se ne vidi u okviru fiksnog kristala. Ali uz sve te probleme, kroz masivan napor ogromnog broja naučnika, kroz decenije rada, skupljeno je više desetina hiljada struktura koje su rešene rendgenskom kristalografijom.
Pored kristalografije, druga česta tehnika je NMR, nuklearna magnetna rezonanca. U ovom slučaju, značajna količina proteina se stavlja u snažno magnetno polje koje pulsira. Između magnetnih pulseva, atomi u proteinima oslobađaju radio-talase, čija frekvencija i snaga zavisi od njihove okoline (tj. koji drugi atomi su u blizini). Uz još više matematike nego kod kristalografije, ovo se može iskoristiti da se nađe pravilna trodimenzionalna struktura. Kao prednost, pošto protein “slobodno plovi” u okviru magnetnog polja, moguće je videti i njegovo kretanje, i mogu se ponekad čak izmeriti i promene koje se dešavaju kada se protein veže za svoju metu, ili kada dotakne neki drugi protein.
Ali što veći protein, to više atoma. Što više atoma, utoliko i matematika potrebna za rešavanje strukture ovom metodom postaje kompleksnija. Zbog toga, NMR može da rešava samo prilično male proteine, sa kratkim sekvencama. Povrh toga, proteini sa repetitivnim strukturama (koje imaju nizove istih ili sličnih amino-kiselina) se nisu mogle razlučiti.
Konačno, u zadnjih nekoliko godina, jedna nova tehnika je počela da pravi ogromne korake. Krio-elektronska mikroskopija, ili cryo-EM, se zasniva na ideji da se proteini ili proteinski komplesi individualno zamrznu u mikroskopskim kapljicama. Zatim se preko njih usmeri zrak vrlo brzih, visokoenergetski elektrona. Dotični potpuno razore i kapljicu i protein, ali iza sebe ostave “senku” te kapljice. Pošto je orjentacija proteina u različitim kapljicama slučajna, ovo proizvodi milione različitih “senki.” Kombinujući informacije iz svih tih senki (pre svega gustinu senke), moguće je matematički rekonstruisati trodimenzionalnu strukturu.
Ako ovo nije jasno, zamislite da pokušavate da nađete kako izgleda čovek koji je razdvojen od vas zidom od tkanine. Na sreću, iza tog čoveka se nalazi snažan izvor svetlosti, i vi možete da vidite njegovu senku na tom zidu. Ako se taj čovek sada okrene levo, desno, napred, nazad, itd., vi ćete polako videti oblik njegove senke iz raznih uglova. I ako imate pristup dovoljno snažnom kompjuteru da sve te senke analizirate, možete iz njih rekonstruisati izgled, makar uopšteno.
Najveći problem cryo-EM je bila rezolucija – mogao je da se vidi oblik proteina otprilike, ali ne detaljno. Ali ovo je polako rešeno, i ove 2020-te godine su se pojavile prve cryo-EM strukture na kojima se vidi svaki atom. Povrh toga, cryo-EM omogućava da se vide strukture u različitim pozicijama (pošto u trenutku zamrzavanja različiti proteini budu “uhvaćeni” u različitim “pozama”), na osnovu čega je moguće rekonstruisati kako se taj protein kreće u prirodnom okruženju. Konačno, ovo je prva tehnika koja omogućava rešavanje velikih struktura koje se sastoje od više proteina ili čak više desetina različitih proteina. Tehnika je revolucionarna, i tek će imati prilike da cveta tokom sledeće decenije.
Da li se struktura može pronaći na osnovu sekvence?
Setimo se Anfinsenove hipoteze: da bi trebalo, u principu, biti moguće da izračunamo strukturu proteina na osnovu njegove sekvence. I kao što sam gore usput rekao, na ovome se radilo još od sedamdesetih godina prošlog veka. U početku jako neuspešno, ali onda sve uspešnije. Nađeni su razni trikovi, a napredak kompjuterske opreme je sam po sebi mnogo pomogao.
Na prvi pogled, uvijanje proteina u konačnu trodimenzionalnu strukturu izgleda kao prilično jasan problem. Stvari sa istim naelektrisanjem se odbijaju, one sa obrnutim se međusobno privlače. Neki bočni lanci beže od vode, neki se okreću prema vodi. Jasna pravila, a lanac je ograničene dužine.
Međutim, u praksi, matematička kompleksnost je ogromna. Jedan deo lanca se kreće prema vodi – ali on onda vuče u tom pravcu sledeći povezani, koji sadrži nešto negativno što želi da se približi nečem pozitivnom, ali to pozitivno beži jer je odmah pored nečeg što se zavlači u unutrašnjost jer ne može da se veže sa vodom… Kalkulacije za uvijanje sekvence od samo desetak amino-kiselina mogu da odnesu doslovno mesece rada moćnih superkompjutera. Ako se ode na sekvence sa stotinama ili hiljadama amino-kiselina, stvari postaju nemoguće čak i za najmoćnije superkompjuterske komplekse koji postoje na svetu.
Zbog toga, isprobavane su razne aproksimacije. Dugo vremena je najuspešniji pristup bio evolucioni: posmatrajući kako se neki protein menjao iz vrste u vrstu, može se videti koje amino-kiseline u lancu se menjaju zajedno, prateći jedna drugu, što je indikacija da su usko povezane u strukturi ili u funkciji. Ovo omogućava da se one onda prate kao jedinica, i da se time olakša računica. Ali čak i najbolji programi ove vrste su uspevali da proizvedu tačne strukture samo u malom broju slučajeva.
Sada, ovog meseca, smo konačno stigli do prvog ozbiljnog rešenja. Ne potpunog, ne konačnog, ali ogroman korak unapred. AlphaMind, sistem veštačke inteligencije zasnovan na principu neuralnih mreža, je razvio algoritam koji se dosta dobro slaže sa stvarnim strukturama. Ovo je postignuto na osnovu mašinskog učenja: veštačkoj neuralnoj mreži su date sekvence i strukture oko 17,000 proteina koje su prethodno rešene metodama o kojima smo pričali u prethodnom delu teksta. Dakle, decenije rada, hiljade naučnika, sve što smo uspeli da saznamo, to smo sve ubacili u sistem, i dali kompjuteru šansu da pokuša da napravi od toga neka pravila.
Rezultujući algoritam je daleko od savršenog. AlphaFold modeli se slažu samo oko 70% sa strukturama koje su već rešene; znači i dalje ima odstupanja, i ima još mnogo posla da se odradi. Ali ovo je daleko bolje od prethodnog rekorda (~48%), ogroman skok.
Takođe, vide se ograničenja mašinskog učenja. AlphaFold nije u stanju da nađe nešto novo, samo je bolji od ljudi u prepoznavanju komplikovanih pravila u velikim gomilama podataka. Pošto je svoja pravila razvio iz podataka koji najvećim delom dolaze iz kristalografije, AlphaFold je jako loš u rešavanju transmembranskih proteina (sa kojima kristalografija ima problema).
Ali ovo je i dalje ogroman napredak, u dva pravca. Prvo, približne strukture kakve proizvodi AlphaFold se mogu upotrebiti kao modeli da se matematički reše neki prethodno nerešivi kristalografski modeli (ako postoji neki početni model, to može da učini računicu iz nejasne difrakcije izvodljivom u realnom vremenskom roku). Znači, pomoćiće da se reše i dodaju dodatne strukture u baze podataka.
Drugo, ovo pokazuje da model postaje utoliko bolji što više podataka ima na kojima može da uči. S obzirom da cryo-EM sada dodaje ogroman broj novih rešenih struktura svake godine, možemo da očekujemo da će AlphaFold kroz dalje učenje postati sve bolji i bolji, i da će se njegovi predviđeni modeli sve više uklapati sa stvarnošću.
Plus, tu je i još jedna stvar. Ja bih rekao najvažnija, mada ne znam koliko čitalaca će se složiti. Naime, otišao sam odmah i dao AlphaFoldu da proba da reši proteine na kojima sam radio u toku magistrature. I jadan AI je radio, radio, radio… i odustao. Pljunuo mi je nazad potpuno nemoguće rešenje. Što znači da imam objektivan dokaz da nisam samo ja nešto zeznuo, već da su ti konkretni proteini stvarno jako teški za rešenje! Validacija nakon petnaest godina!