Structural Classification of Proteins database
Baza danych SCOP (Structural Classification of Protein Database) zawiera przestrzenne struktury białkowe uporządkowane na podstawie zależności ewolucyjnych i strukturalnych białek. Opiera się w dużej mierze na ręcznej klasyfikacja strukturalnych domen białkowych w oparciu o podobieństwa ich struktur i sekwencji aminokwasowych. Jest dostępna w internecie do darmowego użytku[1].
Baza została założona w 1994 roku przez Alexeya G. Murzina i współpracowników na Laboratorium Biologii Molekularnej i Centrum Inżynierii Białek, przy MRC (Medical Research Council) w Wielkiej Brytanii[2]. Od 2010 roku baza SCOP została przejęta w całości przez Laboratorium Biologii Molekularnej w Cambridge, aż do jej oficjalnego zamknięcia w roku 2014. Ostatnia oficjalna wersja SCOP, dostępna obecnie, to 1.75 wydana w czerwcu 2009.[3][4][5]
Prototyp nowej bazy danych: SCOP2 (Structural Classification of Protein 2) jest dostępny publicznie od 2014 roku z ostatnią wersją z grudnia 2016 roku. SCOP2 klasyfikuje białka inaczej niż SCOP zachowując jednak najlepsze cechy poprzedniej wersji[1][6].
Hierarchia
SCOP jest bazą hierarchiczną. Podstawową jednostką klasyfikacji jest domena. Małe i średnie białka składają się zazwyczaj z jednej domeny, podczas klasyfikacji cząsteczki takie są więc traktowane całościowo[7]. Większe struktury są natomiast dzielone na mniejsze domeny, które później klasyfikuje się oddzielnie. Na przykład białko hemoglobiny o strukturze alfa2beta2, w bazie SCOP ma przypisane dwie domeny: jedną dla podjednostek alfa i drugą dla podjednostek beta[8].
Struktura, sekwencja oraz relacje funkcjonalno-strukturalne pomiędzy domenami, wpływają na klasyfikację domen na różnych poziomach hierarchii. Reguły grupowania białek są zmienne na poszczególnych poziomach hierarchii, od funkcjonalno-strukturalnych do czysto strukturalnych. Modele struktur białkowych pochodzą z PDB (Protein Data Bank)[9].
Poziomy hierarchii SCOP:
- Class (klasy): Najwyższy poziom hierarchii zawierający powiązane ze sobą zwoje, klasyfikowane na podstawie zawartych struktur drugorzędowych.
- Folds (zwoje): Strukturalnie podobne rodziny białek, bez uwzględnienia pokrewieństwa ewolucyjnego.
- Superfamily (nadrodzina): Zgrupowanie rodzin białek o podobnych cechach strukturalnych i funkcjonalnych pochodzących od wspólnego przodka.
- Family (rodzina): Zawiera białka o podobnej sekwencji ale niekoniecznie tej samej funkcji biologicznej.
- Protein (białko): Zbiór podobnych sekwencji pełniących te same funkcje biologiczne.
- Species (gatunek): Pojedyncze sekwencje białkowe pogrupowane według gatunków.
Rodziny w SCOP mają przypisany zwięzły ciąg klasyfikacji, sccs, gdzie pierwsza litera ciągu oznacza klasę, a każda następująca po sobie cyfra identyfikuje po kolei: zwój, nadrodzinę i rodzinę. Na przykład rodzina Globin posiada kod: A.1.1.2.[1][10]
Class (klasy)
Powiązane ze sobą zwoje, tworzą klasy hierarchii. Na podstawie struktur drugorzędowych wyodrębniono w bazie SCOP 11 klas białek.
7 klas to klasy podstawowe:
- All alpha – białka zawierają głównie struktury alfa helisy.
- All beta – białka zawierają głównie struktury beta kartki.
- Alpha and beta – białka zawierają naprzemienne struktury alfa helisy i beta kartki tworzące zazwyczaj równoległe beta kartki.
- Alpha plus beta – białka zawierają struktury alfa helisy i beta kartki występują oddzielnie, głównie antyrównoległe beta kartki.
- Multi domain – białka zawierają dwie lub więcej domen należących do różnych klas.
- Membrane and cell surface proteins – białka błonowe i związane z powierzchnią komórki, z pominięciem białek układu odpornościowego.
- Small proteins – małe białka, głównie zawierające ligandy jonów metali, hem i/lub mostki dwu-siarczkowe.
Pozostałe 4 klasy zawierają modele teoretyczne i struktury kwasów nukleinowych:
- Coiled-coil proteins – białka zwojowe.
- Low resolution protein structures – Struktury białkowe o niskiej rozdzielczości, głównie fragmenty białek.
- Peptides – Peptydy.
- Designed proteins – Białka zaprojektowane, eksperymentalne struktury białkowe o zasadniczo nienaturalnych sekwencjach.
Klasa białek | Liczba zwojów | Liczba nadrodzin | Liczba rodzin |
All alpha | 284 | 507 | 871 |
All beta | 174 | 354 | 742 |
Alpha and beta (a/b) | 147 | 244 | 803 |
Alpha and beta (a+b) | 376 | 552 | 1055 |
Multi-domain | 66 | 66 | 89 |
Membrane and cell surface proteins | 58 | 110 | 123 |
Small proteins | 90 | 129 | 219 |
Suma | 1195 | 1962 | 3902 |
Folds (zwoje)
Każda klasa białek zawiera w sobie pewną liczbę rozróżnialnych zwojów. Poziom ten zawiera podobne strukturalnie rodziny białek, w których główne elementy struktury drugorzędowej i trzeciorzędowej są uporządkowane w ten sam sposób. Białka należące do danego zwoju nie muszą być ze sobą spokrewnione ewolucyjnie[1].
Na przykład klasa "All alpha" zawiera ponad 280 rozróżnialnych zwojów, w tym: globino-podobne, długie alfa-szpilki i domeny dokerów typu I.
Superfamily (nadrodzina)
Domeny w obrębie zwoju klasyfikowane są w nadrodziny. Jest to największe zgrupowanie spokrewnionych ze sobą białek. Podobieństwa sekwencji wewnątrz nadrodziny są niskie, lecz podobieństwa strukturalne są wystarczające, do wskazania pokrewieństwa ewolucyjnego, a zatem istnienia (odległego) wspólnego przodka[1].
Na przykład, dwie nadrodziny zwoju białek globino-podobnych to: nadrodzina globin i nadrodzina alfa-helikalnych ferredoksyn.
Family (rodzina)
Domeny w obrębie nadrodziny klasyfikowane są w rodziny. Białka umieszcza się w tej samej rodzinie, jeśli mają powyżej 30% identyczności sekwencji, lub mniejszą (np. 15%) lecz wykonują tę samą funkcję biologiczną. Do klasyfikowania domen w rodziny i nadrodziny służą narzędzia takie jak BLAST.
Na przykład, cztery rodziny w nadrodzinie globin to: skrócone hemoglobiny (brak pierwszej helisy), mini-hemoglobiny tkanki nerwowej (brak pierwszej helisy, ale bardziej podobna do globin konwencjonalnych), globiny (białka wiążące hem) i fikocyjano-podobne białka fikobilisomy (oligomery dwóch różnych typów globino-podobnych domen zawierających dwie dodatkowe helisy na N-końcu wiążące chromofor biliny).
Przykłady
Po wpisaniu w oknie wyszukiwania[12] zagadnienia "trypsyna +człowiek" (po angielsku) jako jeden z wyników otrzymamy (po angielsku):[13]
- Root: scop
- Klasa: Białka "All beta" [48724]
- Zwój: Trypsyno-podobne proteazy serynowe [50493] beczka, zamknięta; n = 6, S = 8; grecki klucz zduplikowane: składa się z dwóch domen tego samego zwoju
- Nadrodzina: Trypsyno-podobne proteazy serynowe [50494]
- Rodzina: Proteazy eukariotyczne [50514]
- Białko: Trypsyna (ogen) [50515]
- Gatunek: Człowiek (Homo sapiens) [TaxId: 9606] [50519]
Po wpisaniu w oknie wyszukiwania[12] zagadnienia "Hemoglobin +człowiek" (po angielsku) jako jeden z wyników otrzymamy (po angielsku):[14]
- Root: scop
- Klasa: Białka "All beta" [46456]
- Zwój: Globino-podobne [46457] rdzeń: 6 helis; złożony liść, częściowo otwarty.
- Nadrodzina: Globin-like [46458]
- Rodzina: Globiny [46463] Białka wiążące hem
- Białko: Hemoglobina, podjednostka alfa [46486]
- Gatunek: Człowiek (Homo sapiens) [TaxId: 9606] [46487]
Następcy SCOP
Prototypowy system klasyfikacji SCOP2 ma za zadanie przywiązywać większą uwagę do ewolucyjnej złożoności pochodzenia struktury białka. W przeciwieństwie do SCOP nie posiada więc prostej hierarchii lecz sieć powiązań między nadrodzinami białek, reprezentując ich relacje strukturalne i ewolucyjne. Przykłady takich powiązań strukturalno-ewolucyjnych to: permutacje kołowe, fuzje domen i zanikanie domen. W związku z tym między domenami nie ma ściśle określonych granic, są raczej definiowane przez swoje relacje z najbardziej podobnymi do siebie strukturami. Od lutego 2015 prototyp SCOP2 klasyfikuje 995 wpisów PDB[15].
Przypisy
- ↑ a b c d e AleksandraA. Gruca AleksandraA., Bioinformatyczne bazy danych, Wydawnictwo PJWSTK, 2010, ISBN 978-83-63103-51-4 [dostęp 2019-02-01] (pol.).
- ↑ AntoninaA. Andreeva AntoninaA. i inni, Data growth and its impact on the SCOP database: new developments, „Nucleic Acids Research”, 36 (Database issue), 2008, D419–D425, DOI: 10.1093/nar/gkm993, ISSN 0305-1048, PMID: 18000004, PMCID: PMC2238974 [dostęp 2019-02-01] .
- ↑ AntoninaA. Andreeva AntoninaA. i inni, SCOP database in 2004: refinements integrate structure and sequence family data, „Nucleic Acids Research”, 32 (Database issue), 2004, D226–D229, DOI: 10.1093/nar/gkh039, ISSN 0305-1048, PMID: 14681400, PMCID: PMC308773 [dostęp 2019-02-01] .
- ↑ T JT.J. Hubbard T JT.J. i inni, SCOP: a Structural Classification of Proteins database., „Nucleic Acids Research”, 27 (1), 1999, s. 254–256, ISSN 0305-1048, PMID: 9847194, PMCID: PMC148149 [dostęp 2019-02-01] .
- ↑ Loredana LoL.L. Conte Loredana LoL.L. i inni, SCOP: a Structural Classification of Proteins database, „Nucleic Acids Research”, 28 (1), 2000, s. 257–259, ISSN 0305-1048, PMID: 10592240, PMCID: PMC102479 [dostęp 2019-02-01] .
- ↑ SCOP2 [online], scop2.mrc-lmb.cam.ac.uk [dostęp 2019-02-01] .
- ↑ Alexey G.A.G. Murzin Alexey G.A.G. i inni, SCOP: A structural classification of proteins database for the investigation of sequences and structures, „Journal of Molecular Biology”, 247 (4), 1995, s. 536–540, DOI: 10.1016/S0022-2836(05)80134-2, ISSN 0022-2836 [dostęp 2019-02-01] .
- ↑ Sam-YongS.Y. Park Sam-YongS.Y. i inni, 1.25 Å Resolution Crystal Structures of Human Haemoglobin in the Oxy, Deoxy and Carbonmonoxy Forms, „Journal of Molecular Biology”, 360 (3), 2006, s. 690–701, DOI: 10.1016/j.jmb.2006.05.036, ISSN 0022-2836 [dostęp 2019-02-01] .
- ↑ PDB.org, wwPDB: Worldwide Protein Data Bank [online], www.wwpdb.org [dostęp 2019-02-01] (ang.).
- ↑ Loredana LoL.L. Conte Loredana LoL.L. i inni, SCOP database in 2002: refinements accommodate structural genomics, „Nucleic Acids Research”, 30 (1), 2002, s. 264–267, ISSN 0305-1048, PMID: 11752311, PMCID: PMC99154 [dostęp 2019-02-01] .
- ↑ SCOP: Help [online], scop.mrc-lmb.cam.ac.uk [dostęp 2019-02-01] [zarchiwizowane z adresu 2019-02-16] .
- ↑ a b SCOP: Search Form [online], scop.mrc-lmb.cam.ac.uk [dostęp 2019-02-01] [zarchiwizowane z adresu 2019-02-08] .
- ↑ SCOP: Protein: Trypsin(ogen) from Human (Homo sapiens), trypsin IV (brain isoform) [TaxId: 9606] [online], scop.mrc-lmb.cam.ac.uk [dostęp 2019-02-01] [zarchiwizowane z adresu 2009-08-01] .
- ↑ SCOP: Protein: Hemoglobin, alpha-chain from Human (Homo sapiens) [TaxId: 9606] [online], scop.mrc-lmb.cam.ac.uk [dostęp 2019-02-01] [zarchiwizowane z adresu 2016-09-19] .
- ↑ "What is the relationship between SCOP, SCOPe, and SCOP2" [online], scop.berkeley.edu [dostęp 2019-02-01] .