Сколько в человеке протеинов?
Aug. 21st, 2025 04:52 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Ответ на настоящее время: 20421 штука.
Вот скрипт на Питоне, который извлекает из базы UniProt/SwissProt полный список известных протеинов человеческого организма: extract_human_swissprot_proteins.py
Результат записывается в файл human_swissprot_proteins.tsv. Для каждого протеина указывается идентификатор, описание и название гена. К примеру, отыщем всё, связанное с инсулином:
Вот скрипт на Питоне, который извлекает из базы UniProt/SwissProt полный список известных протеинов человеческого организма: extract_human_swissprot_proteins.py
Результат записывается в файл human_swissprot_proteins.tsv. Для каждого протеина указывается идентификатор, описание и название гена. К примеру, отыщем всё, связанное с инсулином:
$ grep -i insulin human_swissprot_proteins.tsvА вот скрипт, показывающий структуру указанного протеина: get_protein_sequence.py. Опробуем на инсулине:
F8WCM5 Insulin, isoform 2 INS-IGF2
O00425 Insulin-like growth factor 2 mRNA-binding protein 3 IGF2BP3
O14654 Insulin receptor substrate 4 IRS4
O15503 Insulin-induced gene 1 protein INSIG1
P01308 Insulin INS
P01344 Insulin-like growth factor 2 IGF2
P05019 Insulin-like growth factor 1 IGF1
P06213 Insulin receptor INSR
P08069 Insulin-like growth factor 1 receptor IGF1R
P08833 Insulin-like growth factor-binding protein 1 IGFBP1
P09565 Putative insulin-like growth factor 2-associated protein N/A
P14616 Insulin receptor-related protein INSRR
P14735 Insulin-degrading enzyme IDE
P17936 Insulin-like growth factor-binding protein 3 IGFBP3
P18065 Insulin-like growth factor-binding protein 2 IGFBP2
P22692 Insulin-like growth factor-binding protein 4 IGFBP4
P24592 Insulin-like growth factor-binding protein 6 IGFBP6
P24593 Insulin-like growth factor-binding protein 5 IGFBP5
P35568 Insulin receptor substrate 1 IRS1
P35858 Insulin-like growth factor-binding protein complex acid labile subunit IGFALS
P51460 Insulin-like 3 INSL3
P61371 Insulin gene enhancer protein ISL-1 ISL1
Q01101 Insulinoma-associated protein 1 INSM1
Q14641 Early placenta insulin-like peptide INSL4
Q16270 Insulin-like growth factor-binding protein 7 IGFBP7
Q6B9Z1 Insulin growth factor-like family member 4 IGFL4
Q6U949 Putative insulin-like growth factor 2 antisense gene protein IGF2-AS
Q6UW32 Insulin growth factor-like family member 1 IGFL1
Q6UWQ7 Insulin growth factor-like family member 2 IGFL2
Q6UXB1 Insulin growth factor-like family member 3 IGFL3
Q86XT9 Insulin-like growth factor-binding protein 3 receptor TMEM219
Q8TDV5 Glucose-dependent insulinotropic receptor GPR119
Q8WX77 Insulin-like growth factor-binding protein-like 1 IGFBPL1
Q96A47 Insulin gene enhancer protein ISL-2 ISL2
Q96T92 Insulinoma-associated protein 2 INSM2
Q9NZI8 Insulin-like growth factor 2 mRNA-binding protein 1 IGF2BP1
Q9Y4H2 Insulin receptor substrate 2 IRS2
Q9Y581 Insulin-like peptide INSL6 INSL6
Q9Y5Q6 Insulin-like peptide INSL5 INSL5
Q9Y5U4 Insulin-induced gene 2 protein INSIG2
Q9Y6M1 Insulin-like growth factor 2 mRNA-binding protein 2 IGF2BP2
$ python3 get_protein_sequence.py P01308Каждая буква обозначает аминокислоту:
Fetching protein sequence for UniProt accession: P01308
UniProt data retrieved for P01308: Insulin
Saved sequence to protein_sequences.fasta
$ cat protein_sequences.fasta
>P01308 | Insulin | UniProt Protein Sequence
MALWMRLLPLLALLALWGPDPAAAFVNQHLCGSHLVEALYLVCGERGFFYTPKTRREAEDLQVGQVELGGGPGAGSLQPLALEGSLQKRGIVEQCCTSICSLYQLENYCN
- A - Аланин
- C - Цистеин
- D - Аспарагиновая кислота
- E - Глутаминовая кислота
- F - Фенилаланин
- G - Глицин
- H - Гистидин
- I - Изолейцин
- K - Лизин
- L - Лейцин
- M - Метионин
- N - Аспарагин
- P - Пролин
- Q - Глутамин
- R - Аргинин
- S - Серин
- T - Треонин
- V - Валин
- W - Триптофан
- Y - Тирозин