Проект предназначен для анализа и визуализации взаимодействий между белками, связанными с процессами старения человека. Система использует данные из базы данных STRING для построения сетей взаимодействий и комплексного анализа белковых пар.
Назначение: Конвертация идентификаторов UniProt в ENSP-идентификаторы STRING базы данных
Функциональность:
- Принимает список UniProt ID
- Выполняет запрос к STRING API для преобразования идентификаторов
- Сохраняет результаты в CSV-файл
uniprot_to_ensp.csv
Назначение: Получение данных о белковых взаимодействиях из STRING базы данных
Функциональность:
- Запрашивает информацию о взаимодействиях для списка ENSP-идентификаторов
- Фильтрует взаимодействия с высоким уровнем достоверности (score ≥ 900)
- Сохраняет результаты в файл
protein_interactions.csv
Назначение: Комплексный анализ и визуализация данных о белковых взаимодействиях
Аналитические возможности:
- Дескриптивная статистика датасета
- Анализ пропущенных значений
- Корреляционный анализ (метод Спирмена)
- Гистограммы распределения оценок взаимодействий (score, escore, dscore, tscore, ascore)
- Тепловая карта корреляций между различными типами оценок
- Топ-20 генов по количеству взаимодействий
- Сетевые графики взаимодействий высокой достоверности:
- 2D сеть (spring layout)
- 3D интерактивная сеть
- Scatter plots для анализа соотношения экспериментальных и баз данных оценок
- Выделение высоконадежных взаимодействий:
- score ≥ 0.9
- escore ≥ 0.8
- dscore ≥ 0.7
- Анализ взаимодействий с известными генами старения
Для работы проекта необходимы следующие библиотеки Python:
pip install pandas matplotlib seaborn networkx plotly requestsПроект включает анализ взаимодействий с ключевыми генами, ассоциированными со старением:
- TP53, SIRT1, SIRT6, FOXO3, MTOR
- AKT1, IGF1R, TERT, CDKN2A, KLOTHO
Проект генерирует:
- Таблицы соответствия идентификаторов
- Статистические отчеты
- Множество визуализаций:
- Статические графики (PNG)
- Интерактивные 3D визуализации
- Тепловые карты корреляций
- Сетевые диаграммы
- Многомерный анализ: использование различных типов оценок достоверности
- Интерактивность: 3D визуализации сетей взаимодействий
- Гибкая фильтрация: настраиваемые пороги достоверности
- Биологическая релевантность: фокус на генах, связанных со старением
Проект предоставляет комплексный инструмент для анализа белковых взаимодействий с акцентом на процессы старения, что может быть полезно для исследований в области геронтологии и молекулярной биологии.