PINNACLE 蛋白质-蛋白质相互作用工具

概述

PINNACLE 工具提供了细胞类型特异性蛋白质-蛋白质相互作用嵌入的访问。这些嵌入捕捉了不同细胞环境中蛋白质之间的功能关系,支持药物发现、疾病研究及系统生物学的高级分析。

PINNACLE 生成蛋白质的稠密向量表示,编码了特定细胞类型内的直接物理相互作用和功能关联。此种情境化处理使得在组织特异性环境中对生物过程的建模更加准确。

数据采集

1. Download PINNACLE Embeddings

The PINNACLE embeddings are hosted on Hugging Face at: https://huggingface.co/datasets/mims-harvard/ToolSpace

使用以下 shell 命令仅从 pinnacle_cge 目录下载 PINNACLE 文件:

# Install CLI if not already
uvx --from huggingface_hub hf

# Download only the pinnacle_cge folder
uvx --from huggingface_hub hf download mims-harvard/ToolSpace \
  --repo-type dataset \
  --include "pinnacle_cge/*" \
  --local-dir ./path/to/your/pinnacle/

2. Set Environment Variable

下载完成后,设置 PINNACLE_DATA_PATH 环境变量:

export PINNACLE_DATA_PATH="/path/to/ToolSpace"

工具输入与输出

输入参数

参数

类型

必需

描述

单元类型

字符串

嵌入检索的目标单元类型

嵌入路径

字符串

自定义嵌入文件路径(可选)

该工具执行模糊匹配,以处理各种命名约定、空格、连字符和大小写差异。

输出格式

该工具返回一个具有以下结构的JSON对象:

成功响应

{
  "embeddings": {
    "TP53": [0.1234, -0.5678, 0.9012, ...],
    "EGFR": [-0.2345, 0.6789, -0.1234, ...],
    "BRCA1": [0.3456, -0.7890, 0.2345, ...],
    "...": "..."
  },
  "context_info": [
    "Successfully retrieved embeddings for 15234 proteins/genes.",
    "Embedding dimensionality: 256 features per protein.",
    "Cell type context: b_cell (matched and processed)."
  ]
}

嵌入属性

  • 维度:一个328维向量(200维基于结构的蛋白质表示 + 128维上下文感知/无上下文蛋白质表示)

  • 覆盖范围:来自24种组织中156种细胞类型环境的394,760个蛋白质表示

  • 格式:密集数值向量(浮点数列表)

MCP 服务器设置

先决条件

# create a uv virtual enviroment for COMPASS setup
uv venv pinnacle --python 3.10
source pinnacle/bin/activate
uv pip install -r requirements.txt

配置

  1. 设置环境

# Ensure PINNACLE_DATA_PATH points to your ToolSpace directory
export PINNACLE_DATA_PATH="/path/to/ToolSpace"
  1. 验证嵌入文件是否存在

ls -la $PINNACLE_DATA_PATH/pinnacle_embeds/ppi_embed_dict.pth
ls -la $PINNACLE_DATA_PATH/pinnacle_cge/

运行 MCP 服务器

# Run the MCP server
python pinnacle_tool.py

服务器配置

  • 主机0.0.0.0(接受来自任何 IP 的连接)

  • 端口7001(已配置以避免冲突)

  • 传输streamable-http

  • 模式:无状态 HTTP 以实现可扩展性