Foldseek本地部署 骨灰级教程-- cpu 模式参考
---------------------------------------------------------------------------------------------各位有合作需求的看官点击 博主头像微信添加好友按名字搜索即可------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------######### 教程自此开始########---------------------------------------------------------------------------------------------必要前提可能用到的两个大模型文件 ---- 可以手动处理以免深加工过程给你卡死afdb50.tar.gzuniref50.fasta.gz---------------------------------------------------------------------------------------------时间有限就不整那些 bash 格式有的没的了直接贴出来全程测试机20年左右中等商务台式机内存升级到48 GB系统盘 500GB SSD数据盘 2TB 高速机械盘2TB M2口 盘---------------------------------------------------------------------------------------------# 这里先添加一个前置二选一即可1开启wsl功能重启进入wsl2import一个纯净版的Ubuntu镜像这里用的是22.04版的---------------------------------------------------------------------------------------------1 进入wsl pure 终端wsl -d pure---------------------------------------------------------------------------------------------2 更新系统包sudo apt update sudo apt upgrade -y---------------------------------------------------------------------------------------------3 安装必要工具 wget 用于下载tar 用于解压grep 用于检查 CPUsudo apt install wget tar grep -y---------------------------------------------------------------------------------------------4 检查 CPU 是否支持 AVX2你的机器应该支持如果没有输出为空则需用 ARM64 版但 Intel 机通常有cat /proc/cpuinfo | grep avx2# 如果看到 avx2继续否则联系 grok 继续调整------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------步骤1 -- 下载并安装foldseek二进制推荐方式无需编译---------------------------------------------------------------------------------------------1 创建安装目录 建议放用户主目录下便于管理或放 2TB SSD 挂载点如果你已 mountmkdir -p ~/foldseek cd ~/foldseek---------------------------------------------------------------------------------------------2 下载 Linux AVX2 二进制从官方 mmseqs.com 镜像wget https://mmseqs.com/foldseek/foldseek-linux-avx2.tar.gz---------------------------------------------------------------------------------------------3 解压tar xvzf foldseek-linux-avx2.tar.gz---------------------------------------------------------------------------------------------4 添加到PATH临时生效方案export PATH$(pwd)/foldseek/bin/:$PATH推荐下面是永久添加 PATH 到 ~/.bashrc 的手动步骤1 运行编辑 .bashrc 指令nano ~/.bashrc2 在文件最下面添加这一行export PATH$HOME/foldseek/foldseek/bin/:$PATH3 保存退出CtrlO → Enter → CtrlXsource ~/.bashrc# 刷新使之生效foldseek --help------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------# ------------------ 可选用 Miniconda 安装 Foldseek如果不喜欢二进制版wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh# 下载bash Miniconda3-latest-Linux-x86_64.sh -b -p $HOME/miniconda# 安装export PATH$HOME/miniconda/bin:$PATH# 将$HOME/miniconda/bin插入到PATH的最前面这样系统会优先在该目录下查找命令从而确保可以找到并运行conda等工具source ~/.bashrc# 刷新使之立即生效conda install -c conda-forge -c bioconda foldseek# 此后再通过conda从bioconda通道安装foldseek1. 创建数据目录# ------------------ 数据库下载建议放在 /mnt/h 大盘 ------------------mkdir -p ~/foldseek/databases cd ~/foldseek/databases# 这条指令——不执行它会放到 home下面——我们是要放到H:\foldseek/databases下面mkdir -p /mnt/h/foldseek/databases cd /mnt/h/foldseek/databases# 用这条指令---------------------------------------------------------------------------------------------2. 下载常用数据库用 foldseek databases 命令它会自动下载并解压1小型测试库PDB全是PDB几个GB大小适合入门mkdir tmp foldseek databases PDB pdb tmp2中型AlphaFold Swiss-Prot 10 Million ? 结构几十 GBfoldseek databases Alphafold/Swiss-Prot afdb_swissprot tmp3大型AlphaFold Proteome 全蛋白组几百 GBSSD是够用但48 GB RAM需要优化——才有可能使用foldseek databases Alphafold/Proteome afdb_proteome tmp4超大AlphaFold UniProt50聚类版54 Million 结构几百 GB-- 优化了运行参数推荐用地参数跑不影响结果准确性 -- sort-by-structure-bits 0foldseek databases Alphafold/UniProt50 afdb50 tmp# 这条指令应该是通过foldseek来下载这两个序列库5ProstT5 模型序列搜索必备必须要下的foldseek databases ProstT5 prostt5_weights tmp3. tmp 目录是临时文件夹可删后重用。下载时间取决于网速可能需要vpn支持。---------------------------------------------------------------------------------------------内存提示对大库如 afdb50默认需 ~151GB RAM你的 48GB 不够。用 --sort-by-structure-bits 0 降到 ~35GB结果 E-value 不变但排序略变。或用 --prefilter-mode 1 流式搜索。------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------步骤3 基础指令M610台式机能运行//跑得动的示例# ------------------ 常用搜索 / 聚类 示例 ---------------------------------------------------------------------------------------------------------------1. 结构搜索用PDB mmcif 文件查询数据库 -- 也是最基本的应用用一个结构文件查库示例搜PDB库输出aln.tsvfoldseek easy-search query.pdb pdb/ aln.tsv tmp/ --prefilter-mode 1 --sort-by-structure-bits 0# --prefilter-mode 1内存低适合单查询。# 输出格式加 --format-mode 3生成交互 HTML在浏览器看 3D 比对。# 对大库如 afdb50加 --sort-by-structure-bits 0 省内存。# 时间几秒到分钟你的 CPU 够。---------------------------------------------------------------------------------------------2. 序列搜索直接用 FASTA 序列搜结构空间无需预测结构最实用升级功能用ProtT5。-- 示例序列搜AFDB Swiss-Protfoldseek easy-search query.fasta afdb_swissprot/ aln.tsv tmp/ --prostt5-model prostt5_weights/ --prefilter-mode 1 --sort-by-structure-bits 0# 下下载ProsT5模型如上面# 超快M610应该是 每个序列查询在几秒内完成输出TM-score等---------------------------------------------------------------------------------------------3. 结构聚类对多个结构分组 --- 示例聚类目录下所有PDB文件覆盖率 0.9foldseek easy-cluster structures/ cluster_res/ tmp/ -c 0.9 --prefilter-mode 1# 适合几千条序列的结构大规模的分批跑---------------------------------------------------------------------------------------------4. 蛋白复合物搜索/聚类Multimer-- 示例搜复合物数据库foldseek easy-multimersearch complexes/ afdb_proteome/ multimer_res/ tmp/ --prefilter-mode 1 --sort-by-structure-bits 0或聚类foldseek easy-multimercluster complexes/ multimer_clu/ tmp/ --multimer-tm-threshold 0.65# M610 适合小中型复合物---------------------------------------------------------------------------------------------5. 自定义数据库创建如果有自己的FASTA/PDB示例1用自由序列组/PDB 组合foldseek createdb my_sequences.fasta my_db --prostt5-model prostt5_weights/foldseek createindex my_db tmp/2从PDBfoldseek createdb my_structures/ my_dbfoldseek createindex my_db tmp/---------------------------------------------------------------------------------------------通用提示# tmp/ 是临时目录跑完可删。# 多线程默认用所有核心你的 CPU ~4-8 核够用。加 --threads 8 控制。# 输出aln.tsv 是 TSV 结果加 --format-mode 5 输出叠加 PDB。# 测试用 GitHub 示例文件下载 example/ 目录从 repo。# 问题排查如果 OOM加更多内存优化日志看 stderr。# GPU你的机器无用纯 CPU 没问题速度稍慢但稳定。------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------######### 教程到此结束########

相关新闻

从工程实践看金融级分布式清算系统的高可用与幂等设计

从工程实践看金融级分布式清算系统的高可用与幂等设计

【精选优质专栏推荐】 《AI 技术前沿》 —— 紧跟 AI 最新趋势与应用《网络安全新手快速入门(附漏洞挖掘案例)》 —— 零基础安全入门必看《BurpSuite 入门教程(附实战图文)》 —— 渗透测试必备工具详解《网安渗透工具使用教程(全)》 —— 一站式工具手册《CTF 新手入门实战教…

2026/7/5 11:00:16 阅读更多 →
救命神器9个AI论文工具,专科生毕业论文救星!

救命神器9个AI论文工具,专科生毕业论文救星!

救命神器9个AI论文工具,专科生毕业论文救星! AI 工具,让论文写作不再难 对于许多专科生来说,毕业论文仿佛是一道难以逾越的门槛。从选题到撰写,再到反复修改和降重,每一步都充满了挑战。而如今,…

2026/7/2 22:15:38 阅读更多 →
用恋爱脑解释AI:原来算法追人和你追crush一模一样!

用恋爱脑解释AI:原来算法追人和你追crush一模一样!

当你的心跳加速时,AI的神经网络也在“怦然心动” 开篇:那个让你失眠的crush 上周,朋友小李凌晨三点给我发消息:“她给我朋友圈点赞了!但没回我微信…AI能分析出她到底喜不喜欢我吗?” 我看着他发来的密密麻…

2026/7/3 14:44:33 阅读更多 →

最新新闻

基于协同过滤的SpringBoot+Vue商品推荐系统:从算法原理到工程实践

基于协同过滤的SpringBoot+Vue商品推荐系统:从算法原理到工程实践

这次我们来看一个基于协同过滤算法的商品推荐系统,这是一个典型的Java Web毕业设计/课程实践项目。项目采用SpringBoot Vue MySQL MyBatis的技术栈,实现了从用户行为数据采集到个性化商品推荐的全流程。对于正在学习Java后端开发、SpringBoot框架&…

2026/7/5 11:01:17 阅读更多 →
动作游戏开发:UE与Unity双引擎核心技术与实践指南

动作游戏开发:UE与Unity双引擎核心技术与实践指南

1. 动作游戏开发的核心预备知识体系作为从业十余年的游戏开发者,我经常被问到一个问题:"想开发一款UD(Unreal/Unity双引擎)动作游戏,应该从哪里开始准备?"这个问题看似简单,但实际上包…

2026/7/5 10:59:16 阅读更多 →
AI大模型API的CC攻击防御:构建多层算力防线与实战方案

AI大模型API的CC攻击防御:构建多层算力防线与实战方案

1. 项目概述:当AI算力成为攻击目标最近和几个做AI应用开发的朋友聊天,发现大家普遍遇到了一个头疼的新问题:自己辛辛苦苦搭建、调优的大模型API服务,上线没多久,访问量就异常飙升,服务器CPU和GPU瞬间拉满&a…

2026/7/5 10:57:16 阅读更多 →
Linux磁盘挂载:用UUID彻底解决盘符漂移,保障系统稳定

Linux磁盘挂载:用UUID彻底解决盘符漂移,保障系统稳定

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 在服务器运维和日常开发中,给 Linux 系统挂载新硬盘是一项基础但至关重要的操作。很多朋友,尤其是刚接触 Linu…

2026/7/5 10:57:16 阅读更多 →
从零构建Coze多智能体应用:架构设计与工程实践详解

从零构建Coze多智能体应用:架构设计与工程实践详解

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 在实际项目中,当我们需要构建一个能够处理复杂、多步骤任务的智能助手时,单一的逻辑处理单元往往会变得臃肿且…

2026/7/5 10:55:16 阅读更多 →
Dify:从AI原型到生产级应用的工程化平台实战指南

Dify:从AI原型到生产级应用的工程化平台实战指南

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 你是不是也遇到过这样的场景:想快速验证一个AI应用的想法,比如做个智能客服、文档问答机器人,或者…

2026/7/5 10:55:16 阅读更多 →

日新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

周新闻

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容

B站视频下载神器BiliTools:5分钟学会轻松保存任何B站内容 【免费下载链接】BiliTools A cross-platform bilibili toolbox. 跨平台哔哩哔哩工具箱,支持下载视频、番剧等等各类资源 项目地址: https://gitcode.com/GitHub_Trending/bilit/BiliTools …

2026/7/5 0:03:34 阅读更多 →
威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型全解析:从新手入门到实战应用,助你构建安全产品!

威胁模型的陌生现状在忙碌疲惫的一天里,参与了关于混合后量子密码学的讨论,应付端点攻击找茬的人,还参与留言板讨论后,发现“威胁模型”对多数人仍是陌生概念,且多被当作时髦用语。有趣的相关画作有一幅由 Embyr 创作的…

2026/7/5 0:03:34 阅读更多 →
渗透测试入门指南:从零基础到实战环境搭建

渗透测试入门指南:从零基础到实战环境搭建

1. 从“看热闹”到“入门”:我理解的渗透测试到底是什么?每次看到新闻里说某个大公司的数据被“黑”了,或者某个网站被攻击导致服务瘫痪,你是不是和我一样,心里会冒出两个念头:一是“这黑客真厉害”&#x…

2026/7/5 0:07:38 阅读更多 →

月新闻