设计一个模型,做到输入一个蛋白质序列,从/data/pdb这个文件中查找到尽可能相似的12个蛋白质序列。
query.fasta
: 评价模型性能使用的1024个输入序列数据
TMalign
: 评价输入序列和查找到的12个序列的相似性的程序
train.py
: 训练脚本
test.py
: 测试脚本
pdb/
: 供搜索的数据库,共107160个蛋白质
其他文件可以自己加
data/
:数据处理、数据加载相关代码。
model/
:网络模型。
loss/
:训练用损失函数。
ckpt/
:保存的模型参数。已经设置了gitignore所以git push时不会传到仓库。