ProteinTensor – a Parquet-like tensor format for protein-structure ML
ProteinTensorは、タンパク質構造の機械学習向けに設計されたParquetライクなテンソル形式です。従来のフォーマットよりも効率的にタンパク質の構造データを保存・処理できるように設計されており、大規模なタンパク質データセットを用いたMLワークフローでの高速な読み書きを実現します。
背景メモ
- HelixDBは、タンパク質構造データを機械学習向けに効率的に保存・読み出しできる新しいテンソルフォーマット「ProteinTensor」を開発しているオープンソースプロジェクト。
- AlphaFoldなどタンパク質構造予測の進展により、大量の3D構造データ(原子座標、残基間距離、角度など)を扱うMLパイプラインの需要が急増。既存のPDB/mmCIFフォーマットは汎用的だがMLでの読み込みが遅く、Parquet(表形式)では3D構造の階層的関係を表現しにくい。
- ProteinTensorはParquetの列指向メリット(圧縮・高速フィルタリング)を継承しつつ、タンパク質特有の可変長配列・非結合残基・対称性・複数チェーンなどをテンソルとして直接扱えるように設計。PyTorch/Datasetとの統合を想定。
- 発起人のMooreらは以前からタンパク質表現学習(ESM, GearNetなど)に関与しており、構造データの前処理がボトルネックになっている問題に対する実用的な解決策として位置づけられている。