Skip to content
TopicTracker
出典 HackerNews原文を表示
翻訳言語翻訳言語

DocETL: Declarative and Agentic Map-Reduce

DocETL is a tool for building declarative and agentic map-reduce pipelines, designed to process and transform documents efficiently using a flexible, agent-driven approach.

背景メモ

・DocETLは、UCバークレーのEPICラボが開発した、大規模文書処理のための宣言型マップリデュース・フレームワーク。単にLLM(大規模言語モデル)を呼び出すのではなく、複雑なデータ変換パイプラインを「どう実装するか」ではなく「何をしたいか」を宣言的に記述できる点が特徴。 ・従来のマップリデュース(Hadoopなど)が構造化データ向けなのに対し、DocETLは非構造化テキストをLLMエージェントで処理するよう設計されている。ユーザーはYAMLでパイプラインを定義し、LLMが自動的に最適な演算計画(マッピング、フィルタリング、分割、結合など)を選択・実行する。 ・同ラボは以前、データ管理とLLMを組み合わせた研究で知られる。DocETLは「agentic」(エージェント的)な処理を宣言的に書ける点で、LangChainやLlamaIndexのような低レベルLLMフレームワークとは一線を画す。 ・背景として、非構造化テキストデータ(契約書、論文、医療記録など)の大規模処理需要が高まっているが、従来のETL(Extract-Transform-Load)ツールではLLMの推論能力を活かしきれない問題がある。DocETLはこのギャップを埋める研究プロジェクト。