Skip to content
TopicTracker
出典 HackerNews原文を表示
翻訳言語翻訳言語

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M

Empero-AI/Qwythos-9B-Claude-Mythos-5-1Mは、Hugging Faceで公開されている9Bパラメータの言語モデルです。Claude Mythosデータセットを用いてファインチューニングされており、高度な推論と応答生成を目的としています。

背景メモ

Hugging Face上に公開された、Qwen2.5-9Bをベースにした大規模言語モデル(LLM)。約100万件の合成ストーリーデータ(Claude Sonnet 4.5で生成された「Mythos-5」スタイル)で追加学習(LoRAファインチューニング)されており、短編小説やロールプレイなどのクリエイティブ・ライティングに特化している。元のベースモデル(Alch3mist-AI/Qwen2.5-9B-Minerva)は、中国DeepSeek社の高能率MoEアーキテクチャ「DeepSeek-R1」の蒸留技術が用いられた派生モデル。LlamaやGemmaなどの大手モデルに比べ、Qwenは比較的リソース効率が良く、コミュニティによるカスタム学習が盛んに行われている。このモデルは「Claudeの文体をQwenに移植する」という試みの一つで、GPUメモリ16GB程度で推論可能なサイズながら、特定の物語的出力に特化している点が特徴。