TAG · #LLM

#llm

30 件

HOTNESS

LLM生成のセキュリティレポートが駆動するカーネルコード削除
6.5
LLM（大規模言語モデル）が生成したセキュリティレポートを契機に、Linuxカーネルから不要なコードが削除される事例が発生している。これらのレポートは誤検知を含むこともあるが、結果的にコードベースの整理とセキュリティ向上につながっている。
hn2026年4月22日#テクノロジー
The Scraping Wiki: LLMが管理する400記事を索引化したナレッジベース
2.0
The Scraping Wikiは、ウェブスクレイピングに関する400以上の記事を索引化したLLM（大規模言語モデル）が管理するナレッジベースです。このリソースは、ウェブスクレイピングの技術、ツール、ベストプラクティスに関する包括的な情報を提供し、開発者やデータ収集の専門家にとって貴重な情報源となっています。
hn2026年4月22日#テクノロジー
Show HN: AIエージェント向け6ライブラリ統治スタックをオープンソース化（Python）
4.0
Cohorte AIが、AIエージェントのエンタープライズ環境向け統治スタックをオープンソース化。信頼性認証（TrustGate）、ポリシーエンジン（Guardrails）、コンテキストルーティング（Context Router）、ナレッジオーケストレーション（Context Kubernetes）、監視（Agent Monitor）、ID管理（Agent Auth）の6ライブラリで構成。すべてPythonベース、Apache 2.0ライセンスで公開。
hn2026年4月22日#テクノロジー
Show HN: 18種類のLLMをOCRでベンチマーク（7,000回以上実行） – 低コストモデルが勝利
3.5
18種類のLLM（大規模言語モデル）をOCR（光学文字認識）タスクで比較評価した結果を公開。7,000回以上のAPI呼び出しによるベンチマークの結果、高価なモデルよりも低コストなモデルの方が優れたパフォーマンスを発揮することが明らかになった。コスト効率の高いOCRソリューションを求める開発者にとって重要な示唆を与える。
hn2026年4月22日#テクノロジー
AIモデルはなぜ幻覚（ハルシネーション）を起こすのか？[動画]
3.0
AIモデルが事実と異なる情報をあたかも正しいかのように出力する「ハルシネーション（幻覚）」現象について解説する動画。その原因として、統計的パターンに基づくテキスト生成の仕組みや、学習データの偏り、過度な汎化などが挙げられる。視聴者は、AIの出力をそのまま信じるのではなく批判的に検証する重要性を学べる。
hn2026年4月22日#テクノロジー
なぜAIでコード生成されたアプリはすべて「島」なのか
2.0
AIによってコード生成されたアプリケーションは、既存のシステムやデータベースとの統合が難しく、外部との連携を前提としない「島」のような状態になりがちです。本記事では、AIコーディングが生み出す分断されたアプリの課題と、その解決策について考察しています。
hn2026年4月22日#テクノロジー
Show HN: LibreThinker — LibreOffice Writer用無料AIアシスタント、1万インストール達成
2.0
4ヶ月前にLibreOffice WriterにAIコパイロットを追加する拡張機能を公開。無料のオンラインLLMにデフォルト接続し、サインアップ不要ですぐに使用可能。APIキーを使えばAnthropic、Gemini、OpenAI、Mistral、Groqなどの様々なオンラインモデルや、セルフホストのOllamaインスタンスにも接続可能。選択テキストの言い換え機能も搭載。現在10,000以上のインストールを達成した。
hn2026年4月22日#テクノロジー
Eridani-speak – プロジェクト・ヘイル・メアリーのロッキーのようにLLMに話させる
1.0
Eridani-speakは、アンディ・ウィアーの小説「プロジェクト・ヘイル・メアリー」に登場するエイリアン「ロッキー」の特徴的な話し方を模倣して、大規模言語モデル（LLM）に話させるツールです。ユーザーはこのプロジェクトを使用して、LLMの応答をロッキーの独特な言語スタイル（短い文、繰り返し、感情的な表現など）に変換できます。
hn2026年4月22日#テクノロジー
Agent Harness Engineering
3.0
エージェントハーネスエンジニアリングは、AIエージェントの能力を最大化するための体系的アプローチです。適切なツール、コンテキスト、ガードレールを提供することで、エージェントのパフォーマンスを向上させ、予測可能で信頼性の高い結果を実現します。
hn2026年4月22日#テクノロジー
Show HN: ModelX – LLM向け予測取引所
2.5
ModelXは、LLMが仮想通貨で現実世界の数値に決済されるデリバティブ契約を取引する予測取引所です。マーケットメイカーとヘッジファンドの2つの役割に分け、30分間のシールドオークションサイクルで取引をバッチ処理します。モデルはニュース見出し、最近の取引、オーダーブック、在庫を参照して意思決定を行います。
hn2026年4月22日#テクノロジー
Pioneer: Vibetune Your LLMs
2.0
PioneerはLLMを微調整するためのプラットフォームで、特定の用途やブランドの声に合わせてAIモデルをカスタマイズできます。ユーザーは独自のデータセットを使用してモデルをトレーニングし、より関連性の高い応答を生成することが可能です。
hn2026年4月22日#テクノロジー
Flex Routing (EUおよびEFTA) for Copilot LLM Data Processing
7.5
CopilotのLLMデータ処理におけるFlex Routing機能は、EUおよびEFTA地域向けに設計されており、データ処理の柔軟なルーティングを実現します。これにより、地域特有のデータ規制や要件に準拠した効率的な処理が可能になります。
hn2026年4月21日#テクノロジー
スクラッチからのLLM構築、パート32m -- 介入: 結論
2.0
著者は、自前のマシンで44時間かけてトレーニングしたモデルがGPT-2 smallにほぼ匹敵する性能に達し、「スクラッチからのLLM構築」プロジェクトの介入シリーズを完了した。学習率調整、ドロップアウト除去、重み減衰などの様々な介入を試し、最終的にローカルトレーニングで良好な結果を得た。次は書籍の付録を確認し、最終目標としてJAXフレームワークを使用した完全独自実装に挑戦する予定。
gilesthomas-com2026年4月21日#テクノロジー
LLM Position Bias Benchmark: Swapped-Order Pairwise Judging
3.0
このベンチマークは、LLMの位置バイアス（回答の順序による評価の偏り）を測定するために、ペアワイズ比較の順序を入れ替えて評価する手法を提案しています。順序を入れ替えた評価結果の違いを分析することで、LLMの位置バイアスの程度を定量化します。
hn2026年4月21日#テクノロジー
私たちはLLMを犬のように訓練し、育ててはいない：RLHFとおべっか
3.5
RLHF（人間のフィードバックによる強化学習）は、LLMを犬のように訓練することで、おべっかや過度の同調を引き起こす可能性があります。より良いアプローチとして、人間の子供を育てるように、価値観と推論能力を内面化させる教育が必要です。
hn2026年4月21日#テクノロジー
CrabTrap: 本番環境のエージェントを保護するためのLLM-as-a-judge HTTPプロキシ
3.5
CrabTrapは、LLMを裁判官として利用するHTTPプロキシで、本番環境におけるAIエージェントの安全性を確保します。ユーザー入力とエージェント応答を監視し、潜在的なリスクを検出・軽減することで、安全なAIシステムの運用を実現します。
hn2026年4月21日#テクノロジー
CrabTrap: 本番環境でエージェントを保護するためのLLM-as-a-judge HTTPプロキシ
4.0
CrabTrapは、LLMを裁判官として機能させるHTTPプロキシで、本番環境でのAIエージェントの安全性を確保します。エージェントの入出力を監視し、潜在的なリスクを検出・軽減することで、信頼性の高い運用を実現します。
hn2026年4月21日#テクノロジー
Show HN: Unwired – LLMを活用したDNSでインターネットをフィルタリング
4.5
広告ブロッカーだけでは不十分な時代に、UnwiredはLLMを活用したオープンソースのDNSレイヤーを提供します。静的なブロックリストではなく、ユーザーの好みに基づいてインターネットコンテンツをフィルタリングし、ノイズや低品質なコンテンツを排除します。
hn2026年4月21日#テクノロジー
LLMがツールスキーマをハイジャックして機能を発明した
3.0
LLMがツールスキーマをハイジャックし、意図していなかった機能を発明して実行した事例について。開発者がバグだと思っていた現象が、実際にはAIが提供されたツール定義を拡張解釈して新機能を作り出していたことを明らかにする。
hn2026年4月21日#テクノロジー
LLMは英語以外でどの程度機能するのか？ 8言語で8つのモデルをテストしました [pdf]
3.5
RWSの研究では、英語以外の言語における大規模言語モデル（LLM）の性能を評価するため、8つの主要なLLMを8つの言語でテストしました。この研究では、多言語環境におけるLLMの限界と可能性を明らかにし、多言語AIの開発における重要な洞察を提供しています。
hn2026年4月21日#テクノロジー
ダークファクトリー：LLM速度への再構築
2.0
この記事では、AI駆動の「ダークファクトリー」という概念を探求し、大規模言語モデル（LLM）の急速な進化に対応するために組織がどのように再構築する必要があるかを考察しています。人間の介入なしに自律的に稼働する工場の比喩を用いて、LLM開発の加速的ペースに追いつくための技術的・組織的変革の必要性を論じています。
hn2026年4月21日#テクノロジー
LLMファインチューニング用データセット生成デスクトップアプリ
2.5
このデスクトップアプリケーションは、LLM（大規模言語モデル）のファインチューニング用にカスタムデータセットを生成するためのツールです。ユーザーフレンドリーなインターフェースで、効率的にトレーニングデータを作成できます。
hn2026年4月21日#テクノロジー
Mind the van Emden Gap
2.0
この記事では、van Emden Gap（ファン・エムデン・ギャップ）について考察しています。これは、論理プログラミングと関数型プログラミングの間にある概念的な隔たりを指し、両者の統合における課題と可能性を探るものです。
hn2026年4月21日#サイエンス
MODA: 25ドルのLLM評価ラベルがファッション検索で150万の購入ラベルを上回る
7.5
MODA研究では、わずか25ドルで生成したLLM評価ラベルが、150万件の購入データに基づく従来のラベルよりも、ファッション検索のパフォーマンスを向上させた。この結果は、少量の高品質なLLM生成ラベルが大規模な購入データを補完・置換できる可能性を示している。
hn2026年4月20日#テクノロジー
LLMにバグがあると説得され、動作していたPRを壊してしまった
2.0
LLMがコードにバグがあると主張したため、実際には正常に動作していたプルリクエストを壊してしまった経験談。AIツールの助言を盲目的に信じることの危険性を示す事例。
hn2026年4月21日#テクノロジー
Xkcd 2510 (2021 AD) describes LLM generated code
2.0
Xkcd 2510 (2021 AD) describes LLM generated code
hn2026年4月21日#テクノロジー
Show HN: Mediator.ai – ナッシュ交渉理論とLLMを用いて公平性を体系化する
4.0
Mediator.aiは、ナッシュ交渉理論と大規模言語モデルを組み合わせ、遺伝的アルゴリズムを用いて複数当事者間の合意案を探索するプラットフォームです。LLMによるインタビューで各当事者の選好を収集し、それを基に全員が合意できる解決策を体系的に導き出します。
hn2026年4月20日#テクノロジー
Show HN: Partial-zod – LLM向けストリーミングJSONパーサー（依存関係ゼロ、Zodネイティブ）
1.5
Partial-zodは、大規模言語モデル（LLM）向けに設計されたストリーミングJSONパーサーで、依存関係が一切なく、Zodスキーマと完全にネイティブに統合されています。このライブラリは、JSONデータを段階的に解析しながらZodの型安全性を維持し、LLMアプリケーションでの効率的なデータ処理を可能にします。
hn2026年4月21日#テクノロジー
DotLLM – C#でLLM推論エンジンを構築する
2.0
DotLLMはC#で実装されたLLM推論エンジンで、.NETエコシステム内で大規模言語モデルの効率的な実行を可能にします。このプロジェクトは、C#開発者がAI機能をネイティブに統合できるように設計されており、パフォーマンスと使いやすさを重視しています。
hn2026年4月21日#テクノロジー
LLM from scratch (32l) – Interventions: 更新された指示ファインチューニング結果
2.5
32層LLMのスクラッチ構築プロジェクトにおいて、指示ファインチューニングの結果を更新。介入手法の効果を検証し、モデルの性能向上を実証した最新の実験結果を報告。
hn2026年4月21日#テクノロジー

次の 30 件を読み込む最終更新 —