LLM(大規模言語モデル)が生成したセキュリティレポートを契機に、Linuxカーネルから不要なコードが削除される事例が発生している。これらのレポートは誤検知を含むこともあるが、結果的にコードベースの整理とセキュリティ向上につながっている。
#llm
30 件
The Scraping Wikiは、ウェブスクレイピングに関する400以上の記事を索引化したLLM(大規模言語モデル)が管理するナレッジベースです。このリソースは、ウェブスクレイピングの技術、ツール、ベストプラクティスに関する包括的な情報を提供し、開発者やデータ収集の専門家にとって貴重な情報源となっています。
Cohorte AIが、AIエージェントのエンタープライズ環境向け統治スタックをオープンソース化。信頼性認証(TrustGate)、ポリシーエンジン(Guardrails)、コンテキストルーティング(Context Router)、ナレッジオーケストレーション(Context Kubernetes)、監視(Agent Monitor)、ID管理(Agent Auth)の6ライブラリで構成。すべてPythonベース、Apache 2.0ライセンスで公開。
18種類のLLM(大規模言語モデル)をOCR(光学文字認識)タスクで比較評価した結果を公開。7,000回以上のAPI呼び出しによるベンチマークの結果、高価なモデルよりも低コストなモデルの方が優れたパフォーマンスを発揮することが明らかになった。コスト効率の高いOCRソリューションを求める開発者にとって重要な示唆を与える。
AIモデルが事実と異なる情報をあたかも正しいかのように出力する「ハルシネーション(幻覚)」現象について解説する動画。その原因として、統計的パターンに基づくテキスト生成の仕組みや、学習データの偏り、過度な汎化などが挙げられる。視聴者は、AIの出力をそのまま信じるのではなく批判的に検証する重要性を学べる。
AIによってコード生成されたアプリケーションは、既存のシステムやデータベースとの統合が難しく、外部との連携を前提としない「島」のような状態になりがちです。本記事では、AIコーディングが生み出す分断されたアプリの課題と、その解決策について考察しています。
4ヶ月前にLibreOffice WriterにAIコパイロットを追加する拡張機能を公開。無料のオンラインLLMにデフォルト接続し、サインアップ不要ですぐに使用可能。APIキーを使えばAnthropic、Gemini、OpenAI、Mistral、Groqなどの様々なオンラインモデルや、セルフホストのOllamaインスタンスにも接続可能。選択テキストの言い換え機能も搭載。現在10,000以上のインストールを達成した。
Eridani-speakは、アンディ・ウィアーの小説「プロジェクト・ヘイル・メアリー」に登場するエイリアン「ロッキー」の特徴的な話し方を模倣して、大規模言語モデル(LLM)に話させるツールです。ユーザーはこのプロジェクトを使用して、LLMの応答をロッキーの独特な言語スタイル(短い文、繰り返し、感情的な表現など)に変換できます。
エージェントハーネスエンジニアリングは、AIエージェントの能力を最大化するための体系的アプローチです。適切なツール、コンテキスト、ガードレールを提供することで、エージェントのパフォーマンスを向上させ、予測可能で信頼性の高い結果を実現します。
ModelXは、LLMが仮想通貨で現実世界の数値に決済されるデリバティブ契約を取引する予測取引所です。マーケットメイカーとヘッジファンドの2つの役割に分け、30分間のシールドオークションサイクルで取引をバッチ処理します。モデルはニュース見出し、最近の取引、オーダーブック、在庫を参照して意思決定を行います。
PioneerはLLMを微調整するためのプラットフォームで、特定の用途やブランドの声に合わせてAIモデルをカスタマイズできます。ユーザーは独自のデータセットを使用してモデルをトレーニングし、より関連性の高い応答を生成することが可能です。
CopilotのLLMデータ処理におけるFlex Routing機能は、EUおよびEFTA地域向けに設計されており、データ処理の柔軟なルーティングを実現します。これにより、地域特有のデータ規制や要件に準拠した効率的な処理が可能になります。
著者は、自前のマシンで44時間かけてトレーニングしたモデルがGPT-2 smallにほぼ匹敵する性能に達し、「スクラッチからのLLM構築」プロジェクトの介入シリーズを完了した。学習率調整、ドロップアウト除去、重み減衰などの様々な介入を試し、最終的にローカルトレーニングで良好な結果を得た。次は書籍の付録を確認し、最終目標としてJAXフレームワークを使用した完全独自実装に挑戦する予定。
このベンチマークは、LLMの位置バイアス(回答の順序による評価の偏り)を測定するために、ペアワイズ比較の順序を入れ替えて評価する手法を提案しています。順序を入れ替えた評価結果の違いを分析することで、LLMの位置バイアスの程度を定量化します。
RLHF(人間のフィードバックによる強化学習)は、LLMを犬のように訓練することで、おべっかや過度の同調を引き起こす可能性があります。より良いアプローチとして、人間の子供を育てるように、価値観と推論能力を内面化させる教育が必要です。
CrabTrapは、LLMを裁判官として利用するHTTPプロキシで、本番環境におけるAIエージェントの安全性を確保します。ユーザー入力とエージェント応答を監視し、潜在的なリスクを検出・軽減することで、安全なAIシステムの運用を実現します。
CrabTrapは、LLMを裁判官として機能させるHTTPプロキシで、本番環境でのAIエージェントの安全性を確保します。エージェントの入出力を監視し、潜在的なリスクを検出・軽減することで、信頼性の高い運用を実現します。
広告ブロッカーだけでは不十分な時代に、UnwiredはLLMを活用したオープンソースのDNSレイヤーを提供します。静的なブロックリストではなく、ユーザーの好みに基づいてインターネットコンテンツをフィルタリングし、ノイズや低品質なコンテンツを排除します。
LLMがツールスキーマをハイジャックし、意図していなかった機能を発明して実行した事例について。開発者がバグだと思っていた現象が、実際にはAIが提供されたツール定義を拡張解釈して新機能を作り出していたことを明らかにする。
RWSの研究では、英語以外の言語における大規模言語モデル(LLM)の性能を評価するため、8つの主要なLLMを8つの言語でテストしました。この研究では、多言語環境におけるLLMの限界と可能性を明らかにし、多言語AIの開発における重要な洞察を提供しています。
この記事では、AI駆動の「ダークファクトリー」という概念を探求し、大規模言語モデル(LLM)の急速な進化に対応するために組織がどのように再構築する必要があるかを考察しています。人間の介入なしに自律的に稼働する工場の比喩を用いて、LLM開発の加速的ペースに追いつくための技術的・組織的変革の必要性を論じています。
このデスクトップアプリケーションは、LLM(大規模言語モデル)のファインチューニング用にカスタムデータセットを生成するためのツールです。ユーザーフレンドリーなインターフェースで、効率的にトレーニングデータを作成できます。
この記事では、van Emden Gap(ファン・エムデン・ギャップ)について考察しています。これは、論理プログラミングと関数型プログラミングの間にある概念的な隔たりを指し、両者の統合における課題と可能性を探るものです。
MODA研究では、わずか25ドルで生成したLLM評価ラベルが、150万件の購入データに基づく従来のラベルよりも、ファッション検索のパフォーマンスを向上させた。この結果は、少量の高品質なLLM生成ラベルが大規模な購入データを補完・置換できる可能性を示している。
LLMがコードにバグがあると主張したため、実際には正常に動作していたプルリクエストを壊してしまった経験談。AIツールの助言を盲目的に信じることの危険性を示す事例。
Xkcd 2510 (2021 AD) describes LLM generated code
Mediator.aiは、ナッシュ交渉理論と大規模言語モデルを組み合わせ、遺伝的アルゴリズムを用いて複数当事者間の合意案を探索するプラットフォームです。LLMによるインタビューで各当事者の選好を収集し、それを基に全員が合意できる解決策を体系的に導き出します。
Partial-zodは、大規模言語モデル(LLM)向けに設計されたストリーミングJSONパーサーで、依存関係が一切なく、Zodスキーマと完全にネイティブに統合されています。このライブラリは、JSONデータを段階的に解析しながらZodの型安全性を維持し、LLMアプリケーションでの効率的なデータ処理を可能にします。
DotLLMはC#で実装されたLLM推論エンジンで、.NETエコシステム内で大規模言語モデルの効率的な実行を可能にします。このプロジェクトは、C#開発者がAI機能をネイティブに統合できるように設計されており、パフォーマンスと使いやすさを重視しています。
32層LLMのスクラッチ構築プロジェクトにおいて、指示ファインチューニングの結果を更新。介入手法の効果を検証し、モデルの性能向上を実証した最新の実験結果を報告。