Show HN: 18種類のLLMをOCRでベンチマーク(7,000回以上実行) – 低コストモデルが勝利
18種類のLLM(大規模言語モデル)をOCR(光学文字認識)タスクで比較評価した結果を公開。7,000回以上のAPI呼び出しによるベンチマークの結果、高価なモデルよりも低コストなモデルの方が優れたパフォーマンスを発揮することが明らかになった。コスト効率の高いOCRソリューションを求める開発者にとって重要な示唆を与える。
18種類のLLM(大規模言語モデル)をOCR(光学文字認識)タスクで比較評価した結果を公開。7,000回以上のAPI呼び出しによるベンチマークの結果、高価なモデルよりも低コストなモデルの方が優れたパフォーマンスを発揮することが明らかになった。コスト効率の高いOCRソリューションを求める開発者にとって重要な示唆を与える。
A new phishing-as-a-service called Starkiller uses disguised links to load real login pages from target brands. It acts as a relay between victims and legitimate sites, forwarding usernames, passwords, and MFA codes to bypass security measures.
An investigation uncovered a large network of fake support groups on Telegram that spread cryptocurrency stealers and drainers. The network was found to be actively promoting malicious tools designed to drain crypto wallets.
Gemini can identify public figures in images, while ChatGPT and Claude currently do not offer this capability. This represents a functional difference between major AI models regarding image recognition of people.
Inception Labs has launched Mercury 2, described as the world's first reasoning diffusion LLM. The diffusion language model reportedly delivers 5x faster inference speed compared to leading speed-optimized LLMs.
Andrej Karpathy describes using LLMs to build personal knowledge bases by indexing source documents into a raw directory, then having the LLM compile them into a markdown wiki with summaries, backlinks, and categorization. The system allows for complex Q&A against the wiki and can generate various output formats like markdown files, slideshows, and images, all viewable in Obsidian.