論文紹介

LLMプロバイダはキャッシュ読み込みのちょっとした改善でかなりの利益を見込める

LLMプロバイダのキャッシュ機能は実は大きなマージンを生み出しうる。論文「Can I Buy Your KV Cache?」をもとに、KVキャッシュをサービス全体で共有することで計算量を最大50倍削減し、料金とのギャップが利益になる仕組みを解説します。
論文紹介

MTPは推論速度だけでなくコーディング性能も向上させる

MTP(Multi-token Prediction)による投機的デコーディングは、推論速度の向上だけでなく、コーディングタスクの精度も改善します。HumanEvalで12%、MBPPで17%の向上が報告されており、帰納ヘッドの形成促進や算術の汎化といったメカニズムが性能向上に寄与しています。ただし効果の発現には学習時からのMTP有効化と十分なモデル規模が必要です。
ローカルLLM

なんかやばい日本語特化モデルが出た(lfm2.5-1.2b-jp-202606)

1.2Bパラメータなのに318トークン/秒、日本語の文章読解もこなすLFM2.5-1.2b-JPをレビュー。Xperia 1 IIIで11t/s動作確認。エッジLLM時代が近づいてる?
ハウツー

VRAMごとのローカルLLMの選び方

ローカルLLMはVRAMが全て。q4量子化GGUFを前提に、MoEモデルの特性をふまえながら12GB・16GB・24GB別のおすすめモデルを解説。Qwen3.6-27BでのエージェンティックコーディングからGemma4-31Bのロールプレイ性能まで、実運用ベースで比較します。
ローカルLLM

LM StudioがMTPに対応したので使ってみる

LM StudioがMulti Token Prediction(MTP)に対応しました。24GB VRAM環境でQwen3.6シリーズを使い、トークン生成速度の向上幅やVRAM消費、Prefillへの影響を実際に検証した結果をまとめています。一般家庭のスペックではMTPの恩恵は限定的です。
ハウツー

ローカルLLMにブラウザを操作させる(BrowserOS+LM Studio)

AIネイティブブラウザ「BrowserOS」をローカルLLM(Qwen3.6-27B)で動かしてみた。できること・遅さ・ハルシネーション・CAPTCHAの実態・プロンプトインジェクションのリスクまで正直にレビュー。
ハウツー

ローカルLLMでコーディングエージェントを運用する(LM Studio + OpenCode)

Claude Codeの制限・従量課金に疲れたなら、ローカルLLMという選択肢があります。Qwen3.6とLM Studio、OpenCodeを組み合わせてコーディングエージェントを自前で動かすセットアップ手順を解説します。
ローカルLLM

スマホでLLM:エッジデバイスAIの現在地と未来

スマホでLLMを動かす時代がやってきます。Gemma4 E2B/E4Bを例に、エッジデバイスでSLMが動くと何が嬉しいか、現状の限界はどこにあるか、そして将来本当に残り続ける制約は何かを整理します。
解説

LLMの長文読解に有利なのはRAGかコンテキストか?

RAGとLCW(Long Context Window)の仕組み・特徴を比較し、それぞれの検索精度やコスト面での違い、ハイブリッド構成の考え方までを解説します。
解説

モデル崩壊とは:AIはAIを食いつぶさない

「AI生成データでAIが劣化する」と言われるモデル崩壊。実は定義が8つに分かれる曖昧な概念で、現実的な訓練条件では致命的崩壊は起きないとする研究もある。ArXiv主要論文をもとに、崩壊の分類・実態・防止策を整理した。