ローカル音声対話AIの限界に挑んだ結果

#2 LFM2.5-AudioでLocal完結のSpeech-to-Speechタスク指向対話を試してみた: 寄り道AI砂場; 17分20秒2026年6月22日

ポッドキャスト番組「寄り道AI砂場」の最新回が配信された。今回は、Liquid AIが公開した軽量な日本語音声対話モデル「LFM2.5-Audio-1.5B-JP」をローカル環境で検証。これまでGPUが必須だったSpeech-to-Speechモデルが手元のMacで動作する点に着目し、レストラン予約を想定した検証を行った。

ローカル動作の重さとハードの壁

高性能なMacBook Pro M3 Maxを使用しても、音声生成が実時間より遅れ「喋りが再生に追いつかない」事態が発生。音声が途切れるのを防ぐため、一括で生成を終えてから発話させる妥協を強いられた。モデルの性能だけでなく、ハードウェアの処理能力という根本的な壁に直面したという。

制御の難しさとカスケード型の安定性

対話の制御も一筋縄ではいかなかった。システムプロンプトで日付や人数を尋ねるよう指示しても、同じ確認を繰り返したり一人二役を演じたりする不具合が発生。一方で、音声を一度テキスト化する従来のカスケード型を試すと、驚くほど安定して対話ができたという。

最後にクラウド型のGemini Liveと比較し、ローカル完結での実用化は現状厳しいとしつつも「音声対話の境界線が見えた」と語り、有意義な検証となったようだ。

#2 LFM2.5-AudioでLocal完結のSpeech-to-Speechタスク指向対話を試してみた: 寄り道AI砂場; 17分20秒2026年6月22日

※この記事はPodcast番組をもとにAIを用いて自動生成されたもので、誤った情報や不完全な記述を含む可能性があります。正確性や品質は保証されませんので、必要に応じて他の情報もあわせてご参照ください。