ローカル音声対話AIの限界に挑んだ結果
- #2 LFM2.5-AudioでLocal完結のSpeech-to-Speechタスク指向対話を試してみた
- 寄り道AI砂場
- 17分20秒2026年6月22日
ポッドキャスト番組「寄り道AI砂場」の最新回が配信された。 今回は、Liquid AIが公開した軽量な日本語音声対話モデル「LFM2.5-Audio-1.5B-JP」をローカル環境で検証。 これまでGPUが必須だったSpeech-to-Speechモデルが手元のMacで動作する点に着目し、レストラン予約を想定した検証を行った。
ローカル動作の重さとハードの壁
高性能なMacBook Pro M3 Maxを使用しても、音声生成が実時間より遅れ「喋りが再生に追いつかない」事態が発生。 音声が途切れるのを防ぐため、一括で生成を終えてから発話させる妥協を強いられた。 モデルの性能だけでなく、ハードウェアの処理能力という根本的な壁に直面したという。
制御の難しさとカスケード型の安定性
対話の制御も一筋縄ではいかなかった。 システムプロンプトで日付や人数を尋ねるよう指示しても、同じ確認を繰り返したり一人二役を演じたりする不具合が発生。 一方で、音声を一度テキスト化する従来のカスケード型を試すと、驚くほど安定して対話ができたという。
最後にクラウド型のGemini Liveと比較し、ローカル完結での実用化は現状厳しいとしつつも「音声対話の境界線が見えた」と語り、有意義な検証となったようだ。
- #2 LFM2.5-AudioでLocal完結のSpeech-to-Speechタスク指向対話を試してみた
- 寄り道AI砂場
- 17分20秒2026年6月22日
※この記事はPodcast番組をもとにAIを用いて自動生成されたもので、誤った情報や不完全な記述を含む可能性があります。正確性や品質は保証されませんので、必要に応じて他の情報もあわせてご参照ください。