2026年6月公開のGemini 3.5 Live Translateを、スマホとBluetoothイヤホンだけで実機検証。スピーカーだと待たされるのにイヤホンだとほぼ完璧な同時通訳になる——その分かれ目と、英語YouTubeを耳で理解する一番実用的な使い方を共有します。
関連記事:
TL;DR: Googleのリアルタイム音声翻訳 Gemini 3.5 Live Translate を、手持ちのスマホとBluetoothイヤホンだけで実機検証しました。結論は、スピーカー出力(会話モード)だと「一文待ち」のターン制になり、イヤホン+「聞き取っています」モードだとほぼ完璧な同時通訳になる、です。分かれ目はおそらくマイクの「回り込み」。入力(マイク)と出力(耳)を物理的に分離できれば、英語YouTubeを日本語で流し聞きできます。一番実用的だったのは「イヤホンを着けてスマホをPCの前に置き、英語動画を垂れ流す」運用でした。
検証日:2026年6月11日(2026-06-11)/環境:Androidスマートフォン(Pixel系)+Bluetoothイヤホン、Google翻訳アプリのライブ翻訳モード。本文の挙動はすべて当環境・この時点での実機確認です。
2026年6月9日(2026-06-09)に公開された、Googleのリアルタイム音声翻訳モデルです。これまでの「一文しゃべり終わるのを待ってから訳す」方式と違い、音声が流れてくるそばから連続的に翻訳音声を生成してくれます。話している人から数秒遅れでついていくイメージで、不自然な沈黙が入りません。
公式の発表とドキュメントで確認できた事実を並べるとこんな感じです。
提供窓口は分かれていて、**一般の人はGoogle翻訳アプリ(Android/iOS)**で、開発者はGemini Live API / Google AI Studioで使えます。この記事は前者、つまり「アプリだけで完結させる」ルートの話です。専門知識はいりません。
ちなみに、Geminiの音声AIが「なぜ会話としてここまで自然になったのか」という土台の仕組みは
BlogGemini 2.5 Flash Live → 3.1 で変わった音声AIの仕組み:なぜ会話が自然になるのか音声AIがぎこちなかった理由は、聞く・考える・話すの3段翻訳にあります。2.5から3.1で何が変わり、誰に必要かを整理します。→ で整理しています。今回のLive Translateは、その流れの先にある「翻訳特化」の応用形です。
これ、地味だけど一番大事なので最初に書きます。
Playストアで「翻訳」と検索すると、一番上に出てくるのは正規のGoogle翻訳じゃないことがあります。実際に試したときは、最上位が「すべての言語を翻訳」(Orcas Tech)というスポンサー広告の別アプリでした。アイコンも青系で翻訳っぽく、うっかり押しそうになります。
一番上はスポンサー広告の別アプリ。提供元『Google LLC』を選ぶ
正解はその少し下にある「Google 翻訳(提供:Google LLC)」。Live Translate機能が載っているのはこちらです。広告枠が本家のすぐ上に陣取る構造は「公式そっくりさん」を踏ませる定番の罠なので、提供元の名前(Google LLC)まで確認して選ぶのが安全です。
正規のGoogle翻訳アプリのホーム画面
Google翻訳を開いて言語を「英語 ↔ 日本語」にし、ライブ翻訳を起動すると、3つのモードが出てきます。
リアルタイム同時通訳は『聞き取っています』を選ぶ
最初、何気なくスピーカーで再生される「会話」モードで英語音声を流してみたんですが、これがいまいち同時通訳になりませんでした。一文が終わるのを待ってから訳が出る、いわゆるターン制っぽい動きになるんです。動画のテンポに追いつけず、「あれ、宣伝で見た“数秒遅れの連続翻訳”ってこんなもん?」と拍子抜けしました。
ところが**「聞き取っています」モードにして、Bluetoothイヤホンで耳元に翻訳を流した瞬間、別物になりました。** 英語の音声が流れるそばから日本語がするする入ってくる。ほぼリアルタイムで、精度も高い。同じモデル・同じ端末なのに、出力先を変えただけで体験が一変したんです。
起動すると『耳に当ててください』。ここでイヤホンに翻訳が流れる
ここが今回一番面白かったところです。なぜスピーカー出力だと待たされて、イヤホンだと連続翻訳が成立するのか。ポイントは、翻訳の賢さではなく「音の経路」にあります。
おそらく原因は、マイクの「回り込み」です。音響の世界でエコー/ハウリングと呼ばれる現象で、こう考えると筋が通ります。
一方、イヤホンで耳元に出せば、翻訳音声はマイクに混ざりません。 入力(マイクが拾う英語)と出力(イヤホンに流れる日本語)が物理的に分離されるので、回り込みがゼロになり、連続生成が安定する——というわけです。
普通こういう回り込みは「エコーキャンセル」という技術で打ち消すんですが、翻訳音声は元の声と言語が違うだけで、音としては本物の発話とそっくり。だからキャンセルが難しく誤認しやすい。物理的に経路を分けるのが一番確実、というのが実機を触った実感です。つまり分かれ目は「耳で聞くかどうか」というより、入力経路と出力経路を分離できているかどうかなんですね。
なお、この回り込みの説明は実機挙動から筋を通した**推定(推測)**で、Googleの公式説明として確認できた事実ではありません。そこは区別してお読みください。
この理屈が分かると、最強の運用が見えてきます。
Bluetoothイヤホンを着けて、スマホをPCの前に置き、PCで英語のYouTubeを垂れ流す。 これだけ。
入力と出力が完全に別経路なので回り込みゼロ。実際にこれで英語の解説動画を流したら、ほぼ完璧なリアルタイム同時通訳で内容が頭に入ってきました。字幕を目で追う必要がなく、「耳で理解する」感覚は新鮮です。ニュースや解説系のはっきりした発音・標準的な語彙の動画ほど精度が高い傾向でした(逆に雑音だらけの環境や訛りの強い会話は、もう少し揺らぐはずです。ここは未実測なので、今後使い込みながら検証していきます)。
英語学習、海外の技術トーク、字幕のない動画の理解——使いどころは多そうです。専用の同時通訳デバイスを買わなくても、手持ちのスマホとイヤホンだけでここまでできるのは、率直にすごい時代になったなと思います。
気になる方は、まずお手持ちのスマホのGoogle翻訳で「ライブ翻訳モード」を探してみてください。イヤホンを着けるだけで体験がガラッと変わるはずです。
理屈の上では「翻訳音声がスマホのマイクに混ざらない出力経路」であれば成立するはずです。今回の検証はBluetoothイヤホンで行いました。大事なのはイヤホンの種類より、翻訳音声をスピーカーで外に出さないことです。
交互に話す対面会話なら「会話」モードが素直です。スピーカー再生でターン制になるのは、対面では「相手の発話と翻訳音声がぶつからない」という利点でもあります。一方、動画や講演のようにこちらが話さず聞き続ける場面では、「聞き取っています」モード+イヤホンが圧倒的に快適でした。
ニュースや技術解説のような、はっきりした発音・標準的な語彙の英語では、内容理解に困らないレベルの訳が連続して流れてきました。一方で雑音の多い環境や訛りの強い話者は未実測です。仕事の重要な交渉のような「誤訳が許されない」場面での過信は禁物で、まずは動画の流し聞きのような用途から試すのがおすすめです。
出典
この記事は、英語の動画や音声を日本語で理解したい方・手持ちのスマホだけでAI同時通訳を試したい方向けに書いています。
HW系エンジニアとして20年以上、10,000件を超える顧客訪問と2,000件を超える単独ソリューション実績。AIツールを使った個人開発やIoT農園など、Raspberry Piを使ったオートメーション化なども実践中です。エンジニア専門結婚相談所も運営しています。
META-MARK × AI
ローカルAIを動かすGPU、ちゃんと選べていますか?
VRAM・性能・コスパをMetaScoreで数値化。AIアプリ別の推奨ハードウェア要件も確認できます。