Funktionsweise - Google Speach API
Funktionsweise - Google Speach API
Bisher hatte ich noch nicht mit der Google Speach API (z. B. "in" einem Roboter) gearbeitet.
Aus sicherheitstechnischer Perspektive stelle ich mir da einige Fragen und hoffe das von euch jemand damit schon Erfahrung hat.
Ein Mikrofon zeichnet gesprochenes auf, was dann als Audiodatei (z.B. wav) im RAM und/oder der Festplatte des Aufzeichnungsgerätes (z. B. ein Roboter) landet. Soweit richtig?
Was passiert dann? Wird diese Datei so an Google gesendet? Oder findet bereits lokal auf dem Gerät eine Art Vor-Analyse statt und es werden nur die Ergebnisse dieser Analyse an Google weitergeleitet?
Was hört Google?
Aus sicherheitstechnischer Perspektive stelle ich mir da einige Fragen und hoffe das von euch jemand damit schon Erfahrung hat.
Ein Mikrofon zeichnet gesprochenes auf, was dann als Audiodatei (z.B. wav) im RAM und/oder der Festplatte des Aufzeichnungsgerätes (z. B. ein Roboter) landet. Soweit richtig?
Was passiert dann? Wird diese Datei so an Google gesendet? Oder findet bereits lokal auf dem Gerät eine Art Vor-Analyse statt und es werden nur die Ergebnisse dieser Analyse an Google weitergeleitet?
Was hört Google?
Debian 11 & 12; Desktop-PC, Headless-NAS, Raspberry Pi 4
Teil des Upstream Betreuer Teams von Back In Time (
backintime)
Teil des Upstream Betreuer Teams von Back In Time (

Re: Funktionsweise - Google Speach API
@buhtz:
Genau so könnte man auch berechtigt fragen "was hört Windows-10 (mit)"?
Ich befürchte, das kann Dir niemand genau sagen, weil diese Dinge eben "closed source" ablaufen.
Und diese mögliche Beeinträchtigung meiner Privatsphäre war - obwohl ich nicht das Geringste zu verbergen habe - unter Anderem mein Grund, von Windows-10 zu Debian zu wechseln, im Browser diverse Sicherheitseinstellungen vorzunehmen und alle Google-Angebote links liegen zu lassen.
Eine gute Frage.Was hört Google?
Genau so könnte man auch berechtigt fragen "was hört Windows-10 (mit)"?
Ich befürchte, das kann Dir niemand genau sagen, weil diese Dinge eben "closed source" ablaufen.
Und diese mögliche Beeinträchtigung meiner Privatsphäre war - obwohl ich nicht das Geringste zu verbergen habe - unter Anderem mein Grund, von Windows-10 zu Debian zu wechseln, im Browser diverse Sicherheitseinstellungen vorzunehmen und alle Google-Angebote links liegen zu lassen.
Re: Funktionsweise - Google Speach API
Eine Audiodatei zu versenden wäre nicht sehr effizient. Eher findet auf dem Gerät selbst eine Umwandlung statt (Speech to text). Das hat den Vorteil, dass nur Text an die Google-Server geschickt werden muss und das Gerät auch unter sehr langsamer Internetverbindung nutzbar ist.
Ich weiß jedoch nichts näheres, das sind alles Beobachtungen von meinem Smartphone.
Ich weiß jedoch nichts näheres, das sind alles Beobachtungen von meinem Smartphone.
- Lord_Carlos
- Beiträge: 5578
- Registriert: 30.04.2006 17:58:52
- Lizenz eigener Beiträge: GNU Free Documentation License
- Wohnort: Dänemark
Re: Funktionsweise - Google Speach API
So viel ich weis funktionieren die alle so das die Lokal nur ganz einfache und wenige Schluesselwoerter erkennen. z.B. "ok google" "Alex" etc.
Wenn das Schluesselwort erkannt wird, werden alle danach folgenden Woerter an den Server gesendet.
So habe ich es jedenfalls immer verstanden.
Wenn das Schluesselwort erkannt wird, werden alle danach folgenden Woerter an den Server gesendet.
So habe ich es jedenfalls immer verstanden.
Code: Alles auswählen
╔═╗┬ ┬┌─┐┌┬┐┌─┐┌┬┐╔╦╗
╚═╗└┬┘└─┐ │ ├┤ │││ ║║
╚═╝ ┴ └─┘ ┴ └─┘┴ ┴═╩╝ rockt das Forum!
Re: Funktionsweise - Google Speach API
Da Alexa ja auch auf aktuelle weltweite öffentliche Daten zugreifen kann (z.B. Wetter, Fahrpläne, Radiosender, etc.etc.etc. ) und weil dieser Datenbestand viel zu mächtig ist, um das lokal vorzuhalten, wird es auch auf die Google-Suche zurückgreifen. Und da ja jeder häusliche Sprachgebrauch auch eine Anweisung für Alexa enthalten könnte, gehe ich davon aus, dass es zur Prüfung, ob es wirklich eine Anweisung ist, schlichtweg alles Gequatsche (in welcher Form auch immer) nach Google überträgt.
Wie an anderer Stelle heute schon angemerkt wurde, ist auch das für mich „worked as intended“. Die Aufgabe.... für eine irgendwann möglicherweise kommende Liberalisierung des Datenhandels so viel wie nur irgendmöglich über seine Klientel zu wissen... um dann die bestmöglichen persönlichen Profile gegen Cash anzubieten. Vielleicht kann das irgendwann jeder Vermieter abfragen, oder jeder Kredigeber (dagegen ist die Schufa ja regelrecht ein Analphabet), oder jeder potentielle Arbeitgeber. Kann man noch besser Daten über Menschen sammeln, als direkt bei denen zuhause?
j.m.2.c.
Wie an anderer Stelle heute schon angemerkt wurde, ist auch das für mich „worked as intended“. Die Aufgabe.... für eine irgendwann möglicherweise kommende Liberalisierung des Datenhandels so viel wie nur irgendmöglich über seine Klientel zu wissen... um dann die bestmöglichen persönlichen Profile gegen Cash anzubieten. Vielleicht kann das irgendwann jeder Vermieter abfragen, oder jeder Kredigeber (dagegen ist die Schufa ja regelrecht ein Analphabet), oder jeder potentielle Arbeitgeber. Kann man noch besser Daten über Menschen sammeln, als direkt bei denen zuhause?
j.m.2.c.
- Lord_Carlos
- Beiträge: 5578
- Registriert: 30.04.2006 17:58:52
- Lizenz eigener Beiträge: GNU Free Documentation License
- Wohnort: Dänemark
Re: Funktionsweise - Google Speach API
Alex ist von Amazon.TomL hat geschrieben:23.03.2018 20:50:53Da Alexa ja auch auf aktuelle weltweite öffentliche Daten zugreifen kann (z.B. Wetter, Fahrpläne, Radiosender, etc.etc.etc. ) und weil dieser Datenbestand viel zu mächtig ist, um das lokal vorzuhalten, wird es auch auf die Google-Suche zurückgreifen. Und da ja jeder häusliche Sprachgebrauch auch eine Anweisung für Alexa enthalten könnte, gehe ich davon aus, dass es zur Prüfung, ob es wirklich eine Anweisung ist, schlichtweg alles Gequatsche (in welcher Form auch immer) nach Google überträgt.
Und ja, die Programme laufen alle in der Amazon Cloud, wo man auch eigene Sprachbefehle hinzufuegen kan.
Nein, es wird nicht alles dirket uebertragen. Erst wenn eines der Wenigen Schluesselwoerter gehoert wird, welche lokal erkannt werden.
Code: Alles auswählen
╔═╗┬ ┬┌─┐┌┬┐┌─┐┌┬┐╔╦╗
╚═╗└┬┘└─┐ │ ├┤ │││ ║║
╚═╝ ┴ └─┘ ┴ └─┘┴ ┴═╩╝ rockt das Forum!
Re: Funktionsweise - Google Speach API
Oh... shit... stimmt....

Re: Funktionsweise - Google Speach API
Ich danke euch sehr für eure Beiträge, aber die gehen an meiner Frage vorbei. Das hier ist nicht die "Smalltalk" Gruppe.
Es geht weiterhin um die Frage, wie die API (vermutlich) technisch arbeitet. Wenn es schon lokal in Text umgewandelt wird, braucht man es doch nicht mehr in die Cloud zu senden.
Ich ging davon aus, dass die Rechenleistung und das neuronale Netz mit der entsprechenden astronomisch großen Datengrundlagen dahinter in der Cloud zur Analyse genutzt wird.
Bei einem Roboter geht es nicht darum einen tiefen Sinn oder semantische Zusammenhänge im gesprochenen zu sehen, sondern einfach nur das Gesprochene in Text (also Strings) umzuwandeln. Die Interpretation ist dann mir als Programmierer überlassen - das ist anders als bei Alexa, Echo und Co.
Allerdings weiß ich aus Erfahrung mit Aldeberan Softbanks Robotics Gerät "Pepper", dass die Spracherkennung auf einer lokalen Maschine (also ohne Cloud) schon sehr problematisch ist - allerdings ist bei Pepper auch die Qualität des Micros und Positionierung nah der viel zu lauten Lüfter mit ein Faktor.
Es geht hier also um Spracherkennung, im Sinne von Audiodaten von Gesprochenen in Text (Strings) umzuwandeln.
Es geht weiterhin um die Frage, wie die API (vermutlich) technisch arbeitet. Wenn es schon lokal in Text umgewandelt wird, braucht man es doch nicht mehr in die Cloud zu senden.
Ich ging davon aus, dass die Rechenleistung und das neuronale Netz mit der entsprechenden astronomisch großen Datengrundlagen dahinter in der Cloud zur Analyse genutzt wird.
Bei einem Roboter geht es nicht darum einen tiefen Sinn oder semantische Zusammenhänge im gesprochenen zu sehen, sondern einfach nur das Gesprochene in Text (also Strings) umzuwandeln. Die Interpretation ist dann mir als Programmierer überlassen - das ist anders als bei Alexa, Echo und Co.
Allerdings weiß ich aus Erfahrung mit Aldeberan Softbanks Robotics Gerät "Pepper", dass die Spracherkennung auf einer lokalen Maschine (also ohne Cloud) schon sehr problematisch ist - allerdings ist bei Pepper auch die Qualität des Micros und Positionierung nah der viel zu lauten Lüfter mit ein Faktor.
Es geht hier also um Spracherkennung, im Sinne von Audiodaten von Gesprochenen in Text (Strings) umzuwandeln.
Debian 11 & 12; Desktop-PC, Headless-NAS, Raspberry Pi 4
Teil des Upstream Betreuer Teams von Back In Time (
backintime)
Teil des Upstream Betreuer Teams von Back In Time (

Re: Funktionsweise - Google Speach API
Soweit mir bekannt, wird’s lokal in ein Format umgewandelt, das weniger Bandbreite benötigt und dann ins Wölkchen geschickt wird (das muss nicht notwendigerweise ein Audioformat sein, ist aber mit Sicherheit kein Plaintext), wo dann der wahrscheinlichste Inhalt errechnet wird.buhtz hat geschrieben:25.03.2018 10:09:55Wenn es schon lokal in Text umgewandelt wird, braucht man es doch nicht mehr in die Cloud zu senden.