Ich sage er schreibt

beLI3VeR · Beitrag von **beLI3VeR** » 19.02.2007 08:40:32

Hi,

ich suche für Linux ein Programm, dass ich installieren kann und dann, wenn ich in mein Microphon einen Text spreche er ihn zum beispiel im OO Writer oder im textedior von Gnoem schreibt.
Er soll keine Sprachbefehle ausführen, sondern ganz einfach nur Text schreiben.

Gitb es sowas?

Six · Beitrag von **Six** » 19.02.2007 12:35:00

Der Acker ist ziemlich unbearbeitet. Deine beste Chance ist wahrscheinlich immer noch XVoice plus ViaVoice 2000 von IBM, falls du das noch irgendwo bekommst. Dann gibt es noch Sphinx, aber ich glaube, das ist auch tot.

shevegen · Beitrag von **shevegen** » 20.02.2007 00:47:34

Schade... woran liegt das?

Ist es so schwer zu erkennen, was gesprochen wird?

Ich denke ja irgendwie... für meine Gehirn, so schwierig kann das doch nicht sein.
Wenn 100 Leute etwas sprechen sollte es doch leicht sein herauszufinden was das is (gemapped)

peschmae · Beitrag von **peschmae** » 20.02.2007 07:10:38

shevegen hat geschrieben: Ist es so schwer zu erkennen, was gesprochen wird?

Ja, ist es.

Vor allem die Fehlerrate muss verdammt niedrig sein damit sowas nur ansatzweise brauchbar wird.

MfG Peschmä

Six · Beitrag von **Six** » 20.02.2007 11:54:41

shevegen hat geschrieben:Ich denke ja irgendwie... für meine Gehirn, so schwierig kann das doch nicht sein.

Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns.

Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.

123456 · Beitrag von **123456** » 20.02.2007 12:09:26

Six hat geschrieben:
shevegen hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns. Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...

Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.

Seit Jahren gibt es schon unter Win* Programme, die Gesprochenes in Text verwandeln können. Ich habe aber keine Erfahrung über Geschwindigkeit und Erkennungsrate - die soll aber recht gut sein. Damit will ich natürlich nicht abstreiten, das das Thema alles andere als trivial ist...

goecke · Beitrag von **goecke** » 20.02.2007 12:22:19

ub13 hat geschrieben:
Six hat geschrieben:
shevegen hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns. Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...

Schach hat einfache Regeln und einen sehr großen Lösungsbaum, den ein Mensch nicht überblicken kann.
Beim Schachspielen versuchen Menschen mit Strategie und Erfahrung zu ihren Zielen zu kommen,

Für die Computer ist es aber (vereinfacht) eine große Bibliothek, massives ausprobieren (Brute Force).
Die besseren Programme versuchen noch irgendwie Stellungen zu bewerten , schneiden
dann (hoffentlich) unerfolgreiche Zweige ab, - aber es ist und bleibt beim
Computer (noch?!) _keine_ Intelligenzleistung.

Computer können i.A. nur einfache Aufgaben erledigen, die aber sehr schnell.
Sie können doch auch Pi bis auf x Stellen in y mikro-Sek berechnen, und ich tu mich da doch etwas schwerer...

gruß
Johannes

Six · Beitrag von **Six** » 20.02.2007 13:49:11

ub13 hat geschrieben:
Six hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns. Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...

Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.

Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.
Seit Jahren gibt es schon unter Win* Programme, die Gesprochenes in Text verwandeln können. Ich habe aber keine Erfahrung über Geschwindigkeit und Erkennungsrate - die soll aber recht gut sein. Damit will ich natürlich nicht abstreiten, das das Thema alles andere als trivial ist...

Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar, gegen Menschen stinken aber auch diese Systeme nicht an. Ich schätze mal, das einsichtigste Beispiel dürften Homophone (aka Teekesselchen) sein, spätestens hier rennen bereits 5-jährige Kreise um jeden Computer, aber eigentlich ist das nur der Anfang.

123456 · Beitrag von **123456** » 20.02.2007 13:55:11

Six hat geschrieben:Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.

Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.

Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.

Laut Literatur geht das besser und schneller.

Beitrag von **Tintom** » 20.02.2007 14:15:58

ub13 hat geschrieben:
Six hat geschrieben:Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.
Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.

Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.
Laut Literatur geht das besser und schneller.

Unter Windows hatte ich vor ein paar Jahren so ein Programm (Dragon Naturally Speaking). Das Programm war nach einer "Einsprechzeit" von 5 Wochen (bei täglich mehrstündiger Benutzung) relativ brauchbar. Die Leistung dieser Programme ist beachtlich, jedoch muss man die Zeit und vor allem die Geduld aufbringen um halbwegs vernünftige Ergebnisse damit zu bekommen.

Six · Beitrag von **Six** » 20.02.2007 16:49:49

ub13 hat geschrieben: Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.

Ich bin ratlos, wie ich auf diese Aussage antworten soll, ohne daß es belehrend oder abfällig klingt.

Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.
Laut Literatur geht das besser und schneller.

Dann irrt sich die Literatur.

123456 · Beitrag von **123456** » 20.02.2007 17:25:06

Six hat geschrieben:Ich bin ratlos, wie ich auf diese Aussage antworten soll, ohne daß es belehrend oder abfällig klingt.

Du hättest Dir Deine Antwort schlicht sparen sollen, aber darauf kommst Du wahrscheinlich noch selber.

Vielleicht findet sich ja noch jemand im Forum, der:
a) ein aktuelles Naturally Speaking besitzt
b) Computerlinguistik studiert und ein wenig die Hintergründe erläutern kann
und uns darüber berichtet. Theoretisieren führt nicht weiter...

markus_b · Beitrag von **markus_b** » 20.02.2007 17:43:26

Der Artikel im Wikipedia zu dem Thema ist schon mal ganz interessant:
http://de.wikipedia.org/wiki/Spracherkennung

meandtheshell · Beitrag von **meandtheshell** » 20.02.2007 18:49:12

Spracherkennung lässt sich auf das grundlegende Problem der Mustererkennung zurück führen.

Hier taucht man dann in das Gebiet der
- diskreten Signalverarbeitung (transformation vom Zeit in den Frequenzbereich wo man dann "arbeitet" [1])
- Stochastik
- fuzzy logic
ab.

Experte bin ich hier auch nicht - nur das was ich aus Uni Zeiten noch weiß. Fakt ist, dass es eher mehr ein mathematisch, algorithmisches Problem ist als es ein praktisches ist. Dreh und Angelpunkt ist die Mustererkennung.

@mastermoul
http://www.debianforum.de/forum/viewtop ... =emacspeak

[1] http://en.wikipedia.org/wiki/Z-transform /me hatte gerade einen dramatischen Flashback beim scollen über die Formeln

markus

shevegen · Beitrag von **shevegen** » 08.03.2007 01:07:30

"Unter Windows hatte ich vor ein paar Jahren so ein Programm (Dragon Naturally Speaking). Das Programm war nach einer "Einsprechzeit" von 5 Wochen (bei täglich mehrstündiger Benutzung) relativ brauchbar."

So ein ähnliches Programm hatte mein Vater auch - und auch nur auf Windows.

Schade, Schade. Scheint wohl ein Bereich zu sein wo Windows Software Linux komplett pwned.

jaywalker · Beitrag von **jaywalker** » 08.03.2007 09:55:35

Hallo,

das Problem bei der Spracherkennung ist, daß die guten alten Hidden Markov Modelle so gut wie der einzige Zugang sind, den man überhaupt halbwegs erfolgreich nutzen kann, mir sind keine anderen Verfahren bekannt. Die Vor- und Nachteile sind hinlänglich bekannt, problematisch wird die Sache besonders dann, wenn mehrere Sprecher, verschiedene Hintergrundgeräusche, unterschiedliche Mikrofone und das bei großem Vokabular verwendet werden sollen und die Erkennungsrate trotzdem auf akzeptablem Niveau bleiben soll. Praktisch gibt es soweit ich weiß kein System, daß das auch nur ansatzweise leisten kann, ganz zu schweigen von dessen Echtzeittauglichkeit...
Man muß nur mal sehen, warum die ganze Fahrzeugelektronik immer noch nicht sprachgesteuert ist, obwohl die Automobilhersteller seit Jahren große Summen investieren, das endlich mal gebacken zu bekommen...
Der Zusammenhang zur Mustererkennung besteht (Fahrerassistenzsysteme), bei der Bildverarbeitung kann man aber mit Heuristiken (einfache Farbsuche etc.) oft ganz ansehnliche Ergebnisse erreichen.

Grüße
Heiner

mclien · Beitrag von **mclien** » 08.03.2007 11:28:36

ub13 hat geschrieben: Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...

Das ist Interpretationssache!
Wir haben also auf der einen Seite einen Rechner der Datenbankmäßig auf ALLE Spiele ALLER Großmeister zugreifen kann und das Gerät schafft es immer noch nicht einen einzelnen Großmeister (dessen gesammte Spiele er immerhin auch im Zugriff hat) in allen Partien zu schlagen.