Ich sage er schreibt
- beLI3VeR
- Beiträge: 535
- Registriert: 30.08.2005 16:56:43
- Lizenz eigener Beiträge: MIT Lizenz
-
Kontaktdaten:
Ich sage er schreibt
Hi,
ich suche für Linux ein Programm, dass ich installieren kann und dann, wenn ich in mein Microphon einen Text spreche er ihn zum beispiel im OO Writer oder im textedior von Gnoem schreibt.
Er soll keine Sprachbefehle ausführen, sondern ganz einfach nur Text schreiben.
Gitb es sowas?
ich suche für Linux ein Programm, dass ich installieren kann und dann, wenn ich in mein Microphon einen Text spreche er ihn zum beispiel im OO Writer oder im textedior von Gnoem schreibt.
Er soll keine Sprachbefehle ausführen, sondern ganz einfach nur Text schreiben.
Gitb es sowas?
Lieben Gruß
beLI3VeR
beLI3VeR
- Six
- Beiträge: 8071
- Registriert: 21.12.2001 13:39:28
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Siegburg
Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns.shevegen hat geschrieben:Ich denke ja irgendwie... für meine Gehirn, so schwierig kann das doch nicht sein.

Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.
Be seeing you!
Seit Jahren gibt es schon unter Win* Programme, die Gesprochenes in Text verwandeln können. Ich habe aber keine Erfahrung über Geschwindigkeit und Erkennungsrate - die soll aber recht gut sein. Damit will ich natürlich nicht abstreiten, das das Thema alles andere als trivial ist...Six hat geschrieben:Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...shevegen hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns.Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.
Schach hat einfache Regeln und einen sehr großen Lösungsbaum, den ein Mensch nicht überblicken kann.ub13 hat geschrieben:Six hat geschrieben:Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...shevegen hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns.Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
![]()
Beim Schachspielen versuchen Menschen mit Strategie und Erfahrung zu ihren Zielen zu kommen,
Für die Computer ist es aber (vereinfacht) eine große Bibliothek, massives ausprobieren (Brute Force).
Die besseren Programme versuchen noch irgendwie Stellungen zu bewerten , schneiden
dann (hoffentlich) unerfolgreiche Zweige ab, - aber es ist und bleibt beim
Computer (noch?!) _keine_ Intelligenzleistung.
Computer können i.A. nur einfache Aufgaben erledigen, die aber sehr schnell.
Sie können doch auch Pi bis auf x Stellen in y mikro-Sek berechnen, und ich tu mich da doch etwas schwerer...
gruß
Johannes
- Six
- Beiträge: 8071
- Registriert: 21.12.2001 13:39:28
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Siegburg
Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.ub13 hat geschrieben:Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...Six hat geschrieben:Du, mein Freund, unterschätzt deutlich die Fähigkeiten des menschlichen Gehirns.Selbst die fortgeschrittensten Computer sind im Vergleich nur Rotz, bestenfalls auf Stubenfliegenniveau, falls man überhaupt in diesen Kategorien reden sollte.
![]()
Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar, gegen Menschen stinken aber auch diese Systeme nicht an. Ich schätze mal, das einsichtigste Beispiel dürften Homophone (aka Teekesselchen) sein, spätestens hier rennen bereits 5-jährige Kreise um jeden Computer, aber eigentlich ist das nur der Anfang.Seit Jahren gibt es schon unter Win* Programme, die Gesprochenes in Text verwandeln können. Ich habe aber keine Erfahrung über Geschwindigkeit und Erkennungsrate - die soll aber recht gut sein. Damit will ich natürlich nicht abstreiten, das das Thema alles andere als trivial ist...Für normale Numbercruncher ist Spracherkennung für gewöhnlich Lauterkennung, d. h. da wird nichts verstanden, sondern nur erkannt. Selbst wenn Lauterkennung distinkt (ist sie nicht), fehlerfrei (ist sie auch nicht) und in einem uniformen Arbeitsschritt (wieder nicht) erledigt werden könnte, dann hättest du immer noch ein mehrdimensionales Problem, das bestenfalls in exponentialer Zeit berechnet werden könnte. Wahrscheinlicher ist aber polynomielle Laufzeit und damit dürfte klar sein, daß mit diesem Ansatz die Leistung des menschlichen Gehirnes nicht simluiert werden kann.
Be seeing you!
Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.Six hat geschrieben:Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.
Laut Literatur geht das besser und schneller.Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.
Unter Windows hatte ich vor ein paar Jahren so ein Programm (Dragon Naturally Speaking). Das Programm war nach einer "Einsprechzeit" von 5 Wochen (bei täglich mehrstündiger Benutzung) relativ brauchbar. Die Leistung dieser Programme ist beachtlich, jedoch muss man die Zeit und vor allem die Geduld aufbringen um halbwegs vernünftige Ergebnisse damit zu bekommen.ub13 hat geschrieben:Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.Six hat geschrieben:Das ist ungefähr so, wie in diesem Kontext festzustellen, daß Elefanten schwerere Gewichte heben können als Hamster. Beides hat nix mit Sprache und anderen komplexen Systemen zu tun.
Laut Literatur geht das besser und schneller.Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.
- Six
- Beiträge: 8071
- Registriert: 21.12.2001 13:39:28
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Siegburg
Ich bin ratlos, wie ich auf diese Aussage antworten soll, ohne daß es belehrend oder abfällig klingt.ub13 hat geschrieben: Auch Schach ist ein komplexes Spiel. Es kommt darauf an, wie man es schafft dies zu vereinfachen und in den Computerkontext zu übersetzen. Dein Beispiel hinkt.
Dann irrt sich die Literatur.Laut Literatur geht das besser und schneller.Sicher, in einer kontrollierten Umgebung mit möglichst minimalen Störeinflüssen und nach ein paar Tagen "Stimmtraining" wird die Leistung brauchbar.
Be seeing you!
Du hättest Dir Deine Antwort schlicht sparen sollen, aber darauf kommst Du wahrscheinlich noch selber.Six hat geschrieben:Ich bin ratlos, wie ich auf diese Aussage antworten soll, ohne daß es belehrend oder abfällig klingt.

Vielleicht findet sich ja noch jemand im Forum, der:
a) ein aktuelles Naturally Speaking besitzt
b) Computerlinguistik studiert und ein wenig die Hintergründe erläutern kann
und uns darüber berichtet. Theoretisieren führt nicht weiter...
Der Artikel im Wikipedia zu dem Thema ist schon mal ganz interessant:
http://de.wikipedia.org/wiki/Spracherkennung
http://de.wikipedia.org/wiki/Spracherkennung
- meandtheshell
- Beiträge: 4054
- Registriert: 14.01.2005 17:51:30
Spracherkennung lässt sich auf das grundlegende Problem der Mustererkennung zurück führen.
Hier taucht man dann in das Gebiet der
- diskreten Signalverarbeitung (transformation vom Zeit in den Frequenzbereich wo man dann "arbeitet" [1])
- Stochastik
- fuzzy logic
ab.
Experte bin ich hier auch nicht - nur das was ich aus Uni Zeiten noch weiß. Fakt ist, dass es eher mehr ein mathematisch, algorithmisches Problem ist als es ein praktisches ist. Dreh und Angelpunkt ist die Mustererkennung.
@mastermoul
http://www.debianforum.de/forum/viewtop ... =emacspeak
[1] http://en.wikipedia.org/wiki/Z-transform /me hatte gerade einen dramatischen Flashback beim scollen über die Formeln
markus
Hier taucht man dann in das Gebiet der
- diskreten Signalverarbeitung (transformation vom Zeit in den Frequenzbereich wo man dann "arbeitet" [1])
- Stochastik
- fuzzy logic
ab.
Experte bin ich hier auch nicht - nur das was ich aus Uni Zeiten noch weiß. Fakt ist, dass es eher mehr ein mathematisch, algorithmisches Problem ist als es ein praktisches ist. Dreh und Angelpunkt ist die Mustererkennung.
@mastermoul
http://www.debianforum.de/forum/viewtop ... =emacspeak
[1] http://en.wikipedia.org/wiki/Z-transform /me hatte gerade einen dramatischen Flashback beim scollen über die Formeln
markus
"Unter Windows hatte ich vor ein paar Jahren so ein Programm (Dragon Naturally Speaking). Das Programm war nach einer "Einsprechzeit" von 5 Wochen (bei täglich mehrstündiger Benutzung) relativ brauchbar."
So ein ähnliches Programm hatte mein Vater auch - und auch nur auf Windows.
Schade, Schade. Scheint wohl ein Bereich zu sein wo Windows Software Linux komplett pwned.
So ein ähnliches Programm hatte mein Vater auch - und auch nur auf Windows.
Schade, Schade. Scheint wohl ein Bereich zu sein wo Windows Software Linux komplett pwned.

Hallo,
das Problem bei der Spracherkennung ist, daß die guten alten Hidden Markov Modelle so gut wie der einzige Zugang sind, den man überhaupt halbwegs erfolgreich nutzen kann, mir sind keine anderen Verfahren bekannt. Die Vor- und Nachteile sind hinlänglich bekannt, problematisch wird die Sache besonders dann, wenn mehrere Sprecher, verschiedene Hintergrundgeräusche, unterschiedliche Mikrofone und das bei großem Vokabular verwendet werden sollen und die Erkennungsrate trotzdem auf akzeptablem Niveau bleiben soll. Praktisch gibt es soweit ich weiß kein System, daß das auch nur ansatzweise leisten kann, ganz zu schweigen von dessen Echtzeittauglichkeit...
Man muß nur mal sehen, warum die ganze Fahrzeugelektronik immer noch nicht sprachgesteuert ist, obwohl die Automobilhersteller seit Jahren große Summen investieren, das endlich mal gebacken zu bekommen...
Der Zusammenhang zur Mustererkennung besteht (Fahrerassistenzsysteme), bei der Bildverarbeitung kann man aber mit Heuristiken (einfache Farbsuche etc.) oft ganz ansehnliche Ergebnisse erreichen.
Grüße
Heiner
das Problem bei der Spracherkennung ist, daß die guten alten Hidden Markov Modelle so gut wie der einzige Zugang sind, den man überhaupt halbwegs erfolgreich nutzen kann, mir sind keine anderen Verfahren bekannt. Die Vor- und Nachteile sind hinlänglich bekannt, problematisch wird die Sache besonders dann, wenn mehrere Sprecher, verschiedene Hintergrundgeräusche, unterschiedliche Mikrofone und das bei großem Vokabular verwendet werden sollen und die Erkennungsrate trotzdem auf akzeptablem Niveau bleiben soll. Praktisch gibt es soweit ich weiß kein System, daß das auch nur ansatzweise leisten kann, ganz zu schweigen von dessen Echtzeittauglichkeit...
Man muß nur mal sehen, warum die ganze Fahrzeugelektronik immer noch nicht sprachgesteuert ist, obwohl die Automobilhersteller seit Jahren große Summen investieren, das endlich mal gebacken zu bekommen...
Der Zusammenhang zur Mustererkennung besteht (Fahrerassistenzsysteme), bei der Bildverarbeitung kann man aber mit Heuristiken (einfache Farbsuche etc.) oft ganz ansehnliche Ergebnisse erreichen.
Grüße
Heiner
-
- Beiträge: 2468
- Registriert: 06.12.2005 10:38:46
- Lizenz eigener Beiträge: MIT Lizenz
- Wohnort: Baustelle
Das ist Interpretationssache!ub13 hat geschrieben: Die Stubenfliegencomputer schlagen mittlerweile ihre menschlichen Weltmeister Pendants im Schach...![]()
Wir haben also auf der einen Seite einen Rechner der Datenbankmäßig auf ALLE Spiele ALLER Großmeister zugreifen kann und das Gerät schafft es immer noch nicht einen einzelnen Großmeister (dessen gesammte Spiele er immerhin auch im Zugriff hat) in allen Partien zu schlagen.