12.6 whisper.cpp Problem

wolf49 · Beitrag von **wolf49** » 21.07.2024 14:10:07

Sprache über Mikrofon in Text umwandeln mit

./stream -m ~/whisper.cpp/models/ggml-tiny.bin -l de -f whh-out

die Spracheingabe wird ständig ca. alle 10 Sekunden durch Meldungen

Code: Alles auswählen

whisper_mel_init: n_len = 4500, n_len_org = 1499, n_mel = 80

unterbrochen. dadurch fehlen Teile der Sprache auf dem Bildschirm und in der Datei und damit entsteht kein verwertbarer Text. wie kann man diese Unterbrechungen abschalten ?
weitere Einzelheiten:

Code: Alles auswählen

wolf@knul:~/whisper.cpp$ ./stream -m ~/whisper.cpp/models/ggml-tiny.bin -l de --length 60000 -t 1 -f whh-out
init: found 1 capture devices:
init:    - Capture device #0: 'Internes Audio Analog Stereo'
init: attempt to open default capture device ...
init: obtained spec for input device (SDL Id = 2):
init:     - sample rate:       16000
init:     - format:            33056 (required: 33056)
init:     - channels:          1 (required: 1)
init:     - samples per frame: 1024
whisper_init_from_file_with_params_no_state: loading model from '/home/wolf/whisper.cpp/models/ggml-tiny.bin'
whisper_init_with_params_no_state: use gpu    = 1
whisper_init_with_params_no_state: flash attn = 0
whisper_init_with_params_no_state: gpu_device = 0
whisper_init_with_params_no_state: dtw        = 0
whisper_model_load: loading model
whisper_model_load: n_vocab       = 51865
whisper_model_load: n_audio_ctx   = 1500
whisper_model_load: n_audio_state = 384
whisper_model_load: n_audio_head  = 6
whisper_model_load: n_audio_layer = 4
whisper_model_load: n_text_ctx    = 448
whisper_model_load: n_text_state  = 384
whisper_model_load: n_text_head   = 6
whisper_model_load: n_text_layer  = 4
whisper_model_load: n_mels        = 80
whisper_model_load: ftype         = 1
whisper_model_load: qntvr         = 0
whisper_model_load: type          = 1 (tiny)
whisper_model_load: adding 1608 extra tokens
whisper_model_load: n_langs       = 99
whisper_model_load:      CPU total size =    77.11 MB
whisper_model_load: model size    =   77.11 MB
whisper_mel_init: n_len = 6000, n_len_org = 6000, n_mel = 80
whisper_init_state: kv self size  =    9.44 MB
whisper_init_state: kv cross size =    9.44 MB
whisper_init_state: kv pad  size  =    2.36 MB
whisper_init_state: compute buffer (conv)   =   13.19 MB
whisper_init_state: compute buffer (encode) =   85.53 MB
whisper_init_state: compute buffer (cross)  =    3.88 MB
whisper_init_state: compute buffer (decode) =   95.89 MB

main: processing 48000 samples (step = 3.0 sec / len = 60.0 sec / keep = 0.2 sec), 1 threads, lang = de, task = transcribe, timestamps = 0 ...
main: n_new_line = 19, no_context = 1

[Start speaking]
whisper_mel_init: n_len = 3300, n_len_org = 299, n_mel = 80
 * Musik *whisper_mel_init: n_len = 3600, n_len_org = 599, n_mel = 80

whp-out:

Code: Alles auswählen

 * Musik *
 Nichts. Ich stiege ein paar.
 Nichts. Es entsteht einfach im Versuch schlechter.
 Nichts entsteht ein paar Hemp-Versuch schlechter. Brechen ansonsten entsteht.
 Nichts entsteht einfach im Versuch schlechter. Berechen ansonsten entsteht kein Zusammenhang.
 Nichts entsteht ein paar Hämpfer so schlechter. Berechen ansonsten entsteht kein Zusammenhang und die Worte einfacher.
 Nichts entsteht ein paar Hämpfer so schlechter. Berechen ansonsten entsteht kein Zusammenhang. Und die Worte ein Flamal wird ein Langen.

der Ausgabe-Text enthält nur einige Worte des gesprochenen längeren Textes. Versuch mit model small statt tiny in wh-out nichts. was kann ich noch ändern ?