Code: Alles auswählen
./stream -m ~/whisper.cpp/models/ggml-tiny.bin -l de -f whh-out
Code: Alles auswählen
whisper_mel_init: n_len = 4500, n_len_org = 1499, n_mel = 80
weitere Einzelheiten:
Code: Alles auswählen
wolf@knul:~/whisper.cpp$ ./stream -m ~/whisper.cpp/models/ggml-tiny.bin -l de --length 60000 -t 1 -f whh-out
init: found 1 capture devices:
init: - Capture device #0: 'Internes Audio Analog Stereo'
init: attempt to open default capture device ...
init: obtained spec for input device (SDL Id = 2):
init: - sample rate: 16000
init: - format: 33056 (required: 33056)
init: - channels: 1 (required: 1)
init: - samples per frame: 1024
whisper_init_from_file_with_params_no_state: loading model from '/home/wolf/whisper.cpp/models/ggml-tiny.bin'
whisper_init_with_params_no_state: use gpu = 1
whisper_init_with_params_no_state: flash attn = 0
whisper_init_with_params_no_state: gpu_device = 0
whisper_init_with_params_no_state: dtw = 0
whisper_model_load: loading model
whisper_model_load: n_vocab = 51865
whisper_model_load: n_audio_ctx = 1500
whisper_model_load: n_audio_state = 384
whisper_model_load: n_audio_head = 6
whisper_model_load: n_audio_layer = 4
whisper_model_load: n_text_ctx = 448
whisper_model_load: n_text_state = 384
whisper_model_load: n_text_head = 6
whisper_model_load: n_text_layer = 4
whisper_model_load: n_mels = 80
whisper_model_load: ftype = 1
whisper_model_load: qntvr = 0
whisper_model_load: type = 1 (tiny)
whisper_model_load: adding 1608 extra tokens
whisper_model_load: n_langs = 99
whisper_model_load: CPU total size = 77.11 MB
whisper_model_load: model size = 77.11 MB
whisper_mel_init: n_len = 6000, n_len_org = 6000, n_mel = 80
whisper_init_state: kv self size = 9.44 MB
whisper_init_state: kv cross size = 9.44 MB
whisper_init_state: kv pad size = 2.36 MB
whisper_init_state: compute buffer (conv) = 13.19 MB
whisper_init_state: compute buffer (encode) = 85.53 MB
whisper_init_state: compute buffer (cross) = 3.88 MB
whisper_init_state: compute buffer (decode) = 95.89 MB
main: processing 48000 samples (step = 3.0 sec / len = 60.0 sec / keep = 0.2 sec), 1 threads, lang = de, task = transcribe, timestamps = 0 ...
main: n_new_line = 19, no_context = 1
[Start speaking]
whisper_mel_init: n_len = 3300, n_len_org = 299, n_mel = 80
* Musik *whisper_mel_init: n_len = 3600, n_len_org = 599, n_mel = 80
Code: Alles auswählen
* Musik *
Nichts. Ich stiege ein paar.
Nichts. Es entsteht einfach im Versuch schlechter.
Nichts entsteht ein paar Hemp-Versuch schlechter. Brechen ansonsten entsteht.
Nichts entsteht einfach im Versuch schlechter. Berechen ansonsten entsteht kein Zusammenhang.
Nichts entsteht ein paar Hämpfer so schlechter. Berechen ansonsten entsteht kein Zusammenhang und die Worte einfacher.
Nichts entsteht ein paar Hämpfer so schlechter. Berechen ansonsten entsteht kein Zusammenhang. Und die Worte ein Flamal wird ein Langen.