Самое убойное — ответы происходят голосом с минимальной задержкой всего в полторы секунды (!). Под капотом целый микс из нейронок, среди которых wav2lip, Mistral и Whisper. Код сборки на GitHub (), что удивительно — он не особо требователен к железу (хватит даже RTX 3060).
Hide player controls
Hide resume playing