Les nouvelles les plus importantes de la journée

yt2doc – Pour retranscrire vos vidéos en documents Markdown | Source ouverte

yt2doc – Pour retranscrire vos vidéos en documents Markdown | Source ouverte

Vous en avez assez de passer des heures à retranscrire vos vidéos YouTube à la main ? Ou peut-être cherchez-vous un moyen efficace de transformer vos podcasts en articles de blog ? Eh bien, j’ai une bonne nouvelle pour vous : yt2doc est là pour rationaliser votre flux de travail !

C’est un outil qui peut transformer automatiquement n’importe quelle vidéo ou podcast YouTube en un document Markdown parfaitement structuré, avec des paragraphes, des chapitres et même des titres générés par l’IA.

Développé par le talentueux Shun Liang, cet outil open source est un véritable assistant virtuel pour tous les créateurs de contenu, journalistes, étudiants ou simplement curieux qui souhaitent profiter au maximum des ressources audio et vidéo disponibles en ligne. De plus, yt2doc est conçu pour fonctionner entièrement localement, sans recourir à des API externes, ce qui garantit la confidentialité de vos données.

yt2doc s’appuie sur le pouvoir de Chuchoterle modèle de reconnaissance vocale développé par OpenAI. Grâce à lui, l’outil est capable de retranscrire le contenu audio de vos vidéos ou podcasts avec une précision remarquable. Mais où yt2doc Ce qui ressort vraiment, c’est le post-traitement de cette transcription brute.

En effet, la plupart des outils de transcription existants sont principalement destinés à générer des sous-titres et fournissent souvent un bloc de texte continu sans saut de ligne ni segmentation, ce qui rend la lecture difficile. Whisper, par exemple, ne génère pas de sauts de ligne dans ses transcriptions. Sans post-traitement, vous vous retrouvez avec un énorme bloc de texte indigeste.

yt2docde son côté, privilégie la lisibilité. Il va plus loin en structurant intelligemment le contenu pour créer un document facile à lire. Pour ce faire, il utilise Segmenter n’importe quel texte (SaT)une bibliothèque spécialisée dans la segmentation de texte. Grâce à lui, votre transcription est automatiquement divisée en phrases et paragraphes logiques, ce qui rend la lecture beaucoup plus agréable et naturelle. De plus, vous avez la possibilité de personnaliser le modèle SaT utilisé selon vos préférences.

Et si votre vidéo n’est pas déjà chapitrée (ce qui est souvent le cas pour les podcasts par exemple), yt2doc peut utiliser un modèle de langage (LLM) pour générer automatiquement des titres de chapitre pertinents. C’est comme avoir un assistant éditeur intégré ! Les modèles légers qui fonctionnent bien comprennent : Gemma2:9b, lama3.1:8b Et qwen 2.5:7b.

Vous l’aurez compris, yt2doc n’est pas un simple outil de transcription, mais une véritable solution tout-en-un pour transformer vos contenus audio et vidéo en documents structurés et exploitables.

Avant de l’installer, assurez-vous d’avoir ffmpeg installé sur votre système. Il s’agit d’une condition préalable essentielle pour yt2doc peut fonctionner correctement. ffmpeg est utilisé pour traiter les flux audio et vidéo. Si ce n’est pas déjà fait, voici les commandes pour l’installer :

Sur macOS :

brew install ffmpeg

Sur Debian/Ubuntu :

sudo apt install ffmpeg

Ensuite, vous pouvez installer yt2doc. La méthode recommandée consiste à utiliser pipxun outil pratique pour installer des applications Python dans des environnements isolés :

pipx install yt2doc

Si vous préférez utiliser UVun gestionnaire de paquets Python ultra-rapide, c’est aussi possible :

uv tool install yt2doc

Pour obtenir de l’aide sur l’utilisation de l’outil, vous pouvez utiliser la commande :

yt2doc --help

Maintenant que yt2doc est installé, voyons comment l’utiliser. La commande de base pour transcrire une vidéo YouTube est :

yt2doc --video

Par exemple, si vous souhaitez transcrire une conférence TED, vous pouvez utiliser :

yt2doc --video https://www.youtube.com/watch?v=38lqpFpzQ3c

Par défaut, yt2doc affichera la transcription directement dans votre terminal. Mais vous pouvez bien sûr sauvegarder le résultat dans un fichier Markdown pour une consultation ultérieure :

yt2doc --video -o ma_transcription.md

Et si vous souhaitez retranscrire l’intégralité d’une playlist YouTube ? Aucun problème :

yt2doc --playlist -o dossier_de_sortie

Comme je l’ai dit dans mon introduction, l’une des fonctionnalités les plus intéressantes de yt2doc est sa capacité à segmenter et à chapitrer automatiquement des vidéos qui ne le sont pas déjà. Pour cela vous aurez besoinOllamaun outil qui vous permet d’exécuter des modèles de langage localement. Une fois Ollama installé et configuré, vous pouvez utiliser la commande suivante :

yt2doc --video --segment-unchaptered --llm-model

Par exemple, avec le modèle Gemma2:9b :

yt2doc --video https://www.youtube.com/watch?v=38lqpFpzQ3c --segment-unchaptered --llm-model gemma2:9b

Cette commande va non seulement transcrire la vidéo, mais aussi la découper en chapitres logiques avec des titres générés par l’IA. Ceci est particulièrement utile pour les longues vidéos ou les podcasts qui ne comportent pas de chapitres prédéfinis.

yt2doc ne se limite pas à YouTube. Vous pouvez également l’utiliser pour transcrire des épisodes de podcast sur Apple Podcast :

yt2doc --audio --segment-unchaptered --llm-model

Un autre aspect intéressant de yt2doc est sa flexibilité en termes de configuration. Par défaut, il utilise murmurer plus vite comme backend de transcription, mais vous pouvez ajuster divers paramètres pour optimiser les performances en fonction de votre matériel :

bashyt2doc --video --whisper-model --whisper-device --whisper-compute-type

Les options pour --whisper-model, --whisper-device Et --whisper-compute-type sont détaillés dans la documentation de Fast-Whisper.

Si vous utilisez un Mac équipé d’une puce Apple Silicon, vous pouvez profiter de murmure.cpp pour des performances encore meilleures, car il exploite le GPU intégré d’Apple. Le soutien de murmure.cpp a été mis en œuvre dans yt2doc :

yt2doc --video --whisper-backend whisper_cpp --whisper-cpp-executable --whisper-cpp-model

Comme mentionné précédemment, yt2doc utilisé Segmenter n’importe quel texte (SaT) pour segmenter la transcription en phrases et paragraphes. Vous pouvez également personnaliser le modèle SaT utilisé :

yt2doc --video --sat-model

La liste des modèles SaT disponibles est accessible ici.

Vous l’aurez compris, yt2doc est un outil extrêmement puissant et flexible qui peut s’adapter à une multitude de cas d’utilisation. Mais comme tout outil basé sur l’IA, yt2doc n’est pas parfait. La qualité de la transcription dépendra toujours de la qualité audio de la source, et les titres générés automatiquement peuvent parfois nécessiter quelques ajustements manuels. Eh bien, comparé au temps que vous gagnez, ces petits désagréments sont bien négligeables !

Un grand merci à NiKo pour l’info ! Vous pouvez le suivre sur Twitter @N1K0 pour des découvertes technologiques plus passionnantes.

Source

Quitter la version mobile