25-26/09 - Text to Speech


25-26/09/25 - Text to speech

Le 25 septembre, nous avons eu un appel avec M. Marczak notre professeur commanditaire pour débriefer sur les 3 premiers jours qui venaient de se dérouler. On lui a parlé de nos avancements et lui a pu nous éclairer sur certains aspects encore un peu flou pour nous.

Durant la journée du 26 septembre, nous nous sommes occupés du speech to text et text to speech afin de pouvoir converser avec notre voix et que l'avatar nous réponde en disant sa réponse. 

Fonctionnement :

Lorsqu'une touche du clavier (pour les tests nous avons décidé que cela serait la touche R) cela lance un recorde microphone, une fois fini il suffit de toucher sur la touche S pour finir le record.  Ensuite, cela enregistre un fichier .wav qui est envoyé sous forme de requète à l'API Whisper. Whisper nous retourne alors un fichier texte qui est transmis à ChatGPT pour qu'il nous retourne à réponse de notre avatar qui est affichée sur notre écran. 

La réponse de ChatGPT sous forme de text est envoyé à l'API Eleven Labs qui se charge de faire parler notre avatar. 

Ce mode de fonctionnement donne des réponses très lentes car elle fait appel à plusieurs API et le temps de réponse est parois lent. 

Record -> .wav -> req. api whisper -> string text -> req. chatgpt 4o -> text string -> req. api elevenlabs -> Voix selon le voice id 

Api elevenlabs : Version gratuite 10000 crédits ce qui représente environ 10min de TTS.


Vision du monde : 

J'ai crée le système de vision dans le monde. Le joueur peut regarder autour de lui, ce qui se passent.


Leave a comment

Log in with itch.io to leave a comment.