23/09 - Différents tests
23/09/2025 - Différents tests
Aujourd'hui, nous avons été en autonomie toute la journée.
Le matin, nous avons fait des tests pour essayer de mettre en place le speech to text - possibilité de parler dans le microphone et que les mots dis s'affiche dans un champ input de Unity pour pouvoir poser la question ensuite au NPC (un peu comme on retrouve sur l'assistance Google).
Nous avons d'abord essayé en faisant bouger un cube en fonction d'un audio puis directement en lien avec le microphone.
Pour ce faire, nous avons utiliser cette vidéo explicative :
Le cube réagit aux sons émis dans le microphone :
En réalité, cette vidéo ne résout pas à notre problématique du speech to text car pour faire bouger le cube, nous utilisons la détection d'un son et non la reconnaissance de la voix et des mots. Pour notre problématique, il faut pouvoir reconnaitre les mots puis les afficher dans l'input.
Après cette phase qui s'est passé tout le matin, nous avons commencé à tester les requêtes ChatGPT. Théo a réussi à lier Unity avec les requêtes. Nous pouvons maintenant poser des questions directement sur Unity et cela fait des requêtes à l'API de Chat GPT pour répondre à la question.
Tests ChatGPT :
Pour tester la faisabilité du projet du point de vue de l’intelligence artificielle, j’ai d’abord expérimenté l’API d’OpenAI. J’ai donc réalisé un script JavaScript intégré dans une page HTML afin de communiquer directement avec ChatGPT via l’API, sans passer par l’interface du site web.
Pour cela, il m’a simplement fallu acheter des crédits et générer une clé API. Nous verrons plus loin que les tarifs actuels sont très avantageux.
Une fois ce test concluant, j’ai tenté de "fine-tuner" l’IA, c’est-à-dire de personnaliser les réponses de ChatGPT pour leur donner une certaine "personnalité". Pour ce faire, j’ai utilisé un message préchargé envoyé avec chaque prompt. Ce message est inséré dans le champ content de la requête (voir ci-dessous).
Avec ce genre d’ébauches de personnalité, GPT-3.5 Turbo nous donne des réponses de ce style :
Au-delà de la manière familière avec laquelle l’IA répond (car je lui ai précisé ce ton dans le message de contexte), on peut remarquer que ChatGPT a tendance à produire des réponses relativement longues, adoptant souvent un ton de monologue plutôt qu’un véritable style conversationnel.
Ce comportement peut être corrigé de deux manières :
-
En précisant dans le message de contexte la forme attendue de la réponse : s’il doit adopter un ton conversationnel, synthétique, formel, etc.
-
En limitant simplement la taille des réponses à l’aide du paramètre
max_tokens
. Cela permet de forcer des réponses plus courtes.
Cependant, si une réponse longue est nécessaire dans le cadre de la conversation, l’IA sera incapable de dépasser la limite imposée par max_tokens
.
Remarque : un "token" correspond à une unité de mesure utilisée pour quantifier la charge de traitement d'une réponse (temps, longueur, complexité, etc.).
Ce qui donne ceci en lui attribuant une "personnalité" :
Dans Unity, les requêtes vers OpenAI suivent le même modèle qu'en JavaScript. Cependant, un axe d’amélioration serait de stocker le message de consignes et de structure de la personnalité dans un fichier séparé, afin qu’il ne soit pas intégré directement dans le script de manière "brute".
Bilan tiré :
Nous avons donné deux personnalités à notre IA : Patrick et Clarisse.
Patrick a une personnalité très forte et très affirmée avec un caractère bien défini ce qui s’accompagne de réponses à nos questions très précieuses et très tranchées.
Clarisse quant à elle est plus neutre et moins affirmée. Ces réponses sont plus un récital de ce qu’on lui a donné et elle ne répond pas de manière synthétique.
Pour la personnalité de notre avatar, il faudra donc lui donner un maximum d’éléments qui permettront au personnage de répondre à nos questions de manière fluide donc un contexte de conversation.
Objectifs pour Mercredi 24/09/2025 :
-stocker le contexte de la req dans un json (théo)
-améliorer les consignes pour donner des réponses plus naturels et dans un contexte de "conversations" (théo)
-essayer de stocker la conversation pour qu'il redonne la même réponse à chaques fois qu'il invente ou imagine ( historique de la conversation) (théo)
- commencer l'environnement (si possible) (?)
-continuer le document de veille (Ninon / Théo)
- text to speech et speech to text (Ninon)
Fragments - Avatar IA 🤖
Théo Chambost-Manciet & Ninon Soulagnet
More posts
- 02-03/10 - Vidéo rendu14 hours ago
- 01/10 - Lore / Environnement2 days ago
- 30/09 - Lipsync / Environnement3 days ago
- 29/09 - Avatar4 days ago
- 25-26/09 - Text to Speech6 days ago
- 24/09 - Requêtes9 days ago
- 22/09 - Découverte du projet10 days ago
Leave a comment
Log in with itch.io to leave a comment.