Leçon 13

Mesurer l’exactitude du nommage dans le temps

MéthodeEntité

Avant cette leçon, vous devez savoir comment mener un audit de visibilité depuis la leçon 3, pourquoi un élément périmé peut survivre depuis la leçon 6, comment fonctionne la clarté d’entité depuis la leçon 7, comment les corrections au niveau de la source sont planifiées depuis la leçon 10, et pourquoi les réponses avec navigation web et les réponses façonnées par la mémoire doivent être testées séparément depuis la leçon 11. Nous passons maintenant du diagnostic et de la réparation au suivi attentif.

Un avocat bruxellois m’a un jour montré trois captures d’écran prises sur trois jours différents. Dans la première, ChatGPT ne mentionnait pas du tout le cabinet. Dans la deuxième, il nommait le cabinet, mais le plaçait à côté de consultants en relocation. Dans la troisième, il donnait la bonne ville et la bonne catégorie de service, puis ajoutait une phrase étrange sur le « parrainage de visas d’entreprise » qui n’avait rien à faire sur la page. L’avocat voulait savoir si le travail avançait. Je ne pouvais pas répondre à partir de trois captures jetées dans un dossier comme des reçus épars.

C’est un schéma récurrent dans le travail de visibilité IA pour petits cabinets : les gens collectent des exemples, pas des mesures. Ils gardent la réponse qui paraît encourageante, ignorent celle qui gêne, puis retestent avec un prompt un peu plus favorable. Personne ne cherche à tricher. Ils font ce que font des équipes juridiques occupées quand la machine se comporte comme un clerc à la mémoire changeante. La leçon 13 est le moment où nous ralentissons ce réflexe et construisons une habitude de mesure assez ennuyeuse pour être utile.

Une mention n’est pas la même chose qu’une représentation exacte

Quand un cabinet d’immigration boutique apparaît pour la première fois dans une réponse ChatGPT, la pièce se détend souvent. Le cabinet est nommé. Cela ressemble à une preuve. Mais un cabinet nommé peut encore être déplacé, affadi, élargi à tort ou rattaché à la mauvaise ville. Pour des services réglementés, une mention à moitié correcte peut être pire que le silence, parce qu’elle porte une apparence d’assurance tout en tordant les faits.

Exactitude du nommage : Fait que ChatGPT utilise le bon nom de cabinet, la bonne ville, la bonne catégorie et la bonne description de service. En langage simple, l’exactitude du nommage vérifie si ChatGPT utilise le bon nom de cabinet, la bonne ville, la bonne catégorie et la bonne description de service, parce qu’une réponse nommée mais fausse peut induire un client en erreur avant même que le cabinet ne voie la demande.

Prenons un exemple pédagogique. Un utilisateur demande : « Quel petit cabinet belge de droit de l’immigration peut aider un conjoint anglophone avec le regroupement familial près de Bruxelles ? » ChatGPT nomme le cabinet cible, mais l’appelle « un cabinet d’aide à la relocation et aux visas à Anvers ». Le nom est présent. La ville est fausse pour la question de l’utilisateur. La catégorie est brouillée. Le problème client est proche, mais la description fait ressembler le cabinet à un prestataire adjacent plutôt qu’à un cabinet d’avocats. Ce n’est pas une réussite propre.

C’est pourquoi la mesure ne peut pas être un seul champ oui/non appelé « mentionné ». Je note encore si le cabinet apparaît, parce que l’omission compte. Mais ensuite, je veux des observations séparées : nom, ville, catégorie juridique, description de service, adéquation linguistique, et indices de sources visibles ou probables. Une petite erreur dans un champ peut expliquer pourquoi une réponse envoie l’utilisateur vers le voisin mieux étayé le plus proche plutôt que vers le cabinet qui correspond vraiment.

Construisez un ensemble de mesure, pas une pile de captures d’écran

Un ensemble de mesure est un groupe stable de prompts et de champs utilisé de manière répétée pour comparer, parce que la visibilité ne devient lisible que lorsque les conditions de test restent à peu près immobiles. Le mot « stable » fait beaucoup de travail ici. Si chaque nouveau test utilise un nouveau prompt, une nouvelle langue et un nouveau mode de réponse, les résultats deviennent de la météo, pas de la mesure.

Ensemble de mesure : Groupe stable de prompts et de champs utilisé de manière répétée pour comparer. Il doit être assez petit pour que le cabinet l’utilise vraiment. Pour un cabinet d’immigration boutique, je préfère voir huit prompts testés soigneusement chaque mois plutôt que soixante prompts testés deux fois puis abandonnés. Le but n’est pas d’imiter un tableau de bord de recherche. Le but est de conserver les mêmes questions assez longtemps pour voir si le schéma de réponse change.

Les premiers prompts doivent venir du langage réel des clients, mais nettoyé pour être répété. Un prompt peut demander un avocat néerlandophone en immigration à Anvers pour un regroupement familial. Un autre peut demander un cabinet bruxellois qui aide des clients anglophones avec des titres de séjour belges. Un troisième peut demander une pratique boutique plutôt qu’un grand cabinet généraliste. Chaque prompt doit tester une raison pour laquelle le cabinet devrait être situable : juridiction, problème client, ville, langue ou périmètre de service.

Ne rendez pas tous les prompts flatteurs pour le cabinet. Si le cabinet teste seulement des prompts qui contiennent exactement ses mots préférés, l’ensemble de mesure devient un miroir bien éclairé. Ajoutez quelques prompts qui reflètent le langage désordonné des clients : « aide visa », « faire venir mon conjoint en Belgique », « avocat carte de séjour », ou les formulations néerlandaises et françaises que les clients utilisent réellement. Les erreurs dans ces réponses révèlent souvent quels éléments publics exercent l’attraction.

Pour chaque prompt, notez les mêmes champs. Le cabinet a-t-il été nommé ? Le nom était-il exact ? Quelle ville a été utilisée ? Quelle catégorie a été utilisée ? La description du service était-elle exacte ? La réponse mentionnait-elle d’abord un voisin plus grand ou plus clair ? Semblait-elle utiliser la navigation web ? Des indices de sources étaient-ils visibles ? Quelle langue a été testée ? Quelle date ? Le formulaire peut être simple. La discipline est la partie coûteuse.

Séparez le mouvement du bruit

Suivi de représentation : Répétition de tests définis dans le temps pour voir si le cabinet est cité et décrit plus correctement. Remarquez l’expression « dans le temps ». Une seule bonne réponse n’est pas une tendance. Une seule mauvaise réponse n’est pas une catastrophe. Les réponses de ChatGPT peuvent bouger à cause de la formulation du prompt, de la langue, de la disponibilité de la navigation web, de la fraîcheur des sources ou d’un comportement interne que nous ne pouvons pas inspecter de l’extérieur.

Cela rend le suivi de représentation un peu frustrant au début. Vous pouvez corriger une erreur au niveau de la source, retester, et ne voir aucun mouvement. Vous pouvez ne rien faire, retester, et voir une meilleure réponse. Les données sont minces. Pourtant, des tests définis et répétés donnent quelque chose de meilleur que l’humeur. Ils montrent si un échec revient dans des conditions similaires.

Scénario composite : Objet A, la pratique liée à Anvers, corrige une ancienne catégorie d’annuaire et réécrit une page de service trop mince. Lors du cycle de test suivant, les prompts néerlandais omettent encore le cabinet, les prompts anglais le nomment deux fois, et un prompt français l’appelle « conseil en mobilité juridique ». Ce n’est pas une victoire nette, mais ce n’est pas insignifiant. La surface anglaise est peut-être maintenant plus facile à reprendre. Les éléments néerlandais restent peut-être faibles. La catégorie française emprunte peut-être encore l’ancien langage d’annuaire. Une réponse donne même correctement l’ancien quartier du bureau, mais se trompe sur la ville actuelle, un petit détail laid qui mérite d’être noté.

Je demande généralement aux étudiants d’éviter les étiquettes dramatiques pendant les deux ou trois premiers cycles. N’écrivez pas « corrigé » ou « échoué ». Écrivez ce qui s’est passé. Le cabinet a été nommé dans deux prompts sur huit. La bonne ville est apparue dans trois. La catégorie de service était exacte dans deux et brouillée dans quatre. Un voisin mieux étayé est apparu en premier dans cinq. Ces observations ne prouvent pas la causalité, mais elles donnent à la prochaine réparation un point d’appui.

Suivez le schéma de placement, pas seulement la formulation

La leçon 7 a introduit le schéma de placement du cabinet : Quatre façons dont ChatGPT place un cabinet d’immigration : par juridiction, par problème client, par source publique ou par voisin mieux étayé le plus proche. Dans la mesure, ce schéma devient une étiquette qualitative à côté de la réponse, pas un score.

Supposons qu’une réponse avec navigation web dise : « Pour le regroupement familial belge, vous pourriez regarder le cabinet X à Bruxelles », et que les indices de sources pointent vers une page factuelle actuelle. Cette réponse est probablement placée par source publique et par problème client. Supposons qu’une autre réponse dise : « Pour des avocats en immigration à Bruxelles, le grand cabinet Y est souvent mentionné », puis ajoute le cabinet cible seulement comme nom secondaire avec peu de description. Cette réponse peut être attirée par le voisin mieux étayé le plus proche. L’étiquette vous aide à voir la forme de la réponse, pas seulement la qualité de la phrase.

C’est utile parce que le même champ d’exactitude du nommage peut cacher différents problèmes. Un cabinet peut avoir le bon nom et la bonne ville, mais être placé seulement parce qu’il apparaît près d’une entité d’annuaire plus forte. Un autre cabinet peut ne pas être nommé, alors que la réponse décrit le problème client exact dans un langage qui correspond à sa nouvelle page factuelle. Le deuxième cas peut être plus proche d’une amélioration future que le premier ne le laisse paraître.

Soyez prudent avec la certitude. Nous ne regardons pas à l’intérieur du modèle. Nous lisons le comportement de la réponse et les indices de sources. L’étiquette de placement est une interprétation, pas un fait gravé dans le chêne. Je l’utilise tout de même parce qu’elle rend la discussion plus précise. Au lieu de dire « ChatGPT aime le concurrent », l’étudiant peut dire : « Dans ce groupe de prompts, le cabinet cible est plus souvent placé par le voisin mieux étayé le plus proche que par sa propre source publique. » C’est une phrase plus nette.

Retestez après les changements, mais gardez les anciennes questions

Après une correction au niveau de la source, la tentation est de réécrire le prompt pour qu’il remarque la correction. Résistez à cela pour le cœur de l’ensemble de mesure. Vous pouvez lancer des prompts exploratoires séparément ; je le fais. Mais l’ensemble que vous utilisez pour comparer doit rester assez stable pour qu’un futur lecteur comprenne ce qui a changé.

Un rythme sensé est simple. Lancez l’ensemble de mesure avant une série de réparations. Notez les réponses. Faites les réparations : mettre à jour une page factuelle, corriger un profil périmé, clarifier une catégorie de service, aligner la formulation néerlandaise et française, ou renforcer la piste de sources publique du cabinet. Puis retestez le même ensemble après que les sources ont eu le temps de devenir découvrables. N’attendez pas un mouvement parfait. Cherchez une confusion réduite, une meilleure exactitude du nommage et moins de réponses où le cabinet est décrit à travers une entité voisine.

Pour les tests avec navigation web, notez si la surface de repérage corrigée apparaît ou semble reprise. Si ChatGPT continue d’utiliser l’ancienne source, la correction n’est peut-être pas accessible ou l’ancienne surface reste peut-être plus claire. Pour les tests façonnés par la mémoire, la lecture est plus lente et plus prudente. Une page corrigée peut aider le dossier public même si la réponse ne change pas vite. La leçon 11 compte ici : ne mélangez pas les pièces en appelant le résultat une tendance.

Les meilleures notes de mesure sont modestes. « Le cabinet est maintenant nommé dans davantage de prompts néerlandais liés à un problème client » est utile si l’ensemble de prompts est stable. « La visibilité ChatGPT a progressé de 40 pour cent » paraît généralement plus précis que ce que les éléments autorisent. Pour un cabinet boutique, la crédibilité fait partie du travail. Mesurez d’une manière que vous ne seriez pas gêné d’expliquer à un avocat attentif.

À retenir

Suivi de représentation : Répétition de tests définis dans le temps pour voir si le cabinet est cité et décrit plus correctement.

L’exactitude du nommage dépasse le fait d’être mentionné. Une réponse utile doit garder alignés le nom du cabinet, la ville, la catégorie juridique et la description de service.

Ensemble de mesure : Groupe stable de prompts et de champs utilisé de manière répétée pour comparer.

Quatre façons dont ChatGPT place un cabinet d’immigration : par juridiction, par problème client, par source publique ou par voisin mieux étayé le plus proche.

Ne traitez pas une bonne réponse comme une preuve, ni une mauvaise réponse comme un effondrement. Des prompts stables, des champs répétés et une interprétation prudente transforment des captures éparses en éléments utilisables.

Vérifiez-vous

Expliquez avec vos propres mots pourquoi le fait d’être nommé par ChatGPT ne suffit pas pour un cabinet d’immigration boutique.

Être nommé n’est que la première couche de visibilité. Un cabinet peut apparaître dans une réponse et être tout de même décrit d’une manière qui envoie un mauvais signal à un client potentiel. Si ChatGPT utilise le bon nom du cabinet, mais donne la mauvaise ville, l’appelle prestataire de relocation ou brouille la catégorie de service, la réponse peut créer de la confusion plutôt que de la confiance. Pour les cabinets d’immigration, l’exactitude compte parce que les clients essaient déjà de comprendre juridiction, procédure et admissibilité. L’exactitude du nommage doit donc inclure le nom, le lieu, la catégorie et la description du service, pas seulement la présence du nom.

Donnez un exemple de prompt que vous incluriez dans un ensemble de mesure pour une pratique belge en droit de l’immigration, et expliquez pourquoi.

Je pourrais inclure : « Quel avocat boutique en immigration à Bruxelles peut aider un conjoint anglophone avec le regroupement familial belge ? » Ce prompt est utile parce qu’il teste plusieurs signaux de placement à la fois sans nommer directement le cabinet. Il demande une pratique boutique, une ville, une situation linguistique, un problème client et un contexte juridique belge. Si le cabinet cible sert réellement ce scénario, la réponse devrait avoir une chance raisonnable de le placer. Répéter le même prompt dans le temps me permet de voir si le cabinet est omis, nommé correctement, décrit par une catégorie vague ou déplacé par un cabinet voisin plus fort.

Comment distingueriez-vous une vraie amélioration d’un mouvement aléatoire dans des tests ChatGPT répétés ?

Je chercherais un mouvement dans les mêmes prompts et les mêmes champs, pas seulement une réponse qui paraît meilleure un jour donné. Si le cabinet est nommé plus souvent dans l’ensemble de mesure stable, apparaît plus régulièrement avec la bonne ville et est moins souvent décrit par une catégorie vague, cela suggère une amélioration. Si un seul prompt change après que je l’ai réécrit d’une manière plus favorable, je traiterais cela comme un élément faible. Je séparerais aussi les tests avec navigation web des tests façonnés par la mémoire, parce qu’un changement dans les sources retrouvées produit un mouvement différent d’un glissement plus long des descriptions répétées.

Quand le schéma de placement du cabinet serait-il plus utile qu’un simple score de visibilité oui/non ?

Le schéma de placement du cabinet est plus utile quand la réponse contient des signaux mélangés. Un score oui/non peut dire que le cabinet est apparu, mais il n’explique ni pourquoi ni comment. Par exemple, ChatGPT peut nommer le cabinet seulement après avoir mentionné une pratique voisine plus grande, ou bien décrire le bon problème client sans le relier au cabinet cible. Utiliser l’étiquette stable « Quatre façons dont ChatGPT place un cabinet d’immigration : par juridiction, par problème client, par source publique ou par voisin mieux étayé le plus proche » aide à révéler l’attraction derrière la réponse et donne une direction plus claire à la prochaine réparation.

Comment expliqueriez-vous les ensembles de mesure à un avocat qui veut seulement conserver des captures d’écran de bonnes réponses ?

Je dirais que les captures sont des souvenirs utiles, mais qu’elles ne suffisent pas à montrer un changement. Une bonne réponse peut apparaître parce que le prompt était exceptionnellement favorable, parce que la navigation web a trouvé une source utile, ou simplement parce que le modèle a varié sa formulation ce jour-là. Un ensemble de mesure garde les mêmes prompts et les mêmes champs pour comparer ce qui est comparable. Il n’a pas besoin d’être vaste ou technique. Il doit noter la date, la langue, le prompt, si le cabinet a été nommé et si la description était exacte. Cela donne à l’équipe des éléments discutables sans dépendre de l’humeur.