GPT-3.5 et GPT-4 régresseraient-ils ?
Alors que des utilisateurs des modèles de langages d’OpenAI GPT-3.5 et 4 commençaient à se demander si leurs outils perdaient en acuité, des chercheurs de Stanford et Berkeley ont comparé leurs performances entre mars et juin 2023.
Les grands modèles de langage popularisés par ChatGPT sont souvent utilisés via leurs API, parce qu’ils ont encore besoin de puissance pour tourner mais aussi, tout simplement, parce que leurs sources ne sont pas diffusées pour une bonne partie d’entre eux.
C’est notamment le cas pour les populaires GPT-3.5 et GPT-4, modèles de langages utilisés par ChatGPT. Leurs utilisateurs n’ont pas la main dessus et ne peuvent que les interroger. Or, depuis quelque temps, certains se demandaient si les performances de ces deux modèles ne baissaient pas.
Le problème est que personne, à part OpenAI, ne sait réellement comment et quand leur base de connaissances est mise à jour. L’entreprise leader du marché est aussi la plus discrète sur son outil. Cette discrétion a d’ailleurs poussé Google à demander à ses chercheurs de ne pas publier leurs travaux tant qu’ils n’étaient pas déjà utilisés par l’entreprise.
Du côté de Meta, de façon assez inhabituelle, les équipes de recherche de Yann Lecun jouent les bons élèves de l’open source en publiant tous leurs modèles. Mais aucun d’entre eux ne divulgue clairement les corpus sur lesquels ils entrainent leurs outils. Il n’y a guère que le modèle BLOOM qui essaye de respecter au mieux les canons de la science ouverte (open science).
Il est donc difficile de se faire sa propre idée des performances de ces outils et de savoir dans quelles mesures ils s’améliorent ou s’ils régressent.