Derrière le modèle lancement: Quoi clients découvert essai Claude Opus 4.6 tôt

Avant la mise en service d'un nouveau modèle Claude , un petit groupe de clients y a accès quelques jours avant le reste du monde. Ils travaillent avec des modèles de recherche en préproduction, les testent sur des charges de travail réelles afin d'identifier leurs points forts, leurs points faibles et de déterminer s'ils sont prêts à être déployés auprès de leurs propres utilisateurs dès le lancement public d'Anthropic. Leurs évaluations objectives – ce qui fonctionne et ce qui ne fonctionne pas – influencent directement la version du modèle qu'Anthropic commercialisera finalement.

Le délai de révision est très court. Les équipes libèrent leur agenda, mettent en place des cellules de crise et s'attaquent aux problèmes les plus complexes du modèle. En coulisses, c'est nuits blanches, café à gogo et échanges incessants sur Slack à des heures indues. Le résultat final pour leurs clients est impeccable, mais le chemin pour y parvenir est bien plus chaotique et passionnant.

Pour cet article, nous souhaitions lever le voile sur ce à quoi cela ressemble. Harvey , bolt.new , Shopify et Lovable nous ont offert un aperçu de leur période d'accès anticipé à Claude Opus 4.6 : les approches adoptées, les innovations réalisées et les enseignements tirés avant tout le monde.

Préparation des tests sur modèle
La manière dont les équipes lancent leurs projets dépend beaucoup de ce qu'elles sont en train de construire.

bolt.new a créé un canal Slack dédié et a délibérément évité de partager ses impressions au début afin de ne pas influencer les autres.

L'équipe de recherche de Harvey a fait appel à des avocats expérimentés pour tester le modèle sur des tâches juridiques tout en l'appliquant à BigLaw Bench, leur référence pour le travail juridique réel.

Les ingénieurs de Shopify ont commencé à intégrer le modèle dans des boucles de planification itératives qu'ils avaient déjà mises en place autour de Claude.

Chez Lovable , l'équipe en charge des modèles et des évaluations s'est immédiatement mise au travail, réalisant des tests de performance tandis que les ingénieurs consacraient du temps à des « tests d'intégration », c'est-à-dire à la création d'applications avec le nouveau modèle afin d'en identifier les points forts. Alexandre Pesant, responsable de l'ingénierie chez Lovable, a déclaré : « C'est un peu comme Noël. »

Les approches étaient différentes, mais l'instinct était le même : soumettre d'abord le modèle aux problèmes les plus difficiles.

Lorsque les résultats commenceront à arriver
Une fois les tests lancés, les équipes surveillent deux aspects : les performances du modèle par rapport à leurs critères de référence et son utilisation concrète . Ces deux éléments sont importants et ne donnent pas toujours les mêmes résultats.

Les résultats de Harvey sur BigLaw Bench ont atteint 90,2 %, une première pour un modèle Anthropic, avec 40 % des tâches ayant obtenu la note maximale. Mais c'est la réaction qualitative qui a marqué les esprits.

L'un de leurs juristes internes a effectué une simple requête et a conclu que le résultat était « intelligent et analytique, comme s'il réfléchissait réellement ». Lorsque vos évaluations structurées et vos experts métiers partagent le même avis, c'est un signal fort.

bolt.new.new a combiné sa plateforme d'évaluation automatisée (qui teste la qualité de la compilation, la correction des bogues, la compréhension du code source et l'esthétique du design) avec des tests de charge pratiques. Dès la fin de la première journée, ils disposaient d'un document partagé contenant des applications de test déployées et des observations précises.

Un développeur rencontrait un bug dans un graphique en cascade qui avait échoué à plus de cinq reprises avec le modèle précédent. Opus 4.6 l'a diagnostiqué du premier coup, en découvrant huit requêtes API HubSpot parallèles exécutées simultanément et des requêtes supplémentaires contournant la limitation de débit en utilisant une requête brute au lieu du wrapper limité du projet.

Chez Shopify, Paulo Arruda, ingénieur système, a décrit un moment qui a bouleversé la dynamique habituelle : « J’ai demandé à Opus 4.6 de déplacer un élément d’une page vers un autre élément de menu ; c’est tout. Je n’ai donné aucun détail. Non seulement l’élément a été déplacé, mais il a fait bien plus, en créant de nombreux détails dont je n’avais même pas conscience avant de les voir. Il a anticipé ma prochaine requête et l’a exécutée. Je me suis retrouvé à dire « Vous avez tout à fait raison » à l’IA, au lieu de l’inverse, comme c’était généralement le cas auparavant. »

Ben Lafferty, ingénieur au sein de l'équipe Assistants de Shopify, a exploré une autre voie. Il a utilisé Opus 4.6 pour porter une importante bibliothèque de TypeScript vers Ruby pour un prototype interne. « Opus a créé une interface pour exécuter les tests existants dans le dépôt, puis a porté la quasi-totalité des spécifications en une seule opération, tout en validant avec l'ensemble de tests d'origine », explique-t-il. « Le suivi des instructions est nettement amélioré. C'était l'une des premières périodes d'accès anticipé où je n'avais pas de retours importants à fournir. »

Chez Lovable, les tests se déroulaient sur deux pistes.

L'équipe a réalisé des analyses comparatives de conception et des évaluations de tâches complexes pour obtenir une vue d'ensemble structurée, mais elle a également effectué ce qu'elle appelle des « tests d'impression » : des ingénieurs construisant des applications avec le nouveau modèle pour ressentir ses points forts et ses points faibles.

« C’est toujours un peu une course pour découvrir les nouvelles aspérités », a déclaré Alexandre Pesant.

Son propre test de résistance consistait en un projet parallèle impliquant la cartographie complexe du métro et la logique des itinéraires, une tâche qu'il avait déjà tentée avec des modèles précédents sans y parvenir. Avec Opus 4.6 et les paramètres au maximum, le modèle a dépassé le point où il s'attendait à ce qu'il stagne.

« Je sais instinctivement quand les choses ne vont pas fonctionner ou si nous atteignons nos limites », a-t-il déclaré. « Celui-ci est allé plus loin que les autres. » Il a également constaté un changement plus général : grâce à la capacité du modèle à utiliser le navigateur et à effectuer des tests de manière autonome au sein de Lovable, « on ressent une différence notable en termes d’autonomie ».

Ce que c'est de l'autre côté
Une fois la période d'accès anticipé terminée, les équipes ont une vision claire de l'outil avec lequel elles travaillent. Toutes les équipes avec lesquelles nous avons discuté revenaient sans cesse au même constat : leur relation avec le modèle est en train de changer.

« Opus 4.6 a diagnostiqué du premier coup des bugs que nous n'avions pas réussi à corriger après plus de cinq tentatives avec les modèles précédents. Le gain en profondeur de raisonnement est réel », a déclaré Garrett Serviss, vice-président du marketing chez bolt.new.

« Pour moi, Opus 4.6 est le premier modèle d'Anthropic qui s'intègre parfaitement à mon travail quotidien », a déclaré Ben Lafferty de Shopify. « La durée des tâches que je peux déléguer au modèle ne cesse de s'allonger. »

« Claude Opus 4.6 représente un progrès significatif en matière de qualité de conception », a déclaré Fabian Hedin, cofondateur de Lovable. « Plus autonome, l’IA est au cœur des valeurs de Lovable. Les humains devraient se concentrer sur la création de projets importants, plutôt que de microgérer une IA. »

Bien sûr, tous les retours n'étaient pas enthousiastes, et c'est justement le but. Les premiers testeurs déterminent directement la version du modèle qu'Anthropic va finalement livrer. Tout le processus fonctionne parce que les équipes sont aussi franches sur ce qui ne fonctionne pas que sur ce qui fonctionne, et elles savent que cette franchise est constructive.

« Nous avons la possibilité de façonner l'avenir des outils que notre équipe d'ingénierie utilisera », a déclaré Paulo Arruda de Shopify. « Nous ne sommes pas de simples testeurs passifs : nous sommes des partenaires du développement. Lorsque nous identifions des problèmes ou des tendances, Anthropic est à l'écoute et travaille en itérant. »

Derrière le modèle lancement: Quoi clients découvert essai Claude Opus 4.6 tôt

Commentaires (0)

Laisser un commentaire