J'ai décortiqué la stratégie IA de Level-5

En traînant sur le web, on entend tout et son contraire au sujet de l’IA. D’un côté, vous avez l’enthousiasme débordant d’un Julien Chièze qui s’émerveille des possibles ; de l’autre, les résumés plus sceptiques ou rapides de figures comme Frédéric Molas. Au milieu de ce brouhaha, c’est souvent le dialogue de sourds. Le problème, c’est que la plupart des médias se contentent de balancer des noms de technologies, sans jamais expliquer comment ça fonctionne vraiment. J’ai voulu dépasser ces approximations. Plutôt que de rester dans la théorie, je me suis penché sur un cas que je connais bien, un cas concret et documenté : le dossier Level-5. Ce n’est pas un exposé technique froid que je vous propose, mais une plongée dans leur quotidien. En croisant les déclarations officielles du studio avec mes propres tests et une observation minutieuse de leurs derniers jeux, nous allons voir comment des outils comme Stable Diffusion ou les modèles de langage redéfinissent la fabrication de nos jeux vidéo, bien au-delà de simples citations.

Avant de commencer, une mise au point nécessaire : toutes les productions visuelles (Stable Diffusion) et les environnements de test (GreyBox) que j’ai générés durant cette enquête ont été supprimés une fois la rédaction terminée. Je ne suis pas là pour faire la promotion de ces outils, ni pour partager des modèles ou des fichiers. Ces expérimentations techniques n’avaient qu’un seul but : comprendre le processus de l’intérieur pour alimenter cet article, ni plus, ni moins.

Il faut dire que l’histoire récente de Level-5 ressemble à une course désespérée pour ne pas sombrer. En effet, pendant près de dix ans, suivre l’actualité du studio basé à Fukuoka était une épreuve de patience. La marque de fabrique de la maison n’était plus la qualité de ses énigmes, mais son incapacité chronique à sortir un jeu à l’heure. Les reports incessants d’Inazuma Eleven ou les silences radio autour de Decapolice ont fini par briser la confiance des fans. C’est dans cette ambiance de crise qu’Akihiro Hino, le patron, a opéré un virage vers 2023. Dos au mur, il a vu l’intelligence artificielle comme la seule bouée de secours pour une production qui prenait l’eau. Son constat est discutable, mais lucide : la méthode artisanale, celle qui a fait le charme de l’époque Nintendo DS, est morte et enterrée. Elle ne tient plus la route face à la voracité technique des machines actuelles et du marché.

J’ai pris le temps d’analyser ce que raconte vraiment Akihiro Hino, notamment lors de ses interventions face à des étudiants ou devant le gouvernement fin 2023. Le patron ne prend pas de pincettes : pour lui, Level-5 doit injecter de l’IA partout. Il a même lâché un chiffre qui donne le vertige, estimant que ces outils pourraient, à terme, gérer ou assister 80 à 90 % de la production. Dit comme ça, on imagine tout de suite une vague de licenciements, mais en creusant le propos, la réalité est différente. Hino cherche à booster une machine qui ne suit plus la réalité du marché. Son obsession, c’est de tuer les temps morts. Il veut éliminer ces tâches ingrates et répétitives qui bouffent les plannings et qui, in fine, nous privent de nos jeux à la date promise.

Côté technique, j’ai voulu comprendre comment ils s’y prenaient concrètement. Le cœur du réacteur, c’est le modèle de génération d’images, principalement une version modifiée de Stable Diffusion. Les ingénieurs de Level-5 ont verrouillé le système : ils ont nourri la machine exclusivement avec leurs propres archives. L’IA a donc passé des heures à se nourir du Professor Layton, du Danball Senki ou du Ni no Kuni. C’est une manœuvre brillante qui règle deux soucis d’un coup. D’abord, tout ce qui est produit par l’application respecte déjà l’ADN visuel du studio, cette « patte » Level-5 qu’on reconnaît facilement. Ensuite, ça bétonne la question juridique : comme ils possèdent toutes les images sources, ils ne volent le travail de personne.

Mais d’abord, un peu de contexte. L’histoire de Stable Diffusion démarre à l’été 2022, quand une start-up nommée Stability AI et des chercheurs de l’université de Munich ont décidé de rendre leur code public. C’est la grande différence avec ses concurrents comme DALL-E ou Midjourney, qui restent des boîtes noires payantes. Ici, n’importe qui peut télécharger le moteur et regarder comment il est fait. Pour un studio comme Level-5, c’était ce point qui était intéressant : ils n’ont pas besoin de se connecter à un serveur distant pour travailler. Ils téléchargent le logiciel, l’installent sur leurs propres machines, et peuvent le modifier à leur sauce sans que jamais un seul de leurs dessins ne fuite sur Internet.

Moi-même, j’ai installé Stable Diffusion sur mes propres machines pour comprendre ce qui se passait. Oubliez l’idée reçue d’un logiciel qui ferait du collage en allant piocher des morceaux d’images sur Google ; la réalité est bien plus mathématique. Le principe de base, c’est ce qu’on appelle la « diffusion ». Imaginez que vous ayez une photo ultra-nette d’un personnage d’Inazuma Eleven. L’entraînement du modèle consiste à ajouter progressivement du bruit numérique à cette image, une sorte de neige, jusqu’à ce qu’elle devienne une bouillie de pixels gris totalement méconnaissable. L’IA, pendant des semaines, s’entraîne à faire le chemin inverse : elle apprend à nettoyer cette bouillie pour retrouver l’image d’origine. À force de répéter l’opération des millions de fois, le modèle finit par comprendre mathématiquement la structure d’un œil, d’un ballon de foot ou d’une mèche de cheveux, sans jamais stocker l’image elle-même.

Après avoir tester une dizaine de modèles, j’ai compris comment Level-5 l’exploitait pour la création. Quand on demande à l’IA de générer une image, on ne part pas d’une page blanche, mais d’un carré de bruit aléatoire, ce chaos de pixels gris dont je parlais. Si je tape un prompt le logiciel va utiliser ce bruit comme une glaise numérique. Il va chercher dans sa mémoire les formes qui correspondent à ma demande et sculpter le bruit pour faire apparaître l’image, étape par étape. Au lieu de laisser l’IA improviser totalement, les employés de chez Level-5 utilisent souvent une technique appelée « Image-to-Image ». J’ai testé ça moi-même : je griffonne un bonhomme bâton avec une pose dynamique, je le donne à l’IA avec une instruction constituée de mots-clés en anglais, et le logiciel garde ma composition exacte mais remplace mes traits maladroits par un rendu professionnel. C’est exactement ce qui permet à leurs artistes de transformer un croquis rapides en une illustration quasi-finale. Quand Hino affirme que ça divise le temps de production par dix, il n’exagère pas, c’est effrayant, même si le travail d’adaptation peut être long à cause d’erreurs que nous pouvons constater sur mon test ci-dessous.

Un Stable Diffusion de base sait tout dessiner, d’une photo réaliste à une peinture à l’huile, mais souvent de manière moyenne. Pour obtenir leur qualité, les ingénieurs de Hino ont pratiqué ce qu’on appelle le « fine-tuning ». En saturant le modèle avec leurs propres données, ils ont biaisé ses réflexes. C’est cette étape d’entraînement local qui leur permet de garder leur DA, là où d’autres studio utilisant l’IA finissent générer des assets similaires.

Mais là où la technologie m’a vraiment bluffé, c’est dans son application aux environnements 3D, notamment sur un projet urbain comme Decapolice. À l’ancienne, modéliser un immeuble demandait de sculpter chaque détail de façade puis de peindre les textures à la main, un labeur qui pouvait bloquer une équipe pendant trois jours juste pour un bâtiment. Aujourd’hui, j’ai vu des level designers poser de simples cubes gris pour définir les volumes de la ville. L’IA analyse ces blocs et projette littéralement dessus des textures détaillées de briques, de fenêtres ou de néons, en respectant parfaitement la perspective. Ce qui prenait des jours est désormais ébauché en quelques minutes, ce qui permet aux développeurs de tester immédiatement si le niveau est cohérent.

Au-delà de l’image, Akihiro Hino a également poussé ses équipes à utiliser l’IA pour la gestion du code et des interactions. Sur des projets complexes comme Megaton Musashi: Wired, l’IA aide à identifier des bugs ou à proposer des optimisations de scripts. Mais c’est surtout dans la génération de contenu secondaire que l’impact est visible. Pour peupler les vastes environnements de leurs RPG, le studio utilise des algorithmes pour générer des variantes de PNJ. Au lieu de demander à un modélisateur de créer cinquante visages différents pour une foule, l’IA génère ces variations automatiquement en mélangeant des traits existants. Cela permet d’avoir des stades remplis dans Inazuma Eleven: Victory Road sans sacrifier des mois de développement sur des détails que le joueur ne regardera qu’une seconde.

Cette course à la productivité a forcé Akihiro Hino à revoir totalement la fiche de poste de ses équipes. Dans son esprit, un développeur chez Level-5 doit se transformer en « directeur artistique ». Il insiste lourdement sur une compétence précise : le sens esthétique. J’ai bien saisi sa logique : puisque l’ordinateur peut générer une infinité de variations d’un même monstre ou d’un décor, la vraie valeur de l’humain n’est plus de fabriquer, mais de savoir choisir et adapter. Hino ne s’en cache pas, pour lui, c’est la seule option viable pour qu’un studio de taille moyenne puisse tenir tête aux mastodontes de l’industrie qui alignent des milliers de salariés.

Sur le terrain, les conséquences de ce pari sont déjà là, avec leurs bons et leurs mauvais côtés. Il faut admettre que la machine s’est débloquée : en 2024 et 2025, le rythme des sorties et des mises à jour s’est considérablement accéléré. On sent que les équipes osent plus, qu’elles testent des concepts sans avoir peur de perdre des mois de travail, car l’échec coûte moins cher. Mais il y a un revers à la médaille. J’ai suivi de près la polémique lors de la promo de Megaton Musashi, où les joueurs ont tiqué sur certains visuels qui avaient ce look « générique » typique de l’IA. Hino a dû monter au front pour rassurer les fans, jurant que l’humain gardait le contrôle final, mais la méfiance s’est installée. Beaucoup se demandent maintenant si, en gagnant du temps, le studio n’est pas en train de vendre un peu de son âme artisanale.

Cependant, cette transition technologique ne règle pas tous les problèmes de management internes. Si l’IA accélère la production des assets, elle ne peut pas compenser les errements de la direction créative. Les retards de Fantasy Life i, repoussé à plusieurs reprises, montrent que même avec les meilleurs outils du monde, une vision floue ou changeante entraîne toujours des délais. L’IA est un multiplicateur de force : elle permet à une équipe efficace d’aller très vite, mais elle permet aussi à une équipe mal dirigée de produire beaucoup de contenu inutile ou erroné très rapidement. C’est le défi actuel de Hino : canaliser cette puissance de production pour servir des jeux cohérents et finis.

En conclusion, la stratégie IA de Level-5 est l’une des plus agressives et des plus intégrées de l’industrie japonaise actuelle. Akihiro Hino joue sa survie et celle de son entreprise sur ce pari. Il a transformé son studio en laboratoire d’expérimentation. Pour les joueurs, cela signifie potentiellement plus de titres Level-5 dans les années à venir, mais aussi une vigilance accrue sur la qualité et l’âme de ces productions. L’avenir dira si l’IA aura sauvé Level-5 de ses vieux démons ou si elle aura simplement standardisé une production qui tirait sa force de son originalité.