Demain, disons d'ici 15 ans grand maximum au vu des progrès actuels, il sera possible de penser à ce qu'on veut dire pour que son interlocuteur l'entende dans la voix et la langue de son choix, avec l'intonation et le style voulus, en prose ou en vers. Explication.
Ces prévisions reposent sur plusieurs avancées :
- 1. percevoir ce que le cerveau humain a décidé de dire mais n'a pas encore dit
- 2. pouvoir synthétiser n'importe quelle voix
- 3. pouvoir comprendre des propos et les traduire dans n'importe quel style ou langue
Revenons sur chacune.
Percevoir ce que le cerveau humain a décidé de dire mais n'a pas encore dit
Facebook a révélé travailler sur le sujet en avril dernier, 60 scientifiques se consacreraient à cette tâche, avec l'objectif d'ici à deux ans de pouvoir taper par la pensée à la vitesse de 100 mots par minute, soit 5 fois plus vite qu'avec nos doigts. Sachant qu'on estime prononcer entre 110 et 150 mots par minute dans une conversation normale entre amis.
Aujourd'hui, des expériences ont déjà permis à des personnes de taper à la vitesse de 8 mots par minute en déplaçant un curseur sur un écran par la pensée, moyennant un "petit" implant dans le cerveau.
Il ne s'agit pas tant ici pour Facebook de pouvoir fouiller nos pensées (bien trop compliqué) mais simplement de décrypter les informations qui arrivent dans la zone de notre cerveau dédiée à l'expression orale, c'est-à-dire ce que nous nous apprêtons à dire, ce que nous avons sur le bout de la langue pour ainsi dire. Et bien sûr Facebook voudrait y arriver sans l'aide d'implant à terme pour ce que la devienne acceptable.
On peut donc imaginer raisonnablement que d'ici à 10 ans existe la technologie qui permette via le simple porte d'un casque de mettre à l'écrit ce que nous avons décidé de dire sans avoir à le prononcer.
Pouvoir synthétiser n'importe quelle voix
Cette seconde étape n'est pas la plus dure, aujourd'hui c'est déjà presque possible. Une startup canadienne disait en avril dernier pouvoir cloner n'importe quelle voix avec juste au départ une minute d'échantillon audio (écouter Obama et Trump ici). Tous les GAFAM s'activent vraisemblablement sur ces sujets. Et ce ne sont pas les échantillons audio de nos voix qui vont leur manquer... Il semble plus que probable qu'à horizon 5 ans on puisse faire dire n'importe quoi à notre voix, en reproduisant à merveille notre timbre tout comme nos intonations.
Imaginez : en combinant les deux premières technos évoquées, je peux me retrouver à converser avec un ami en silence dans le train, ou à distance depuis mon lit: je pense à une phrase, elle est décodée puis synthétisée avec ma voix, qu'entend mon interlocuteur dans son oreillette.
Pouvoir modifier à loisir la voix
Si l'on peut synthétiser à l'oral avec sa voix le message écrit reprenant ce que je voulais dire, on peut aussi utiliser n'importe quelle voix, changer aussi la langue grâce aux progrès en traduction instantanée (après tout Google vient de rendre disponible une oreillette qui peut traduire en temps réel dans 40 langues). Possible aussi de changer aussi le ton ou le style pour passer par exemple de soutenu à familier, du langage courant au verlan, de la prose aux alexandrins, et en temps réel bien sûr.
Cela demandera peut-être quelques dizaines d'heures de plus d'échantillons de notre voix, du gâteau pour les éditeurs de nos assistants virtuels à qui on parlera sans doute quotidiennement. Cela supposera aussi une meilleure compréhension des langues, mais rien qui ne semble de nature à résister à 10 ans de progrès en IA et machine learning.
Imaginez : vous pensez, et votre ami vous entend avec la voix d'Obama, en français s'il vous plaît, combinée aux intonations de Louis de Funès, et l'accent québécois, car après tout pourquoi pas ! Toutes les combinaisons mêlant timbre, intonation, langue, accent, style sont possibles. On n'aura jamais fini d'en faire le tour. Avec les implications sur la (cyber)sécurité et le débat public (fake news, au secours) qui restent à anticiper...
Il sera aussi très certainement possible pour l'interlocuteur de choisir d'entendre une version résumée, avec le degré de concision voulu. Ou encore à terme de laisser notre assistant répondre de façon réaliste, comme nous aurions pu le faire très probablement au vu de toutes nos prises de parole passées, pour mieux nous fournir un résumé de la conversation. Avec le risque qu'en face l'interlocuteur en fasse de même et que donc on se retrouve à dialoguer par moment par robots interposés! On peut imaginer un monde (un peu triste?) où on drague en ligne en faisant se confronter nos assistants virtuels, avec comme résultat d'obtenir ou non des rencontres dans la vraie vie, avec avant de s'y rendre un compte-rendu des précédents échanges à lire (ou pas).
Et pour aller encore plus loin : alliez l'image au son...
Ces "progrès" iront de pair avec ceux dans le domaine de la vision : sur la base d'assez d'échantillons vidéo, voire carrément d'un scanning initial en 3D (que proposent déjà certaines sociétés), il sera possible de générer notre avatar tridimensionnel photo-réaliste, à qui faire dire ce qu'on pense avec un rendu parfait du mouvement des lèvres, des muscles du visage et du reste du langage du corps. Avatar à incruster en temps réel dans le champ de vision de l'interlocuteur équipé de lunettes de réalité augmentée. On parle bien là d'un avatar 3D photo réaliste, et non d'un fantôme translucide. Voir à ce titre la vidéo impressionnante sur ce que sait déjà faire Skype de Microsoft, et imaginez où on en sera dans 10 ans.
Toutes ces avancées combinées permettront aussi au passage de "ressusciter" des êtres chers disparus, pourvu qu'ils aient laissés assez d'enregistrements audio et vidéo. J'avais pu écrire sur le sujet dans le JDN cet article il y a deux ans : Quand la technologie permettra de "ressusciter" les personnes disparues.