Apprivoiser un monde rempli de vidéo et d’audio, grâce à la transcription et à l’IA

  • Oct 31, 2023

Trint promet de rendre le monde rempli de vidéo et d'audio plus consultable et de faciliter la vie des journalistes.

Demandez à n'importe quel journaliste de nommer une partie de son travail qu'il déteste vraiment et la plupart vous diront que c'est ce que je fais en ce moment: la transcription.

RA + VR

  • Ces lunettes XR à 400 $ ont donné à mon MacBook un écran de 120 pouces avec lequel travailler
  • J'ai essayé Apple Vision Pro et c'est bien en avance sur ce à quoi je m'attendais
  • Les meilleurs casques VR pour les jeux, le travail et au-delà
  • Découvrez le casque AR/VR Vision Pro d'Apple: prix, fonctionnalités, date de sortie et tout ce qu'il faut savoir

Vous faites de grands efforts pour comprendre l'histoire, mais vous devez ensuite mettre les mots en or que vous venez de rassembler sur la page imprimée. Il n'y a qu'une seule façon de le faire et c'est la transcription - la tâche fastidieuse de saisir ces mots pour lesquels vous avez travaillé si dur.

De nombreuses entreprises proposent des services de transcription, mais le problème clé est l’exactitude.

Aujourd'hui, Trint, une société appartenant à un vétéran extrêmement expérimenté de nombreuses guerres étrangères, prétend avoir développé un moyen de transmettre avec précision ces mots enregistrés directement sur la page imprimée. Les utilisateurs incluent certains des plus grands noms des médias, tels que le New York Times, ABC News, Thomson Reuters, AP, ESPN et BBC Worldwide.

Jeff Kofman, ancien PDG de Trint, explique comment cela se fait.

ZDNet: Comment vous est venue l’idée de Trint ?

Kofman: Je me considère comme l'entrepreneur accidentel. J’ai passé plus de trois décennies en tant que journaliste audiovisuel – correspondant à l’étranger, couvrant plus de 40 pays.

C'est vraiment par hasard que je mettais sur pied un programme mondial de journalisme et que j'ai rencontré des développeurs qui avaient réalisé un travail intéressant dans le domaine des transcriptions de créations orales. J'ai dit que j'avais passé ma vie à transcrire des interviews, des discours et des conférences, mais comme la synthèse parole-texte s'améliorait de plus en plus, pourquoi ne peut-elle pas faire le gros du travail pour moi? Ils ne savaient pas qui était ce journaliste fou, mais cette idée intéressante a fait surface.

Kofman au travail: "C'était un de ces moments lumineux. Nous nous sommes demandé pourquoi cela n'avait pas été fait avant ?"

Photo de: Kofman

C’était l’un de ces moments lumineux. Nous nous sommes demandé pourquoi cela n'a pas été fait avant? C'était vers 2013 et nous avons lancé Trint en 2014. J'aurais aimé pouvoir dire que j'étais un grand visionnaire, mais je ne savais pas que la technologie en était à ce grand moment où la synthèse vocale en était à ses balbutiements.

Si vous aviez essayé cela deux ans plus tôt, cela aurait échoué. Deux ans plus tard, vous nous suivriez. Si vous pensez à un surfeur sur l’océan cherchant une vague à former, nous venons d’avoir la vague au moment où elle se formait.

VOIR: Lancer et bâtir une startup: un guide du fondateur (PDF gratuit)

Et je pense que c'est arrivé parce que j'ai vécu le problème. Si vous ne vivez pas à l’intérieur du problème, vous ne savez pas réellement qu’il existe un problème. Je suis tombé dessus, mais j'ai pu voir que nos trois développeurs d'origine étaient à leur travail. Les résultats obtenus étaient meilleurs que ce à quoi je m'attendais.

L'idée était d'aligner le texte (la transcription générée automatiquement et l'audio source) sur la parole et de faire avec précision à la milliseconde près, pour que vous puissiez le suivre comme au karaoké, et ensuite nous avons dû trouver un moyen de corriger il. C'est là que ça est devenu vraiment intéressant.

Ce que nous avons fait, c'est que nous avons eu l'idée de fusionner un éditeur de texte, comme Word, avec un lecteur audio-vidéo et de créer un seul outil ayant deux fonctions très distinctes.

C'est donc là que ça a gagné, et je me souviens avoir dit à ces gars – et je pense qu'ils pensaient que j'étais un peu fou – que c'était l'avenir. Soit nous nous réunissons et faisons en sorte que cette chose se réalise, soit nous allons entrer dans un café en couple des années et quelqu'un va travailler sur un logiciel qui fait exactement ce que nous venons de faire imaginé.

J'ai dit, je ne laisserai pas cela arriver. Cela signifie en réalité que le monde doit rendre la parole accessible. Nous sommes un monde de vidéo, d'audio, de podcasting et de YouTube. On ne parle plus par lettres écrites, par textes. Nous parlons par enregistrement audio et vidéo. Ils ne sont pas consultables. L'impression les rend consultables.

Obtenons une chronologie ici. Quand avez-vous eu l’idée pour la première fois ?

Eh bien, début 2014, cela a commencé à germer et nous avons créé l'entreprise à l'automne 2014 et nous avons vraiment commencé à construire. J'ai organisé des appels avec des amis journalistes dans les journaux, à la télévision, à la radio et en ligne, et j'ai mis mon téléphone de journaliste. chapeau et je l'ai fait avec une douzaine d'équipes ou plus à travers le monde afin que les ingénieurs puissent comprendre quel est le problème est. J'ai dit, dites-moi comment prenez-vous des notes, comment trouvez-vous le contenu, les enregistrements. Et tout le monde a dit: « Mon Dieu, je déteste transcrire, c'est la pire partie de mon travail. C'est toujours la même chose: écoutez, arrêtez, tapez; écoutez, arrêtez, tapez. Si vous pouvez nous donner un raccourci, vous aurez accompli un miracle".

Et c'est ce que nous faisons.

Quand l’avez-vous mis en service ?

Nous avons commencé la construction le 1er décembre 2014. Nous avons eu la première preuve de concept assez rapidement. En février 2015, nous avons fait quelque chose qui s'est avéré être vraiment fortuit.

C'était grâce au premier incubateur dans lequel nous étions – un groupe appelé IDÉALLondres, sponsorisé par Cisco et l'UCL - et j'y ai rencontré une femme et elle a accepté de faire une journée d'expérience utilisateur pour tester notre preuve de concept.

Trint: L'écran d'édition affiche clairement les options permettant d'obtenir une page parfaite.

Photo de: Trint

Pendant ces tests, nous étions dans une pièce – nous quatre – et elle dans une autre avec six journalistes que nous avions alignés, pendant une heure chacun et effectuant un certain nombre de tâches. Nous avons échoué. C'était comme regarder votre enfant monter sur scène et oublier ses répliques dans la pièce de théâtre de l'école. Et ce que nous avons vu, c’est là où nous échouions et – cela devient assez technique – nous utilisions des concepts bien trop compliqués à comprendre pour les gens. Nous avons dû rendre les choses plus simples et plus faciles.

Et après cette journée de test – et à l’époque l’entreprise avait probablement trois ou quatre mois – j’ai compris ce que nous devions faire pour résoudre ce problème, pour le rendre utile.

C'est là qu'est né le produit d'aujourd'hui.

C’était l’hiver 2015, nous avons alors compris ce qu’il fallait faire et nous avons lancé commercialement en septembre 2016.

Nous avons déjà testé auprès des journalistes au cours de l’été 2016. Grâce à ma longue carrière, j'avais beaucoup d'amis, donc j'ai pu dire: « Viens essayer ça ». Et ça a vraiment décollé.

À l'été 2016, nous avons décidé de le tester sur le marché libre et, à ce stade, nous l'envoyions gratuitement. Puis quelque chose de grand s’est produit. Et un de nos amis journaliste a tweeté à ce sujet et nous avons ensuite regardé passer des 50 ou 100 que nous avions à ce moment-là à 200, 500, 1 000, 4 000 et tout cela s'est produit en quelques heures.

Et c'était vraiment excitant, puis c'est devenu vraiment effrayant parce que le système s'est écrasé. Il n’a pas été construit à grande échelle parce que nous ne nous y attendions tout simplement pas. Mais la seule chose que cela a fait, c'est de valider le concept et cela a montré que les gens étaient vraiment très avides d'exploiter l'IA, de transcrire.

Vous savez, le système était tombé en panne et des gens nous ont envoyé des e-mails pour nous dire qu'avez-vous fait? Nous étions de retour dans les 36 heures et cela nous a dit qu'il y avait un réel intérêt pour ce que nous faisions.

VOIR: Comment mettre en œuvre l'IA et l'apprentissage automatique (Rapport spécial ZDNet) | Téléchargez le rapport au format PDF (TechRépublique)

Nous venons donc de préparer le lancement en 2016. Et les gens ont afflué vers nous parce qu'ils voyaient que pour peu d'argent, on pouvait gagner énormément de temps et obtenir d'énormes gains d'efficacité.

À ce moment-là, l'équipe était probablement composée de six ou sept personnes et au cours des années 2016 et 2017, le produit s'est amélioré, et nous avons fait une grosse levée de fonds en mai 2017 [3,1 millions de dollars] alors que nous n'étions que 10 personnes, mais nous en sommes maintenant 41. Et nous avons une présence mondiale, avec 36 au Royaume-Uni et cinq à Toronto.

Au départ, nous n'étions qu'un seul produit, mais nous proposons désormais des produits pour les petites et les grandes entreprises.

Quelles personnes aviez-vous besoin de faire appel pour que cela fonctionne ?

C'est ce qui est étrange dans ce voyage pour moi, je n'y connais rien en affaires. Quand je ne dis rien, c'est probablement fallacieux. Je fais ça depuis quatre ans.

Je raconte cette histoire. Lorsque j'ai commencé à chercher de l'argent pour faire cela, un très bon ami, qui est directeur financier, m'a très gentiment proposé de faire un plan financier, très rudimentaire sur Excel. Je n'avais jamais touché à Excel auparavant. Je suis journaliste, pourquoi devrais-je consulter Excel? Il m'a parlé de cette affaire et je suis resté assis là en hochant la tête.

Il est parti et j'ai changé le numéro et il est devenu « Hash tag, hash tag » et la seule chose que je pouvais faire était de l'enregistrer et de le rouvrir. Je voulais juste me blottir sur la table et dire de me renvoyer à Bagdad. Pour moi, le côté commercial a été une courbe d’apprentissage très abrupte.

COUVERTURE ANTÉRIEURE ET CONNEXE

Vraiment, les robots prennent nos emplois: une comparaison des logiciels de transcription automatique

ZDNet a comparé un certain nombre de services de transcription automatique avec des résultats déroutants.

Comment créer un studio YouTube temporaire sur écran vert

Des leçons de vie, une incrustation chromatique et un petit historique de la distribution vidéo sont tous réunis dans cet article captivant. sur la façon dont vous pouvez produire une vidéo sur écran vert, que vous disposiez d'un espace dédié ou seulement du coin d'un cuisine.

Les scientifiques chinois de l'IA enseignent à un réseau neuronal à s'auto-entraîner

Des chercheurs de l'université chinoise Sun Yat-Sen, avec l'aide de la startup chinoise SenseTime, ont amélioré leur propre tentative pour amener un ordinateur à discerner les poses humaines dans les images en ajoutant un peu d'auto-supervision entraînement.

5 façons d'évaluer la précision de l'IA TechRépublique

L'établissement de points de contrôle d'exactitude sur les résultats de l'IA facilite la prise de décision.

80 % des travailleurs souhaitent acquérir des compétences en IA, mais les employeurs ne les enseignent pas TechRépublique

Les travailleurs sont de plus en plus à l'aise avec l'intelligence artificielle sur leur lieu de travail, exigeant encore plus de formation dans ces compétences, selon Genpact.

Le jeu de boîte de nuit VR d'Oculus avec des acteurs en direct ne ressemble à rien de ce que j'ai essayé auparavant (CNET)

The Under Presents est un nouveau type d'expérience VR qui vous téléporte de votre salon dans un univers absurde tentaculaire avec des acteurs en direct. Serait-ce enfin l'application phare de la réalité virtuelle ?