Når AI kan bruges til billed-snyderi

(Foto: Microsoft Research Asia)

Der går næppe en dag, hvor vi ikke opskræmmes af nye dommedags-profetier om, at kunstig intelligens (AI) gør halvdelen af os arbejdsløse eller sørger for, at ingen efterhånden ved, hvad der er sandt eller falsk af, hvad vi ser og hører.

Det bliver ikke bedre, når Microsoft Research Asia nu har præsenteret en AI model, der kan skabe foruroligende realistiske videoer ud fra et enkelt foto og tilhørende lydspor.

Dermed tager Microsofts nye VASA-1 platform et stort skridt videre i AI teknologien, end vi allerede i dag kan lade ChatGPT, Copilot, Gemini og andre systemer på en pc forvandle en tekst til et billede eller en sætning til en hel afhandling.

Microsofts asiatiske forskere trænede VASA-1 modellen med video-klip af 6.000 ægte talende ansigter.

Ansigterne, som vises på billederne, er selv skabt ved hjælp af AI og værktøjer som DALL-E eller StyleGAN2. (Foto: Microsoft Research Asia)

Derefter kan systemet efter lidt tilpasning og programmering generere skræmmende realistiske videoer, hvor de nye animerede enheder kan gengive et ”falsk” talende ansigt.

Det sker ikke kun med præcis løbe-synkronisering i forhold til et tilført lydspor. Microsoft kan også få ansigtet til at vise følelses-udtryk og naturlige hoved-bevægelser. Alt sammen med udgangspunkt i et statisk foto af et hoved.

For nogle måneder siden viste kinesiske forskere fra Alibabas Institute for Intelligent Computer noget lignende med deres Audio2Video Diffusion Model, men den er langt fra så detaljeret og realistisk at se på som Microsofts nye.

Ifølge en beskrivelse på den videnskabelige Arxiv server skal VASA-1 fra Microsoft kunne arbejde med billeder i en opløsning på 512 gange 512 punkter.

Det er ikke vildt imponerende i kvalitet, men med den udvikling, vi ser i kunstig intelligens, kan det ikke vare længe, inden VASA-1 kan levere foto-realistiske og falske videobilleder.

Microsofts projekt-rapport til VASA-1 giver mange video-eksempler på talende og syngende hoveder, der er skabt ud fra et digitalt foto og et tilhørende lydsport.

Mere fascinerende – eller frygt-indgydende – er en beskrivelse af ”facial dynamics and head poses”. Det dækker ting som ansigts-udtryk, følelser, afstand til det virtuelle videokamera, synsretning osv.

”Udviklingen af AI-genererede og talende ansigter åbner et vindue til fremtiden, hvor teknologi kan tilføre helt nye elementer i menneske-og-maskine eller menneske-til-menneske inter-aktion,” skriver Microsofts forskere i introduktionen til deres VASA-1 rapport.

”Den slags teknologi giver løfte om at forbedre kommunikationen med f.eks. handicappede medmennesker. Den kan forvandle vores nuværende undervisnings-metoder og være et stort fremskridt i sundheds-sektoren, pædagogik osv,” fortsætter rapporten.

Langt fra alle vil være glade for disse udsigter. Derfor lover Microsofts forskere, at de ikke vil slippe VASA-1 modellen løs, før de er ”sikre på, at teknologien vil blive anvendt ansvarligt og i overensstemmelse med vedtagne regler.

I praksis vil VASA-1 imidlertid også kunne benyttes til mere morsomme eksempler:

Forestil jer f.eks at se Mona Lisa på Leonardo da Vincis berømte maleri begynde at rappe. Eller hvad med levende billeder, hvor kong Christian den Fjerde bander over, at hans børsen-bygning i København netop er brændt ned….

Ingen kommentarer endnu

Skriv en kommentar

Skriv et svar Annuller svar

Næste indlæg

Dykkere kan nu bruge GPS under vand

Seneste artikler

Kategorier