Η Microsoft έχει μια ιδιαίτερη θέση στην gaming βιομηχανία καθώς πέρα από εκδοτική εταιρεία αλλά και εταιρεία ανάπτυξης, αποτελεί ταυτόχρονα και μια από τις μεγαλύτερες εταιρείες τεχνολογίας στον κόσμο. Αυτό σημαίνει ότι, παράλληλα με τα παιχνίδια, το παράρτημα έρευνας και ανάπτυξης παράγει ακατάπαυστες τεχνολογίες που βρίσκονται στην αιχμή του δόρατος, ειδικά σήμερα που οι τεχνολογίες τεχνητής νοημοσύνης έχουν τόσο μεγάλη ζήτηση. Έτσι η Microsoft, όντας μία από τις πιο ανταγωνιστικές εταιρείες στον κλάδο παρήγαγε το Muse, ένα εργαλείο παραγωγής βίντεο από επεξεργασμένα καρέ παιχνιδιού, διατηρώντας την παρουσία αντικειμένων αλλά και χαρακτήρων, διασφαλίζοντας ταυτόχρονα τη συνοχή με το περιβάλλον του παιχνιδιού.
Τι κάνει το Muse στην πράξη όμως; Διαβάζοντας το ερευνητικό paper (μπορείτε να το βρείτε εδώ) που εξέδωσε στο Nature η Microsoft με θέμα τα World and Human Action Models (WHAMs), μπορούμε να καταλάβουμε ακριβώς με τι έχουμε να κάνουμε. Σε μια φράση, τα WHAMs, που η Microsoft μετονόμασε σε «Muse AI», είναι μοντέλα τεχνητής νοημοσύνης βασισμένα σε transformers, που δημιουργούν βίντεο από πλάνα παιχνιδιού, προβλέποντας μελλοντικά καρέ και διατηρώντας τις προσθήκες του χρήστη. Για να κάνει αυτές τις προβλέψεις το μοντέλο δέχεται πλάνα του παιχνιδιού, πληροφορίες όπως τα πατήματα σε controller, αλλά και δεδομένα τοποθεσίας των αντικειμένων στην μηχανή γραφικών που χρησιμοποιείται.
Με πολύ απλά λόγια, κάποιος μπορεί να έχει κάποια πίστα από ένα παιχνίδι, να ζητήσει από το Muse να προσθέσει 3 μωβ θάμνους, 1 νάνο με bazooka να στοχεύει τον παίχτη και 2 ιπτάμενα τανκ να κάνουν γύρους στον αέρα και το Muse παράγει βίντεο της πίστας με όλα αυτά τα στοιχεία «αυτόματα» εισαγμένα εκεί όπου ζητήθηκε από τον χρήστη.
Δεν είναι όμως τόσο απλό. Τα βίντεο που παράγονται από το ΑΙ είναι ανάλυσης 300 x 180 pixel, δηλαδή πολύ μικρά για διεξοδική χρήση. Αυτό το νούμερο βέβαια αποτελεί μεγάλο επίτευγμα καθώς η τελευταία προσπάθεια της Microsoft είχε παράξει βίντεο μόλις 128 x 128 pixel.
Το μοντέλο Muse εκπαιδεύτηκε με μεγάλο όγκο δεδομένων από gameplay ανθρώπων στο παιχνίδι Bleeding Edge της Ninja Theory, χάρη σε μια συνεργασία μεταξύ αυτής και της Microsoft Research. «Αυτή η συνεργασία μας επέτρεψε να συνεργαστούμε στενά με το στούντιο, για να κατανοήσουμε τι πρέπει να γίνει και πώς μπορούμε υπεύθυνα να ξεκλειδώσουμε την πρόσβαση σε μεγάλο όγκο δεδομένων από gameplay. Αυτό επιτρέπει στο μοντέλο να δημιουργεί συνεπές και ποικιλόμορφο gameplay που έχει παραχθεί από το ΑΙ, επιδεικνύοντας ένα σημαντικό βήμα προς τα γενετικά μοντέλα τεχνητής νοημοσύνης που μπορούν να ενδυναμώσουν τους δημιουργούς παιχνιδιών», λέει η Katja Hofmann, επικεφαλής της ομάδας game intelligence της Microsoft Research, στο βίντεο συζήτησης του project μαζί με τον Phil Spencer, επικεφαλής του XBOX.
Αυτή η συνεργασία επέτρεψε στο Muse να έχει πρόσβαση σε δεδομένα που αντιστοιχούν σε επτά χρόνια ανθρώπινου gameplay, με το μοντέλο να εκπαιδεύεται συνολικά σε δισεκατομμύρια καρέ. Σίγουρα είναι ένα ορόσημο έρευνας στον κλάδο!

Ταυτόχρονα ο κλάδος βρίσκεται σε ένα πενιχρό σημείο στην ιστορία του όσον αφορά τους ίδιους τους προγραμματιστές παιχνιδιών, καθώς 1 στους 10 επαγγελματίες game developers έχασε την δουλεία του το 2024, όπως έδειξε μια έρευνα του GDC. Τα ανησυχητικά νούμερα αυτά δείχνουν μια τάση των ομάδων ανάπτυξης παιχνιδιών να συρρικνώνονται, αλλά εργαλεία όπως το Muse AI θα συμβάλουν στην περαιτέρω μείωση του προσωπικού των ομάδων αυτών ή θα προωθήσουν την ταχύτερη και ποιοτικότερη ανάπτυξη των πολυπόθητων παιχνιδιών που όλοι ανυπομονούμε να παίξουμε;
Η Kardar λέει: «Για το Xbox, οι αρχές που καθοδηγούν την προσέγγισή μας στην τεχνητή νοημοσύνη είναι να δημιουργήσουμε περισσότερη αξία για τους παίκτες και τους δημιουργούς παιχνιδιών, να φέρουμε περισσότερα παιχνίδια σε περισσότερους ανθρώπους σε όλο τον κόσμο, και να αναγνωρίσουμε ότι η ανάπτυξη ενός σπουδαίου παιχνιδιού θα είναι πάντα βασισμένη στο όραμα και την τέχνη του δημιουργού. Πιστεύουμε ότι η γενετική τεχνητή νοημοσύνη έχει τη δυνατότητα να ενισχύσει αυτή τη δημιουργικότητα και να ξεκλειδώσει νέες δυνατότητες».
Ταυτόχρονα ένα τέτοιο εργαλείο στα μάτια ενός επιχειρηματία, άνετα μπορεί να υποκαταστήσει junior animators ή level designers που είχαν αντίστοιχες υποχρεώσεις στις εταιρείες τους, ενώ συνολικά τέτοιες τάσεις καταφέρνουν συνήθως να παράγουν μικρότερης ποιότητας προϊόντα (π.χ. ένα βίντεο ανάλυσης 128p είναι χειρότερο βοήθημα από ένα asset σε πλήρη ανάλυση μέσα στο γραφικό του περιβάλλον, φτιαγμένο από έναν επαγγελματία και εύκολα επεξεργάσιμο). Στο τέλος η χρήση αυτή υπόκειται στις βλέψεις κάθε εταιρείας, ενώ όπως όλα τα εργαλεία μπορεί να χρησιμοποιηθεί είτε για ευεργετικό σκοπό, είτε για γρήγορο κέρδος, κάτι που υποβαθμίζει στο τέλος την ποιότητα και δημιουργικότητα του μέσου.