KI: Der neue Algorithmus von Facebook wurde auf einer Milliarde Instagram-Bildern trainiert

  • Sep 03, 2023

Den Forschern von Facebook ist ein Durchbruch beim selbstüberwachten Lernen gelungen, indem sie ein KI-System auf eine Milliarde unbeschrifteter Instagram-Bilder trainiert haben.

facebook-ai-seer.jpg

Facebook-Forscher haben ein neues KI-Modell vorgestellt, das aus jeder zufälligen Gruppe unbeschrifteter Bilder im Internet lernen kann.

Bild: Facebook AI

Facebook-Forscher haben ein neues KI-Modell vorgestellt, das aus jeder zufälligen Gruppe unbeschrifteter Bilder auf Facebook lernen kann Internet, ein Durchbruch, von dem das Team erwartet, dass er eine „Revolution“ auslösen wird, obwohl er sich noch in einem frühen Stadium befindet Computer Vision.

Das Modell mit dem Namen SEER (SElf-SupERvised) wurde mit einer Milliarde öffentlich zugänglichen Instagram-Bildern gefüttert, die zuvor nicht manuell kuratiert worden waren. Aber auch ohne die Beschriftungen und Anmerkungen, die normalerweise in das Algorithmustraining einfließen, war SEER in der Lage, autonom daran zu arbeiten Sie durchlaufen den Datensatz, lernen dabei und erreichen schließlich bei Aufgaben wie Objekten ein Höchstmaß an Genauigkeit Erkennung.

Die treffend als selbstüberwachtes Lernen bezeichnete Methode ist im Bereich der KI bereits etabliert: Sie besteht darin, Systeme zu schaffen, die direkt aus den Informationen lernen können Sie werden bereitgestellt, ohne dass sie sich auf sorgfältig beschriftete Datensätze verlassen müssen, um ihnen beizubringen, wie sie eine Aufgabe wie das Erkennen eines Objekts in einem Foto oder das Übersetzen eines Bildblocks ausführen Text.

Künstliche Intelligenz

  • 7 erweiterte ChatGPT-Tipps zum Schreiben von Eingabeaufforderungen, die Sie kennen müssen
  • Die 10 besten ChatGPT-Plugins des Jahres 2023 (und wie Sie das Beste daraus machen)
  • Ich habe viele KI-Tools für die Arbeit getestet. Das sind bisher meine 5 Favoriten
  • Mensch oder Bot? Dieses Turing-Testspiel stellt Ihre KI-Erkennungsfähigkeiten auf die Probe

Selbstüberwachtes Lernen hat in letzter Zeit große wissenschaftliche Aufmerksamkeit auf sich gezogen, da es dazu führt, dass viel weniger Daten anfallen müssen von Menschen markiert werden – eine mühsame zeitaufwändige Aufgabe, die die meisten Forscher lieber erledigen würden ohne. Gleichzeitig kann ein selbstüberwachendes Modell ohne die Notwendigkeit eines kuratierten Datensatzes mit größeren und vielfältigeren Datensätzen arbeiten.

In einigen Bereichen, insbesondere in der Verarbeitung natürlicher Sprache, hat die Methode bereits zu Durchbrüchen geführt; Algorithmen, die auf immer größeren Mengen unbeschrifteten Textes trainiert wurden, haben Fortschritte in Anwendungen wie der Beantwortung von Fragen, der maschinellen Übersetzung, der Inferenz natürlicher Sprache und mehr ermöglicht.

Im Gegensatz dazu muss Computer Vision die Revolution des selbstüberwachten Lernens noch vollständig durchbrechen. Wie Priya Gopal, Softwareentwicklerin bei Facebook AI Research, erklärt, stellt SEER eine Premiere auf diesem Gebiet dar. „SEER ist das erste vollständig selbstüberwachte Computer-Vision-Modell, das im Vergleich zu zufälligen Internetbildern trainiert wird „Bestehende selbstüberwachte Arbeiten im Bereich Computer Vision, die auf dem hochkuratierten ImageNet-Datensatz trainiert wurden“, erzählt sie ZDNet.

Tatsächlich handelt es sich bei ImageNet um eine große Datenbank mit Millionen von Bildern, die von Forschern gekennzeichnet und der größeren Computer-Vision-Community zugänglich gemacht wurden, um die Entwicklungen in der KI voranzutreiben.

Die Datenbank des Projekts wurde von den Facebook-Forschern als Benchmark verwendet, um die Leistung von SEER zu bewerten Das selbstüberwachte Modell übertraf modernste überwachte KI-Systeme bei Aufgaben wie Tiefschuss, Objekterkennung, Segmentierung und Bildgebung Einstufung.

„SEER übertrifft die bestehenden selbstüberwachten Modelle, indem es nur auf zufälligen Bildern trainiert“, sagt Goyal. „Dieses Ergebnis zeigt im Wesentlichen, dass wir für Computer Vision keine so stark kuratierten Datensätze wie ImageNet benötigen und die Selbstüberwachung zufälliger Bilder sehr hochwertige Modelle hervorbringt.“ 

Angesichts des Grads an Komplexität, den selbstüberwachtes Lernen erfordert, war die Arbeit der Forscher nicht ohne Herausforderungen. Bei Texten haben KI-Modelle die Aufgabe, den Wörtern eine Bedeutung zuzuordnen; Bei Bildern muss der Algorithmus jedoch entscheiden, wie jedes Pixel einem Konzept entspricht – und dabei die verschiedenen Winkel, Ansichten und Formen berücksichtigen, die ein einzelnes Konzept in verschiedenen Bildern annehmen kann.

Mit anderen Worten: Die Forscher benötigten viele Daten und ein Modell, das in der Lage war, aus diesem komplexen Informationspool jedes mögliche visuelle Konzept abzuleiten.

Um diese Aufgabe zu erfüllen, haben Goyal und ihr Team einen neuen Algorithmus aus der bestehenden Arbeit von Facebook AI übernommen Selbstüberwachtes Lernen, genannt SwAV, das Bilder, die ähnliche Konzepte zeigen, in separate Gruppen gruppiert Gruppen. Die Wissenschaftler entwarfen außerdem ein Faltungsnetzwerk – einen Deep-Learning-Algorithmus, der das modelliert Konnektivitätsmuster von Neuronen im menschlichen Gehirn, um verschiedenen Objekten in einem eine Bedeutung zuzuordnen Bild.

Mit einem milliardenschweren Instagram-basierten Datensatz war der Umfang des Systems, gelinde gesagt, groß. Das Facebook-Team verwendete V100-Nvidia-GPUs mit 32 GB RAM und musste mit zunehmender Modellgröße das Modell in den verfügbaren RAM einpassen. Goyal erklärt jedoch, dass weitere Forschung nützlich sein wird, um sicherzustellen, dass die Rechenkapazitäten an das neue System angepasst werden.

„Da wir das Modell auf immer mehr GPUs trainieren, muss die Kommunikation zwischen diesen GPUs für ein schnelleres Training schnell sein. Eine solche Herausforderung könnte durch die Entwicklung klarer Software und Forschungstechniken angegangen werden, die für das gegebene Speicher- und Laufzeitbudget effizient sind“, sagt sie.

Obwohl es noch einiges zu tun gibt, bevor SEER für reale Anwendungsfälle genutzt werden kann, argumentiert Goyal, dass die Auswirkungen der Technologie nicht unterschätzt werden sollten. „Mit SEER können wir jetzt weitere Fortschritte in der Bildverarbeitung erzielen, indem wir große Modelle mit einer großen Menge zufälliger Internetbilder trainieren“, sagt sie.

„Dieser Durchbruch könnte eine Revolution des selbstüberwachten Lernens in der Computervision ermöglichen, ähnlich dem, was wir bei der Verarbeitung natürlicher Sprache mit Text gesehen haben.“ 

Innerhalb von Facebook könnte SEER für eine breite Palette von Computer-Vision-Aufgaben verwendet werden, die von der automatischen Generierung von Bildbeschreibungen bis hin zur Unterstützung bei der Identifizierung von Inhalten reichen, die gegen Richtlinien verstoßen. Außerhalb des Unternehmens könnte die Technologie auch in Bereichen nützlich sein, in denen es nur begrenzte Bilder und Metadaten gibt, beispielsweise in der medizinischen Bildgebung.

Das Facebook-Team fordert mehr Arbeit, um SEER in die nächste Entwicklungsphase zu bringen. Im Rahmen der Forschung entwickelte das Team eine universelle PyTorch-basierte Bibliothek zur Selbstüberwachung Lernen namens VISSL, das Open Source ist, um die breitere KI-Community zu ermutigen, damit zu testen Technologie.