Effiziente Objektsegmentierung mit KI
Segment Anything von Meta ist ein fortschrittliches KI-Modell, das für die Forschung im Bereich der Computer Vision entwickelt wurde. Es ermöglicht Nutzern, Objekte in Bildern mit nur einem Klick zu segmentieren. Das Modell nutzt ein promptables Segmentierungssystem, das eine Null-Schuss-Generalisation für unbekannte Objekte und Bilder ermöglicht, ohne dass eine zusätzliche Schulung erforderlich ist. Die Benutzer können eine Vielzahl von Eingabeaufforderungen verwenden, um zu spezifizieren, was in einem Bild segmentiert werden soll, einschließlich interaktiver Punkte und Kästchen, und erhält mehrere gültige Masken für mehrdeutige Eingaben.
Die erzeugten Ausgabemasken können als Eingaben für andere KI-Systeme verwendet, in Videos verfolgt, für Bildbearbeitungsanwendungen eingesetzt oder für kreative Aufgaben in 3D angehoben werden. Das Modell ist so konzipiert, dass es effizient genug ist, um die Datenverarbeitung anzutreiben, mit einem einmaligen Bild-Encoder und einem leichten Masken-Decoder, der in einem Webbrowser in nur wenigen Millisekunden pro Eingabeaufforderung läuft. Der Bild-Encoder benötigt eine GPU für effiziente Inferenz, während der Eingabeaufforderungs-Encoder und der Masken-Decoder direkt mit PyTorch betrieben oder in ONNX konvertiert werden können.