WiMi Hologram Cloud Inc. kündigte eine Methode zur semantischen Segmentierung von Punktwolken an, die auf einem fusionierten Graphen-Faltungsnetzwerk basiert und darauf abzielt, die unterschiedlichen Informationen von Bild und Punktwolke zu nutzen, um die Genauigkeit und Effizienz der semantischen Segmentierung zu verbessern. Punktwolkendaten sind sehr effektiv bei der Darstellung der Geometrie und Struktur von Objekten, während Bilddaten umfangreiche Farb- und Texturinformationen enthalten. Durch die Verschmelzung dieser beiden Datentypen können ihre Vorteile gleichzeitig genutzt werden und umfassendere Informationen für die semantische Segmentierung bereitgestellt werden.

Das Fused Graph Convolutional Network (FGCN) ist ein effektives Deep-Learning-Modell, das sowohl Bild- als auch Punktwolkendaten gleichzeitig verarbeiten und Bildmerkmale verschiedener Auflösungen und Maßstäbe für eine effiziente Merkmalsextraktion und Bildsegmentierung effizient verarbeiten kann. FGCN ist in der Lage, multimodale Daten effizienter zu nutzen, indem es die semantischen Informationen jedes Punktes in den bimodalen Daten des Bildes und der Punktwolke extrahiert. Mit diesem Modul kann FGCN die räumlichen Informationen in den Bilddaten nutzen, um die Kontextinformationen im Bild besser zu verstehen, indem die semantischen Informationen der k nächsten Nachbarn um jeden Punkt herum berechnet werden.

Dadurch kann FGCN besser zwischen wichtigeren Merkmalen unterscheiden und relevante Störungen entfernen. Darüber hinaus verwendet FGCN einen räumlichen Aufmerksamkeitsmechanismus, um sich besser auf die wichtigeren Merkmale in den Punktwolkendaten zu konzentrieren. Dieser Mechanismus ermöglicht es dem Modell, jedem Punkt auf der Grundlage seiner Geometrie und der Beziehung zu benachbarten Punkten unterschiedliche Gewichtungen zuzuweisen, um die semantischen Informationen der Punktwolkendaten besser zu verstehen.

Durch die Verschmelzung von Multiskalenmerkmalen erhöht FGCN die Generalisierungsfähigkeit des Netzwerks und verbessert die Genauigkeit der semantischen Segmentierung. Die Extraktion von Merkmalen in mehreren Maßstäben ermöglicht es dem Modell, Informationen in verschiedenen räumlichen Maßstäben zu berücksichtigen, was zu einem umfassenderen Verständnis des semantischen Inhalts von Bildern und Punktwolkendaten führt. Diese bildfusionierte semantische Segmentierung von Punktwolken mit einem Fusionsgraphen-Faltungsnetzwerk ist in der Lage, die Informationen von multimodalen Daten wie Bildern und Punktwolken effizienter zu nutzen, um die Genauigkeit und Effizienz der semantischen Segmentierung zu verbessern. Dies wird voraussichtlich das maschinelle Sehen, die künstliche Intelligenz, die Photogrammetrie, die Fernerkundung und andere Bereiche voranbringen und eine neue Methode für die zukünftige semantische Segmentierungsforschung bieten.

Diese bildfusionierte semantische Segmentierung von Punktwolken mit einem Fusionsgraphen-Faltungsnetzwerk bietet ein breites Spektrum an Anwendungsmöglichkeiten und kann in vielen Bereichen wie dem autonomen Fahren, der Robotik und der medizinischen Bildanalyse eingesetzt werden. Mit der rasanten Entwicklung des autonomen Fahrens, der Robotik, der medizinischen Bildanalyse und anderer Bereiche steigt auch der Bedarf an der Verarbeitung und semantischen Segmentierung von Bild- und Punktwolkendaten. Im Bereich des autonomen Fahrens zum Beispiel müssen selbstfahrende Autos die Umgebung genau wahrnehmen und verstehen, einschließlich der semantischen Segmentierung von Objekten wie Straßen, Fahrzeugen und Fußgängern.

Diese semantische Segmentierung von Punktwolken mit einem Fusionsgraphen-Faltungsnetzwerk kann die Wahrnehmung und das Verständnis der Umgebung verbessern und eine genauere Datenunterstützung für die Entscheidungsfindung und die Steuerung von selbstfahrenden Autos bieten. Im Bereich der Robotik müssen Roboter die äußere Umgebung wahrnehmen und verstehen, um verschiedene Aufgaben zu erfüllen. Die semantische Segmentierung von Bildfusion und Punktwolken mit einem Fusionsgraphen-Faltungsnetzwerk kann die von Robotern erfassten Bild- und Punktwolkendaten fusionieren, um die Fähigkeit zu verbessern, die externe Umgebung wahrzunehmen und zu verstehen, was den Robotern hilft, ihre Aufgaben besser zu bewältigen.

Im medizinischen Bereich erfordert die medizinische Bildanalyse eine genaue Segmentierung und Erkennung medizinischer Bilder, um die medizinische Diagnose und Behandlung zu unterstützen. Die bildfusionierte semantische Segmentierung von Punktwolken mit einem Fusionsgraphen-Faltungsnetzwerk kann medizinische Bilder und Punktwolkendaten fusionieren, um die Segmentierungs- und Erkennungsgenauigkeit von medizinischen Bildern zu verbessern und so eine genauere Datenunterstützung für die medizinische Diagnose und Behandlung zu bieten. In der Zukunft wird die WiMi-Forschung die Modellstruktur weiter optimieren.

Gleichzeitig wird das Modell mit der Deep Learning-Technologie kombiniert, um die Vorteile der Deep Learning-Technologie zu nutzen und die Leistung des Modells zu verbessern. Außerdem wird die Technologie der multimodalen Datenfusion weiterentwickelt, um verschiedene Datentypen (z.B. Bild, Punktwolke, Text usw.) zu fusionieren, um umfassendere und reichhaltigere Informationen zu erhalten und die Genauigkeit der semantischen Segmentierung zu verbessern. WiMi wird die Echtzeitverarbeitung der semantischen Segmentierung von fusionierten Punktwolken mit Fusionsgraphen-Faltungsnetzwerken weiter verbessern, um der Nachfrage gerecht zu werden.