Что такое " семантическая сегментация "по сравнению с" сегментацией "и"маркировкой сцены"?


является ли семантическая сегментация просто плеоназмом или есть разница между "семантической сегментацией" и "сегментацией"? Есть ли разница в "маркировке сцены"или" разборе сцены"?

в чем разница между пиксельным уровнем и пиксельной сегментацией?

(побочный вопрос: когда у вас есть такая пиксельная аннотация, вы получаете обнаружение объектов бесплатно или все еще что-то делать?)

пожалуйста, дайте источник определение.

источники, которые используют "семантическая сегментация"

  • Джонатан Лонг, Эван Shelhamer, Тревор Даррелл: полностью сверточные сети для семантической сегментации. CVPR, 2015 и PAMI, 2016
  • Гонконг, Seunghoon, Hyeonwoo Нох, а Bohyung Хан: "отделить глубокие нейронные сети для Semi-наблюдали семантической сегментации."препринт arXiv arXiv: 1506.04924, 2015.
  • В. Лемпицкий, А. Ведальди и А. Зиссерман: модель пилона для семантической сегментации. В достижениях в области нейронных систем обработки информации, 2011.

источники, которые используют "место маркировки"

источник, который использует "пиксельный уровень"

  • Пиньейру, Педро О. и Ронан Collobert: "от изображения на уровне пикселя на уровне маркировки с помощью сверточных сетей."Материалы конференции IEEE по компьютерному зрению и распознаванию образов, 2015. (см. http://arxiv.org/abs/1411.6228)

Источник, которые используют "попиксельно"

  • Li, Hongsheng, Rui Zhao и Xiaogang Wang: "высокоэффективное прямое и обратное распространение сверточных нейронных сетей для пиксельной классификации."препринт arXiv arXiv: 1412.4526, 2014.

Google Ngrams

"семантическая сегментация", похоже, в последнее время используется чаще, чем"маркировка сцены"

3 78

3 ответа:

"сегментация" - это разбиение изображения на несколько "когерентных" частей, но без любая попытка понять, что представляют собой эти части. Одна из самых известных работ (но определенно не первая) - это Ши и Малик "нормализованные разрезы и сегментация изображения" PAMI 2000. Эти работы пытаются определить "когерентность" с точки зрения низкоуровневых сигналов, таких как цвет, текстура и гладкость границы. Вы можете проследить эти работы гештальт-теории.

с другой стороны "семантическая сегментация" пытается разбить изображение на семантически значимые части,и классифицировать каждую часть в один из предопределенных классов. Вы также можете достичь той же цели, классифицируя каждый пиксель (а не все изображение/сегмент). В этом случае вы выполняете пиксельную классификацию, которая приводит к тому же конечному результату, но немного отличается путь...

Я прочитал много статей об обнаружении объектов, распознавании объектов, сегментации объектов, сегментации изображений и семантической сегментации изображений, и вот мои выводы, которые могут быть неверными:

распознавание объектов: в данном изображении вы должны обнаружить все объекты (ограниченный класс объектов зависит от вашего набора данных), локализовать их с помощью ограничительной рамки и надписать эту ограничительную рамку с меткой. На изображении ниже вы увидите простой вывод современного объекта узнавание.

object recognition

обнаружение объектов: это похоже на распознавание объектов, но в этой задаче у вас есть только два класса классификации объектов, которые означают ограничительные рамки объектов и необъектные ограничительные рамки. Например, обнаружение автомобилей: вы должны обнаружить все автомобили в данном изображении с их ограничительными рамками.

Object Detection

сегментация объектов: как и распознавание объектов, вы узнаете все объекты на изображении, но ваш вывод должен показать это объект классификации пикселей изображения.

object segmentation

сегментация изображения: в сегментации изображения вы будете сегментировать области изображения. ваши выходные данные не будут помечать сегменты и области изображения, которые согласуются друг с другом, должны находиться в одном сегменте. Извлечение супер пикселей из изображения является примером этой задачи или сегментации переднего плана-фона.

image segmentation

семантическая сегментация: в семантической сегментации вы должны пометить каждый пиксель с классом объектов (автомобиль, человек, собака, ...) и не-объекты (вода, небо, Дорога, ...). Другими словами в семантической сегментации вы будете помечать каждую область изображения.

semantic segmenation

Я думаю, что пиксельный уровень и пиксельная маркировка в основном одинаковы, это может быть сегментация изображения или семантическая сегментация. Я ответил на ваш вопрос этой ссылке как то же самое.

предыдущие ответы очень здорово, я хотел бы отметить еще несколько дополнений:

Сегментирование Объекта

одна из причин, по которой это вышло из моды в исследовательском сообществе, заключается в том, что оно проблематично расплывчато. Сегментация объектов используется просто для поиска одного или небольшого количества объектов на изображении и рисования границы вокруг них, и для большинства целей вы все еще можете предположить, что это означает это. Впрочем, это тоже началось используется для обозначения сегментации больших двоичных объектов, которые может быть объектами, сегментация объектов на фоне (чаще теперь называется вычитанием фона или сегментацией фона или обнаружением переднего плана), и даже в некоторых случаях используется взаимозаменяемо с распознаванием объектов с использованием ограничительных полей (это быстро прекратилось с появлением глубоких нейросетевых подходов к распознаванию объектов, но предварительно распознавание объектов также может означать просто маркировку объекта все изображение с объектом в нем).

что делает "сегментацию ""семантической"?

Simpy, каждому сегменту или в случае глубоких методов каждому пикселю присваивается метка класса на основе категории. Сегментация вообще - это просто разделение изображения по какому-то правилу. Meanshift сегментация, например, от очень высокого уровня делит данные согласно изменениям в энергии изображения. график резать на основе сегментация также не изучается, но непосредственно выводится из свойств каждого изображения отдельно от остальных. Более поздние (основанные на нейронных сетях) методы используют пиксели, которые помечены, чтобы научиться идентифицировать локальные объекты, связанные с определенными классами, а затем классифицировать каждый пиксель на основе того, какой класс имеет самую высокую достоверность для этого пикселя. Таким образом," пиксельная маркировка "на самом деле является более честным именем для задачи, а компонент" сегментация " является эмерджентным.

Экземпляр Сегментация

возможно, самый сложный, релевантный и оригинальный смысл сегментации объектов, "сегментация экземпляра" означает сегментацию отдельных объектов в сцене, независимо от того, являются ли они одним и тем же типом. Однако одна из причин, по которой это так сложно, заключается в том, что с точки зрения видения (и в некотором смысле философского) то, что делает "объект" экземпляром, не совсем ясно. Части тела предметы? Должен такие "части-объекты" вообще сегментируются алгоритмом сегментации экземпляра? Должны ли они быть только сегментированы, если они рассматриваются отдельно от целого? Как насчет сложных объектов, если две вещи четко соприкасаются, но отделимы один объект или два (Является ли камень, приклеенный к верхней части палки, топором, молотком или просто палкой и камнем, если они не сделаны должным образом?). Кроме того, неясно, как различать экземпляры. Является ли воля отдельным экземпляром от других стен, к которым она прикреплена? Какой порядок должен быть экземпляры будут подсчитаны? Как они появляются? Близость к смотровой площадке? Несмотря на эти трудности, сегментация объектов по-прежнему имеет большое значение, потому что, как люди, мы все время взаимодействуем с объектами независимо от их "метки класса" (используя случайные объекты вокруг вас в качестве весов для бумаги, сидя на вещах, которые не являются стульями), и поэтому некоторые наборы данных пытаются решить эту проблему, но основная причина, по которой этой проблеме пока не уделяется много внимания, заключается в том, что она недостаточно хороша определенный. enter image description here

разбор сцены / маркировка сцены

разбор сцены-это строго сегментационный подход к маркировке сцены,который также имеет некоторые проблемы неопределенности. Исторически маркировка сцены означала разделение всей "сцены" (изображения) на сегменты и придание им всем метки класса. Тем не менее, он также использовался для предоставления меток классов областям изображения без явного сегментирования их. В отношении сегментация, "семантическая сегментация"не подразумевает разделение всей сцены. Для семантической сегментации алгоритм предназначен для сегментации только тех объектов, которые он знает, и будет наказан своей функцией потери для маркировки пикселей, которые не имеют никакой метки. Например, набор данных MS-COCO-это набор данных для семантической сегментации, в котором сегментируются только некоторые объекты. MS-COCO sample images