로봇이 시각적 인식을 수행하는 방법

제가 광동 위에웨이 산업용 로봇 대학에서 공부한 지식에 따르면: 1. 단안 시각은 깊이 정보를 정확하게 얻을 수 없습니다. 즉, 평면 정보만 얻을 수 있습니다. 입체 정보를 얻을 수 없습니다. 깊이 정보는 반드시 대상과 카메라 사이의 거리를 의미하는 것은 아니지만 Baidu 및 물체의 상대적 위치와 같은 다른 정보를 반영할 수도 있습니다. 그러나 이는 모두 광축 방향의 깊이와 관련이 있을 것입니다. 단안 시력은 거리를 측정할 수 있는데, 이는 거리를 수평 너비 또는 높이로 측정하는 것과 카메라나 렌즈의 광축에 수직인 평면에서 거리를 측정하는 것을 의미합니다. 실제로는 초음파 거리 측정이 필요하지 않습니다. 이제 양안 시각을 사용하여 입체 정보를 측정하는 것도 고려할 수 있습니다.

2. 장애물 회피라면 주로 자신과 자신 앞에 무언가가 있는 한 너비가 더 중요할 수 있습니다. 이를 피하려면 얼마나 멀리 가야 하는지만 알면 됩니다. 개요만 알면 됩니다. 다른 정보는 필요하지 않습니다. 물론 색상, 카테고리 등과 같은 다른 정보도 얻을 수 있습니다.

3. 필요에 따라 이미지 향상, 회색조, 필터링, 이진화 등이 모두 전처리됩니다. 이미지 효과가 좋으면 필요하지 않습니다. 모서리 검색, 패턴 매칭, 기하학적 매칭, 원, 직선, 입자 분석, 문자 인식, 색상 인식 등이 모두 사용되는 것은 아닙니다.

4. 단지 데이터를 처리하기 위한 것이라면 캘리브레이션을 하지 않아도 괜찮습니다. 이렇게 생성된 데이터는 픽셀 단위로만 되어 있기 때문에 캘리브레이션을 해줘야 합니다. 이는 사람들이 거리가 얼마나 멀리 있는지 더 쉽게 이해할 수 있도록 하기 위한 것입니다. 예를 들어, 객체의 너비는 1000픽셀이고 높이는 750픽셀입니다. 이는 사람들이 이해하기 어려울 수 있으며, 월드 좌표는 길이가 100mm이고 너비가 75mm일 수 있습니다. 이런 식으로 픽셀 좌표계와 월드 좌표 간의 변환은 100mm/1000픽셀=0.1mm/픽셀입니다. 픽셀 값은 other 를 측정하여 얻습니다. 세계 좌표를 얻으려면 이 값을 곱하기만 하면 됩니다.