روش ها و الگوریتم های پردازش تصویر الگوریتم های پیش پردازش تصویر کاربرد شبکه های عصبی برای تشخیص الگو

آزمایشگاه شماره 1

الگوریتم های پردازش تصویر

عملیات پیچیدگی

Convolution یک الگوریتم کاربردی بسیار گسترده است که می توان از آن استفاده کرد پیش فرآوریتصاویر، و برای تشخیص و شناسایی اشیاء. اجازه دهید تصویر توسط یک ماتریس روشنایی دو بعدی داده شود اف" و ماتریس پاسخ ضربه ای اچ. پیچیدگی ریاضی یک ماتریس افبا هسته اچرا می توان با فرمول زیر تعریف کرد:

جایی که M2xN2 - اندازه ماتریس هسته کانولوشن. اندازه ماتریس افبرابر است با (M1+M2-1)x(N1+N2-1)، که در آن M1xN1 - اندازه ماتریس اصلی اف" . ماتریس افبا افزودن عناصر در لبه های ماتریس طبق قوانینی از نسخه اصلی به دست می آید تا آن را به اندازه مورد نیاز برساند. معمولاً، ماتریس اصلی به اندازه نصف عرض ماتریس با صفر در لبه‌ها پوشانده می‌شود. اچچپ و راست و به ترتیب نیمی از ارتفاع بالا و همان پایین. سپس اندازه ماتریس حاصل آرمانند ماتریس خواهد بود اف" .

همانطور که در بالا نشان داده شده است، می توان کانولوشن را مستقیماً با "اجرا کردن" یک ماتریس بر روی ماتریس دیگر محاسبه کرد. روی انجیر 1 طرحی را برای محاسبه پیچش نشان می دهد (اندازه ماتریس ماسک برابر با 3x3 در نظر گرفته می شود). عملگر پیچیدگی را می توان به عنوان ماتریسی از ضرایب (نقاب) مشاهده کرد که عنصر به عنصر با قطعه تصویر انتخاب شده ضرب می شوند و به دنبال آن جمع می شوند تا مقدار جدیدی از عنصر تصویر فیلتر شده به دست آید. این ماتریس می تواند اندازه دلخواه باشد، نه لزوما مربع.

برنج. 1. اجرای عملیات کانولوشن.

ورزش

    الگوریتمی را پیاده سازی کنید که عمل کانولوشن تصویر اصلی را با ماتریس-ماسک انجام دهد.

    اندازه و نوع ماتریس ماسک توسط کاربر تعیین می شود.

    از ماتریس های ماسک زیر برای پیاده سازی الگوریتم های مختلف پردازش تصویر استفاده کنید:

    • برای صاف کردن و سرکوب نویز در تصویر، از ماتریس 3x3 به شکل زیر استفاده می شود:

    برای تأکید بر خطوط، از ماتریس ماسک های شکل زیر استفاده می شود:

1/9*

    ماسک فرم زیر برای انتخاب خطوط استفاده می شود:

4. یک فیلتر میانه را اجرا کنید که برای سرکوب نویز نقطه ای و ضربه ای استفاده می شود. پیکسل تصویر و همسایگان آن در ناحیه مورد نظر در یک سری متغیر (در مقادیر پیکسل صعودی یا نزولی) ردیف می شوند و مقدار مرکزی این سری متغیر به عنوان یک مقدار پیکسل جدید انتخاب می شود. نتیجه فیلتر متوسط ​​این است که هر نویز تصادفی موجود در تصویر به طور موثر حذف می شود. این به این دلیل است که هر تغییر ناگهانی تصادفی در شدت پیکسل در منطقه مورد بررسی مرتب می شود، به عنوان مثال. در بالا یا پایین مقادیر مرتب شده در آن منطقه قرار می گیرد و به عنوان مقدار مرکزی همیشه برای مقدار عنصر جدید محاسبه نمی شود.

5. پیاده سازی الگوریتم منبت. نقش برجسته به روشی مشابه با الگوریتم های میانگین گیری یا افزایش لبه انجام می شود. هر پیکسل در تصویر توسط یک هسته برجسته 3x3 (ماتریس-ماسک) پردازش می شود. به عنوان مثال، به عنوان یک هسته برجسته، می توانید ماتریس ماسک زیر را انتخاب کنید:

پس از پردازش مقدار پیکسل توسط موتور منبت، 128 به آن اضافه می شود، بنابراین، مقدار پیکسل های پس زمینه به رنگ خاکستری متوسط ​​تبدیل می شود (قرمز = 128، سبز = 128، آبی = 128). مبالغ بیشتر از 255 را می توان به 255 گرد کرد.

در نسخه برجسته تصویر، خطوط به نظر می رسد که در بالای سطح اکسترود شده اند. جهت هایلایت تصویر را می توان با تغییر موقعیت های 1 و -1 در هسته تغییر داد. به عنوان مثال، اگر مقادیر 1 و -1 با هم عوض شوند، جهت نور پس زمینه برعکس می شود.

6. آبرنگی تصویر. فیلتر آبرنگ تصویر را تبدیل می کند و پس از پردازش به نظر می رسد که با آبرنگ نوشته شده است:

    اولین قدم در استفاده از فیلتر آبرنگ صاف کردن رنگ های تصویر است. یکی از راه های صاف کردن استفاده از میانگین رنگ در هر نقطه است. مقدار رنگ هر پیکسل و 24 همسایه آن (اندازه ماتریس ماسک 5x5 است) در یک سری متغیر به ترتیب نزولی یا صعودی مرتب شده اند. مقدار رنگ میانه (سیزدهم) در سری تغییرات به پیکسل مرکزی اختصاص داده می شود.

    پس از صاف کردن رنگ ها، باید یک فیلتر افزایش لبه اعمال کنید تا مرزهای انتقال رنگ را برجسته کنید.

دیجیتال رفتار سیگنال ها

مبحث 17. پردازش تصویر

چیزی فراتر از تصور انسان نیست.

تیتوس لوکرتیوس. فیلسوف و شاعر رومی. قرن 1 قبل از میلاد مسیح ه.

تخیل چیز خوبی است. اما برای بیرون کشیدن حشره از زیرزمین، آن را بشویید، آن را به آپولو تبدیل کنید، آن را در جعبه کبریت بسته بندی کنید و برای دوست خود بفرستید. پست الکترونیکخوب برنامه گرافیکیبهتر انجام خواهد داد.

آناتولی پیشمینتسف، ژئوفیزیک نووسیبیرسک از مکتب اورال. قرن 20

مقدمه.

1. مفاهیم اساسی. نمایش گرافیکی تصاویر بازنمایی رنگ در گرافیک کامپیوتری مدل رنگ RGB. سیستم رنگ CIE XYZ.

2. دگرگونی های هندسی تصاویر شطرنجی. حوزه ها و مراحل تحول. نمونه برداری. سری درونیابی بازیابی سیگنال دو بعدی. تحریف فرکانس تصاویر و حذف آنها. نمونه گیری مجدد تصویر

3. فیلتر کردن تصویر. فیلترهای خط فیلترهای صاف کننده فیلترهای کنتراست فیلترهای تفاوت پیچیدگی چرخه ای دو بعدی. فیلترهای غیر خطی فیلتر آستانه فیلتر میانه فیلترهای افراطی

4. فشرده سازی تصویر. الگوریتم های رمزگذاری طول تکرار (RLE). الگوریتم های دیکشنری الگوریتم های کدگذاری آماری فشرده سازی تصویر از دست رفته تخمین از دست دادن تصویر تبدیل فوریه. تبدیل موجک.

مقدمه

دامنه تحقیقات در زمینه تصویربرداری دیجیتال به سرعت در حال رشد است. این به این دلیل است که پردازش تصویر پردازش سیگنال چند بعدی است و بیشتر سیگنال ها در دنیای واقعی چند بعدی هستند.


تصویر در نمایش ریاضی یک سیگنال دو بعدی است که حجم عظیمی از اطلاعات را حمل می کند. یک تصویر رنگی 500 × 500 عنصر آرایه ای از چند صد هزار بایت است. پردازش چنین اطلاعاتی تنها با یک سازمان منطقی محاسبات امکان پذیر است. برای کارهای خاص پردازش تصویر، می توانید استفاده کنید راه های موثرپردازش، با در نظر گرفتن ویژگی ها و محدودیت های این کار خاص. اما اگر ما در مورد پردازش تصویر برای حل یک کلاس گسترده از مسائل صحبت کنیم، لازم است مجموعه ای از عملیات استاندارد را مشخص کنیم که از آنها می توان الگوریتم هایی برای حل مسائل دلخواه ساخت. اینها شامل تبدیل های خطی، انحراف دوبعدی و تبدیل فوریه گسسته دوبعدی است.

اما در پردازش تصویر، تبدیل های غیرخطی نیز بسیار مورد استفاده قرار می گیرند. ویژگی تصاویر این است که عناصر منفردتصاویر در رابطه خاصی با عناصر همسایه هستند. بنابراین، بیشتر الگوریتم‌های تبدیل تصویر ماهیت محلی دارند، یعنی تصاویر را توسط گروه‌هایی از عناصر واقع در همسایگی اطراف آن پردازش می‌کنند. تبدیل‌های خطی ویژگی محلی را برآورده می‌کند و امکان ساخت الگوریتم‌هایی را می‌دهد که پیچیدگی محاسباتی آن‌ها بستگی زیادی به اندازه محله تحت پوشش ندارد. همین ویژگی ها برای تبدیل های غیر خطی تصویر مورد نیاز است. کلاس چنین تبدیل‌هایی شامل الگوریتم‌هایی است که بر اساس محاسبه آمار تصاویر رتبه محلی، الگوریتم‌های فیلترینگ رتبه نامیده می‌شوند. هنگام محاسبه آمار رتبه بندی و مشتقات آنها، ساده سازی های مربوط به افزونگی اطلاعات تصاویر امکان پذیر است. شناخته شده ترین الگوریتم این کلاس، الگوریتم فیلترینگ میانه است. نمونه‌های دیگر الگوریتم‌های رتبه‌بندی، الگوریتم‌های فیلتر شدید هستند که عنصر تصویر تحلیل‌شده را با حداکثر یا حداقل در همسایگی جایگزین می‌کنند. یکی دیگر از ویژگی های الگوریتم های رتبه، سازگاری محلی با ویژگی های تصویر پردازش شده و پتانسیل استفاده از آنها نه تنها برای صاف کردن و حذف نویز، بلکه برای استخراج ویژگی در تشخیص خودکار تصویر است.

در پردازش تصویر، در صورت امکان تعمیم آنها به سیگنال های چند بعدی، از روش های پردازش سیگنال یک بعدی به طور گسترده استفاده می شود. در عین حال، باید در نظر داشت که روش های ریاضی برای توصیف سیستم های چند بعدی کامل نیستند. سیستم های چند بعدی دارای درجات آزادی زیادی هستند و طراحی آنها انعطاف پذیری دارد که مشخصه سیستم های یک بعدی نیست. در عین حال، چند جمله ای های چند بعدی را نمی توان به عوامل ساده تجزیه کرد، که تجزیه و تحلیل و سنتز سیستم های چند بعدی را پیچیده می کند.

17.1. مفاهیم اساسی

نمایش گرافیکی تصاویر برای نمایش اطلاعات گرافیکی در یک صفحه دو بعدی (صفحه نمایش)، از دو رویکرد شطرنجی و برداری استفاده می شود.

با رویکرد برداری اطلاعات گرافیکیبه عنوان مجموعه ای از اشیاء هندسی انتزاعی توصیف می شود - خطوط مستقیم، بخش ها، منحنی ها، مستطیل ها، و غیره. توضیحات برداری دانش پیشینی در مورد ساختار تصویر را فرض می کند.

گرافیک شطرنجی بر روی تصاویر دلخواه در قالب بیت مپ عمل می کند. شطرنجی توصیفی از یک تصویر در یک صفحه با تقسیم (نمونه برداری) آن به عناصر یکسان در امتداد یک شبکه منظم و اختصاص دادن رنگ خاص به هر عنصر و هر ویژگی دیگر است. ساده ترین شطرنجی مستطیل شکل است، مقرون به صرفه ترین آن از نظر تعداد نمونه برای انتقال تصاویر شش ضلعی است. از نظر ریاضی، شطرنجی یک تقریب ثابت تکه ای در صفحه یک تابع تصویر پیوسته است.

عنصری از یک رستر پیکسل نامیده می شود. شناسایی استاندارد پیکسل:


f(i، j) = (A(i، j)، C(i، j))، (17.1.1)

که در آن A(i، j) Ì R2 - ناحیه پیکسل، C(i، j) Î C - ویژگی پیکسل (معمولا رنگ). دو مشخصه پرکاربرد عبارتند از:

C (i، j) = I (i، j) - شدت (روشنایی) یک پیکسل.

C(i، j) = (R(i، j)، G(i، j)، B(i، j)) - ویژگی های رنگ در مدل رنگ RGB.

به صورت ماتریسی:

میج = (آیج، سیج).

هنگام نمونه برداری از تصاویر پیوسته، مقادیر Aij را می توان به دو صورت تعریف کرد، یا به عنوان مقادیر نقاط Aij = (i, j) که ویژگی های Cij برای آنها تعریف شده است یا به عنوان مقادیر مربع ها. Aij = (i, i+1) × (j, j+1) یا هر شکل دیگری با تعریف Cij با مقادیر میانگین در این فرم (شکل 17.1.1).

در عمل، به عنوان یک قاعده، X و Y مجموعه های محدودی از اعداد صحیح غیر منفی یک شطرنجی مربع یا مستطیل با نسبت ابعاد (نسبت ابعاد) عرض به ارتفاع شطرنجی هستند که به عنوان مثال نوشته می شود: "4:3".

بازنمایی رنگ در گرافیک کامپیوتری مفهوم رنگ بر اساس درک چشم انسان از امواج الکترومغناطیسی در است محدوده معینفرکانس ها توسط ما درک شده است نور روزدارای طول موج λ از 400 نانومتر (بنفش) تا 700 نانومتر (قرمز) است. توصیف شار نور می تواند تابع طیفی آن I(λ) باشد. نور در صورتی تک رنگ نامیده می شود که طیف آن فقط یک طول موج خاص داشته باشد.

دو نوع گیرنده روی شبکیه وجود دارد: میله و مخروط. حساسیت طیفی میله ها (شکل 17.1.2) به طور مستقیم با روشنایی نور فرودی متناسب است. مخروط ها به سه نوع تقسیم می شوند که هر کدام در محدوده های محدود با حداکثر رنگ های قرمز، سبز و آبی حساسیت خاصی دارند و در تاریکی به شدت حساسیت خود را از دست می دهند. حساسیت چشم به آبی بسیار کمتر از دو چشم دیگر است. یکی از ویژگی های مهم درک انسان از نور، خطی بودن هنگام اضافه کردن رنگ ها با طول موج های مختلف است.

مدل رنگ RGB (قرمز، سبز، آبی - قرمز، سبز، آبی) در گرافیک کامپیوتری در حال حاضر رایج ترین است. در این مدل تابع طیفی به صورت مجموع منحنی های حساسیت برای هر نوع مخروط با ضرایب وزنی غیرمنفی (نرمال شده از 0 تا 1) نشان داده می شود که به صورت R، G و B نشان داده می شود. خاصیت افزودنی برای به دست آوردن رنگ های جدید. به عنوان مثال، رمزگذاری توابع طیفی:

سیاه: fblack = 0, (R, G, B) = (0,0,0);

بنفش fviolet = fred + fblue, (R, G, B) = (1,0,1);

سفید fwhite = fred + fgreen + fblue، (R, G, B) = (1,1,1).

فضای رنگی سه بعدی مدل RGB در شکل نشان داده شده است. 17.1.3. با توجه به ویژگی های ادراک نور توسط گیرنده ها، همه رنگ های قابل مشاهده برای انسان در این مدل قابل نمایش نیستند. با این حال، نسبت رنگ های تکرارپذیر بسیار بیشتر از نسبت رنگ هایی است که در این مدل قابل نمایش نیستند.

سیستم رنگ CIE XYZ. استاندارد بین المللی نمایش رنگ CIE (CIE - Commission Internationale de l "Eclairage) در سال 1931 توسط کمیسیون بین المللی روشنایی به تصویب رسید. این استاندارد سه تابع پایه ρX (λ)، ρY (λ)، ρZ (λ) را بسته به نوع تعریف می کند. طول موج، ترکیبات خطی که با ضرایب غیر منفی (X، Y و Z) همه رنگ‌های قابل مشاهده برای انسان را تولید می‌کنند. این توابع درک نسبی شدت نور توسط گیرنده‌های چشم را در نظر می‌گیرند. در فضای سه‌بعدی، CIE سیستم رنگی در ربع اول یک مخروط تشکیل می دهد و برای نمایش تصاویر رنگی با کیفیت بالا استفاده می شود.

17.2. تبدیل هندسی نقشه های بیتی

حوزه ها و مراحل تحول. تصاویر را می توان به بافتی و جزئیات تقسیم کرد. در تصاویر بافت، تمام نمونه ها (عناصر) اطلاعات (تصویر روی صفحه تلویزیون) را حمل می کنند. تصویر تفصیلی تصویری است که در آن اشیاء مداخله گر، پس زمینه و اشیای مفید قابل تشخیص هستند.

سه گروه اصلی از الگوریتم های پردازش تصویر در رایانه ها وجود دارد:

1. پردازش تصویر اولیه (مقدماتی) به منظور بازسازی، پاکسازی از نویز تصادفی، بهبود کیفیت، اصلاح اعوجاج هندسی سیستم های نوری(عدم تمرکز، انحرافات و غیره).

2. شرح تصاویر، تشخیص الگو. برای تعیین پارامترهای جزئیات تصویر انجام می شود و شامل: یافتن مناطقی از تصویر که از نظر روشنایی و رنگ یکنواخت هستند، برجسته کردن علائم شکل تصاویر، تعیین مختصات نقاط خاص اجسام و غیره است.

3. کدگذاری کارآمد برای کاهش میزان انتقال و ذخیره سازی.

اکثر روش‌های پیش پردازش مبتنی بر استفاده از فیلترهای خطی فضایی ثابت (LPI) هستند. الگوریتم های خطیبا استفاده از آنالوگ های دو بعدی فیلترهای یک بعدی FIR و IIR انجام می شود. برای مثال می توان از آنها در هنگام اجرای فیلترها برای کاهش سطح نویز در تصاویر استفاده کرد.

فیلترهای FIR با استفاده از روش کانولوشن پیاده سازی می شوند. مزیت فیلترهای دوبعدی FIR قابلیت دید، سادگی و پایداری مطلق است. فیلترهای IIR با استفاده از معادلات تفاضلی و تبدیل های z پیاده سازی می شوند. آنها سریعتر از فیلترهای FIR هستند، اما می توانند ناپایدار باشند. سنتز فیلترهای IIR دو بعدی با سنتز فیلترهای یک بعدی متفاوت است، زیرا برای یک عملکرد دو بعدی نمی توان به طور صریح قطب ها را انتخاب کرد.

همچنین ممکن است برای بازیابی تصاویر و بهبود کیفیت آنها به روش های غیرخطی نیاز باشد. بنابراین، به عنوان مثال، برای سرکوب نویز و در عین حال حفظ قسمت کانتور تصاویر، لازم است از فیلترهای غیر خطی یا خطی فضایی غیر تغییرناپذیر (SPNI) استفاده شود که توسط الگوریتم‌های رتبه‌بندی پیاده‌سازی می‌شوند. همه فیلترهای غیر خطی رتبه بندی بر اساس الگوریتم های سریع برای محاسبه هیستوگرام های محلی هستند.

یکی از این روش ها فیلترینگ میانه است. استفاده از فیلترهای میانی برای سرکوب انواع خاصی از نویز و نویز دوره ای بدون تحریف همزمان سیگنال موثر است، به عنوان مثال، برای سرکوب انفجارهای انتشار نویز، از جمله افت خط. این روش همچنین می تواند برای حل مشکلات مربوط به تشخیص استفاده شود، به عنوان مثال، برای برجسته کردن خطوط نازک و اشیاء کوچک جدا شده.

الگوریتم های توصیف تصاویر و تشخیص تصاویر، به عنوان یک قاعده، غیر خطی هستند و ماهیت اکتشافی دارند. علائم اشیا معمولاً مساحت تصویر جسم، محیط کانتور تصویر، نسبت مساحت به مربع محیط تصویر است. شکل یک جسم را می توان با شعاع دایره ای که در تصویر حک شده یا دور تصویر شیء محصور شده است، طول حداقل و حداکثر شعاع بردار از "مرکز جرم" تصویر مشخص کرد.

نمونه برداری. تبدیل تصویر در رایانه و ذخیره سازی داده های پردازش شده به صورت مجزا انجام می شود. نمونه برداری برای به دست آوردن یک نمایش گسسته از تصاویر آنالوگ پیوسته از دنیای واقعی استفاده می شود. در عمل، توسط دستگاه های ورودی (دوربین دیجیتال، اسکنر، یا موارد دیگر) انجام می شود. برای درک بصری تصاویر پردازش شده در دستگاه های خروجی (نمایشگر، پلاتر و غیره)، یک تصویر آنالوگ با توجه به نمایش گسسته آن بازسازی می شود.

در ساده ترین حالت تصاویر سیاه و سفید، ما داریم آرایه دو بعدی sa (x، y). برای تصاویر رنگی در مدل RGB، با در نظر گرفتن خاصیت افزودنی هنگام افزودن رنگ‌ها، می‌توان هر لایه R، G و B را نیز به عنوان یک آرایه دو بعدی در نظر گرفت و با جمع‌بندی بعدی نتایج، پردازش کرد.

از راه های تعمیم گسسته سازی تناوبی یک بعدی به حالت دو بعدی، ساده ترین آنها گسسته سازی تناوبی در مختصات مستطیلی است:

s(n، m) = sa(nDx، mDy)،

که در آن Dx و Dy فواصل نمونه برداری افقی و عمودی سیگنال پیوسته دو بعدی sa(x,y) با مختصات x و y پیوسته هستند. در زیر، مقادیر Dx و Dy، مانند حالت یک بعدی، برابر با 1 در نظر گرفته شده است.

گسسته سازی یک سیگنال دو بعدی نیز منجر به دوره ای شدن طیف آن می شود و بالعکس. شرط هم ارزی اطلاعاتی نمایش مختصات و فرکانس یک سیگنال گسسته نیز با تعداد مساوی نقاط نمونه برداری در محدوده سیگنال اصلی حفظ می شود. برای گسسته سازی مستطیلی، تبدیل فوریه مستقیم و معکوس با عبارات زیر تعریف می شود:

S(k، l) =s(n، m) exp(-jn2pk/N-jm2pl/M)، (17.2.1)

S(k، l) =exp(-jn2pk/N) s(n، m) exp(-jm2pl/M)، (17.2.1")

s(n، m) =S(k، l) exp(-jn2pk/N-jm2pl/M). (17.2.2)

s(n، m) = exp(-jn2pk/N) S(k، l) exp(-jm2pl/M). (17.2.2")

برنج. 17.2.1. دوره بندی طیف

این عبارات نشان می دهد که یک DFT 2 بعدی روی یک شطرنجی نمونه گیری داده مستطیلی را می توان با استفاده از DFT های سریال 1 بعدی محاسبه کرد. مجموع دوم عبارات (17.2.1") و (17.2.2") DFT های یک بعدی بخش های توابع s(n، m) و S(k، l) در امتداد خطوط n و k هستند. به ترتیب، و اولین مجموع DFT های یک بعدی توابع محاسبه شده در مقاطع با m و l هستند. به عبارت دیگر، ماتریس های اولیه مقادیر s(n، m) و S(k، l) ابتدا به ماتریس های میانی با DFT توسط ردیف ها (یا ستون ها) و ماتریس های میانی به ماتریس های نهایی با DFT دوباره محاسبه می شوند. توسط ستون ها (یا، به ترتیب، توسط ردیف).

برای اینکه تکرار دوره ای طیف (شکل 17.2.1)، ناشی از نمونه برداری از یک سیگنال آنالوگ با فرکانس Fx=1/Dx و Fy=1/Dy، باعث تغییر طیف در فرکانس اصلی نشود. محدوده (در رابطه با طیف سیگنال آنالوگ اصلی)، لازم و کافی است که حداکثر مولفه های فرکانس fmax در طیف سیگنال آنالوگ، چه در ردیف و چه در ستون، از فرکانس Nyquist (fmax. x £ fN = Fx/2، fmax. y £ fM = Fy/2). این بدان معناست که فرکانس نمونه برداری از سیگنال باید حداقل دو برابر بیشتر از مولفه فرکانس حداکثر در طیف سیگنال باشد:

Fx ³ 2fmax. x، Fy ³ 2fmax. y، (17.2.3)

که تضمین می کند که توابع طیفی به مقادیر صفر در انتهای محدوده اصلی طیف می رسند.

سری درونیابی بازیابی سیگنال دو بعدی. اگر سیگنال پیوسته sa(x,y) یک سیگنال با طیف محدود باشد، و دوره‌های نمونه‌برداری به اندازه کافی کوچک انتخاب شده باشند و طیف‌های دوره‌های مجاور همپوشانی نداشته باشند:

Sa(Wx، Wy) = 0 برای |Wx|p/Dx، |Wy|p/Dx،

سپس، مانند حالت یک بعدی، سیگنال sa(x,y) را می توان از یک سیگنال گسسته با استفاده از یک آنالوگ دو بعدی از سری Kotelnikov-Shannon بازسازی کرد:

sa(x، y) = Sn Sm s(n، m) . (17.2.4)

تحریف فرکانس تصاویر و حذف آنها. یک سیگنال طیف نامحدود نیز می تواند نمونه برداری شود، اما در این مورد در دوره های مجاور، با فرکانس های بالا، فرکانس های بزرگ Nyquist، مانند حالت تک بعدی، تحت "ماسک" خواهند بود. فرکانس های پاییندوره اصلی اثر "بازتاب" از مرزهای دوره به دلیل تداخل فرکانس های منعکس شده در مختصات مختلف، تصویر پیچیده تری را ارائه می دهد. اثر مشابهی که به نام aliasing نیز شناخته می‌شود، زمانی که تصاویر کمتر از نمونه‌گیری شوند، رخ می‌دهد. این اثر را می توان به ویژه در تغییرات تضاد شدید در روشنایی به وضوح مشاهده کرد.

برای مبارزه با چنین پدیده هایی، از پیش فیلتر کردن (ضد آلیاسینگ) استفاده می شود - پیچیدگی اولیه یک تصویر آنالوگ با عملکرد فیلتر وزن که اجزای با فرکانس بالا را که می تواند منجر به همخوانی شود را قطع می کند. در حالت دو بعدی، فیلتر به صورت زیر توصیف می شود:

z(x، y) = h(x، y") ③③ s(x-x، y-y"). (17.2.5)

لازم به ذکر است که تصاویر آنالوگ فقط در محدوده نوری وجود دارند، به عنوان مثال، به صورت نمایش نور بر روی صفحه، کاغذ عکاسی یا فیلم عکاسی، اما نمی توانند در حافظه کامپیوتر وجود داشته باشند. بنابراین، اجرای فیزیکی پیش فیلتر کردن فقط در هنگام ثبت تصویر با فوکوس زدایی امکان پذیر است، که، به عنوان یک قاعده، استفاده نمی شود. اطلاعات اولیه باید همیشه با حداکثر کامل و دقت ثبت شود و پاکسازی اطلاعات اولیه از جزئیات غیر ضروری و اضافی موضوع پردازش بعدی داده ها است. بنابراین، در رابطه با معادله 17.2.5، پیش فیلترینگ دو بعدی در اجرای عملی خود، تنها می تواند فیلتری از تصاویر نمونه برداری شده با حاشیه زیاد در محدوده فرکانس اصلی (با وضوح بیش از حد) باشد و قاعدتاً مورد استفاده قرار می گیرد. ، هنگام نمونه برداری مجدد به یک مرحله بزرگتر، به عنوان مثال، هنگام فشرده سازی تصاویر. پیش فیلتر کردن را می توان در الگوریتم های تصویربرداری نیز تعبیه کرد.

روی انجیر 17.2.3 و زیر، جدول 17.2.1 نمونه هایی از رایج ترین فیلترهای ضد آلیاژینگ یک بعدی را نشان می دهد. آنها همچنین می توانند در قالب فیلترهای آنالوگ اجرا شوند و برای مثال هنگام انتقال خطوط تلویزیونی تصاویر به شکل آنالوگ از طریق کانال های رادیویی (ضد آلیاسینگ افقی) استفاده می شوند. اصولاً می توان عملیات مشابهی را بر روی ستون ها انجام داد (تکثیری - تصویر) و پس از جمع بندی تصویر، عملیات آنتی آلیاسینگ کامل انجام می شود، اما این روش بیشتر به حوزه تحقیقات علمی خاص تعلق دارد.

جدول 17.2.1.

توابع وزن پایه

پنجره زمان

تابع وزن

تبدیل فوریه

طبیعی (P)

П(t) = 1, |t|£t; П(t) = 0، |t|>t

П(w) = 2t سینک

بارتلت (D)

B(w) = t sinc2 (wt/2).

هنینگ، هانا

p(t) = 0.5

0.5p(w)+0.25p(w+p/t)+0.25p(w-p/t)

همینگ

p(t) = 0.54+0.46 cos (pt/t)

0.54P(w)+0.23P(w+p/t)+0.23P(w-p/t)

کاره (پنجره دوم)

p(t) = b(t) sinc(pt/t)

t B(w)*P(w)، P(w) = 1 برای |w|

لاپلاس-گاوس

p(t) = exp[-b2(t/t)2/2]

[(t/b) exp(-t2w2/(2b2))] ③ P(w)

آنالوگ های دو بعدی فیلترهای یک بعدی f1(x) در دو نوع تقارن ساخته می شوند: یا به عنوان تابعی از شعاع:

f2(x, y) = f1()،

یا به عنوان اثر:

f2 (x, y) = f1 (x) × f1 (y).

گزینه اول صحیح تر است، اما گزینه دوم دارای خاصیت تفکیک پذیری است، یعنی پیچیدگی دو بعدی را می توان با دو پیچیدگی یک بعدی به ترتیب در ردیف هایی با f1(x) و در ستون هایی با f1(y) انجام داد.

نمونه گیری مجدد تصویر یا نمونه برداری مجدد تغییر در نرخ نمونه برداری یک سیگنال دیجیتال است. برای تصاویر دیجیتال، این به معنای تغییر اندازه تصویر است.

الگوریتم های مختلفی برای نمونه گیری مجدد تصویر وجود دارد. به عنوان مثال، برای افزایش 2 برابری تصویر با استفاده از روش درون یابی دو خطی، ستون ها و ردیف های میانی با درون یابی خطی مقادیر ستون ها و ردیف های مجاور به دست می آیند. می توان هر نقطه از تصویر جدید را به عنوان مجموع وزنی تعداد بیشتری از نقاط تصویر اصلی به دست آورد (دو مکعبی و سایر انواع درونیابی). بالاترین کیفیت نمونه برداری مجدد زمانی به دست می آید که از الگوریتم هایی استفاده شود که نه تنها زمان، بلکه دامنه فرکانس سیگنال را نیز در نظر می گیرند.

یک الگوریتم نمونه برداری مجدد با حداکثر حفظ اطلاعات فرکانس تصویر در نظر بگیرید. ما عملکرد الگوریتم را بر روی سیگنال های یک بعدی در نظر خواهیم گرفت، زیرا یک تصویر دو بعدی را می توان ابتدا به صورت افقی (در ردیف) و سپس به صورت عمودی (در ستون ها) کشیده یا فشرده کرد و نمونه برداری مجدد از یک تصویر دو بعدی را می توان انجام داد. به نمونه برداری مجدد از سیگنال های یک بعدی کاهش می یابد.

فرض کنید یک سیگنال یک بعدی داریم (شکل 17.2.4)، که در بازه 0-T داده شده و با یک مرحله Dt=1 (N فواصل) گسسته شده است. لازم است سیگنال را با m بار "کشش" کنید. طیف سیگنال نشان داده شده در شکل با تبدیل فوریه سریع محاسبه می شود (FFT، تعداد نمونه های طیف برابر با تعداد نمونه های سیگنال است) و در محدوده FFT اصلی (0-2p، فرکانس نایکیست wN =) داده می شود. p/Dt = p، یا 0.5N با توجه به شماره گذاری نمونه های طیف با یک پله در امتداد طیف Df = 1/T یا Dw = 2p/T). کشش به 2 مرحله نیاز دارد.

مرحله اول درون یابی صفر است که طول سیگنال را m برابر افزایش می دهد. (شکل 17.2.5). لازم است تمام نمونه های سیگنال اصلی را در m ضرب کنید و بعد از هر نمونه سیگنال، مقدار m-1 را صفر درج کنید. در بازه 0-T که مقدار آن بدون تغییر باقی می ماند، اکنون m برابر بازه های نمونه برداری (mN) وجود دارد و مرحله نمونه برداری جدید برابر با Dx=Dt/m خواهد بود. بر این اساس فرکانس جدید Nyquist برای این سیگنال mp/Dt = mp است. اما مقدار فیزیکی گام طیف در واحدهای فرکانس برعکس مقدار فیزیکی بازه تنظیم سیگنال است (Df=1/T) و بنابراین، FFT روی نقاط سیگنال mN، نقاط mN طیف را محاسبه خواهد کرد. محدوده FFT اصلی 0-2pm با مرحله طیف سیگنال اصلی، که در آن دوره های m از طیف سیگنال اصلی (یک سمت اصلی و m-1) وجود خواهد داشت.

مرحله دوم فیلتر کردن نوارهای جانبی طیف با استفاده از یک فیلتر پایین گذر است، چه در حوزه زمانی و چه در حوزه طیفی. روی انجیر 17.2.6، طیف پاک شد و تبدیل فوریه معکوس انجام شد، در نتیجه سیگنالی متر برابر بیشتر از سیگنال اصلی با حفظ کامل تمام اطلاعات فرکانس به دست آمد.

بر اساس یک اصل مشابه، می توان الگوریتمی برای فشرده سازی (از بین بردن) سیگنال n برابر ساخت، در حالی که ترتیب مراحل معکوس می شود. هنگام فشرده‌سازی سیگنال، مرحله نمونه‌برداری سیگنال افزایش می‌یابد و بر این اساس، فرکانس Nyquist کاهش می‌یابد، در حالی که فرکانس‌های قطع شده بالا (نویز و بخش‌های فرکانس بالا ناچیز طیف سیگنال) از مرز محدوده اصلی منعکس می‌شوند. و به اطلاعات اصلی اضافه شد و تحریف ایجاد کرد. برای از بین بردن این پدیده، ابتدا سیگنال با فرکانس قطع برابر با فرکانس جدید Nyquist (ضد آلیاسینگ) پایین گذر فیلتر می شود و تنها پس از آن سیگنال با نازک شدن از بین می رود.

هنگامی که نمونه‌برداری مجدد فقط در حوزه زمان انجام می‌شود، الگوریتم‌های کشش و فشرده‌سازی معمولاً در یک فرآیند متوالی واحد با تنظیم تغییر مرحله نمونه‌گیری در قالب نسبت m/n ترکیب می‌شوند که به شما امکان می‌دهد مقادیر صحیح m را تنظیم کنید. و n برای مقادیر کسری تغییر مرحله نمونه برداری. این امر الگوریتم ها را بسیار ساده می کند و کارایی و کیفیت کار آنها را بهبود می بخشد. به عنوان مثال، هنگامی که سیگنال 1.5 برابر در m/n = 3/2 کشیده می شود، سیگنال ابتدا 3 بار کشیده می شود (یک جمع ساده و یکنواخت صفر به همه نمونه ها، سپس فیلتر پایین گذر انجام می شود، پس از آن سیگنال با ضریب دو کاهش می یابد. فیلتر ضد آلیاسینگ مورد نیاز نیست، زیرا فرکانس قطع آن با فرکانس اولین فیلتر پایین گذر همپوشانی دارد. در عملیات فشرده سازی معکوس (مثلا m/n = 2/3 ، به طور مشابه، فقط از فیلتر ضد آلیاسینگ استفاده می شود.

17.3. فیلتر کردن تصویر

فیلتر کردن تصویر عملیاتی است که منجر به ایجاد تصویری با اندازه یکسان می شود که طبق برخی قوانین از تصویر اصلی به دست می آید. به طور معمول، شدت (رنگ) هر پیکسل از تصویر به دست آمده توسط شدت (رنگ) پیکسل های واقع در برخی از همسایگی آن در تصویر اصلی تعیین می شود.

قوانین فیلترینگ می تواند بسیار متنوع باشد. فیلتر کردن تصویر یکی از اساسی ترین عملیات بینایی کامپیوتری، تشخیص الگو و پردازش تصویر است. اکثریت قریب به اتفاق روش های پردازش تصویر با یک یا آن فیلتر کردن تصاویر اصلی شروع می شود.

فیلترهای خط یک توصیف ریاضی بسیار ساده دارند. فرض می کنیم که تصویر نیم تن اصلی A داده شده است و شدت پیکسل های آن را با A(x,y) نشان می دهیم. یک فیلتر خطی توسط یک تابع با ارزش واقعی h (هسته فیلتر) تعریف شده بر روی یک رستر تعریف می شود. خود فیلتر با استفاده از عملیات کانولوشن گسسته (جمع وزنی) انجام می شود:

B(x، y) = h(i، j) ③③A(x، y) = h(i، j) A(x-i، y-j). (17.3.1)

نتیجه تصویر B است. معمولاً هسته فیلتر فقط در برخی از همسایگی های N نقطه (0، 0) غیر صفر است. در خارج از این همسایگی h(i,j) برابر با صفر یا بسیار نزدیک به آن است و می توان از آن صرف نظر کرد. جمع بر روی (i, j) н N انجام می شود و مقدار هر پیکسل B(x, y) توسط پیکسل های تصویر A که در پنجره N در مرکز نقطه (x, y) قرار دارند تعیین می شود. نشان داده شده مجموعه N(x,y)) است. یک هسته فیلتر تعریف شده بر روی یک همسایگی مستطیلی N را می توان به عنوان یک ماتریس m در n در نظر گرفت که در آن طول ضلع اعداد فرد هستند. هنگام تعیین هسته به عنوان ماتریس، باید در مرکز قرار گیرد. اگر یک پیکسل (x، y) در مجاورت لبه های تصویر قرار گیرد، مختصات A(x-i، y-j) برای معین (i، j) ممکن است با پیکسل های موجود A در خارج از تصویر مطابقت داشته باشد. این مشکل به چند روش قابل حل است.

با برش دادن تصویر B در لبه ها یا اعمال مقادیر اصلی تصویر A برای مقادیر آنها، چنین پیکسل هایی را فیلتر نکنید.

با توزیع یکنواخت وزن آن h(i,j) بین پیکسل های دیگر در همسایگی N(x,y) پیکسل گم شده را در جمع وارد نکنید.

با استفاده از برون یابی، مقادیر پیکسل را در خارج از مرزهای تصویر دوباره تعریف کنید.

با استفاده از ادامه آینه تصویر، مقادیر پیکسل ها را در خارج از مرزهای تصویر دوباره تعریف کنید.

انتخاب روش با در نظر گرفتن ویژگی های خاص فیلتر و تصویر انجام می شود.

فیلترهای صاف کننده ساده ترین فیلتر صاف کننده مستطیلی با شعاع r توسط یک ماتریس (2r+1) × (2r+1) داده می شود که همه مقادیر آن 1/(2r+1)2 است و مجموع مقادیر برابر است با یکی این آنالوگ دوبعدی فیلتر میانگین متحرک 1 بعدی U شکل پایین گذر است. هنگام فیلتر کردن با چنین هسته ای، مقدار پیکسل با مقدار میانگین پیکسل در یک مربع 2r+1 در اطراف آن جایگزین می شود. نمونه ماسک فیلتر 3×3:

.

یکی از کاربردهای فیلترها کاهش نویز است. نویز به طور مستقل از پیکسلی به پیکسل دیگر متفاوت است و به شرطی که انتظار ریاضی مقدار نویز صفر باشد، نویز پیکسل های همسایه با جمع شدن یکدیگر را خنثی می کند. هرچه پنجره فیلتر بزرگتر باشد، میانگین شدت نویز کمتر است، با این حال، تار شدن متناظر جزئیات قابل توجه تصویر نیز رخ خواهد داد. تصویر یک نقطه سفید در پس زمینه سیاه در هنگام فیلتر کردن (واکنش به یک پالس) یک مربع خاکستری یکنواخت خواهد بود.

کاهش نویز با استفاده از فیلتر مستطیلی یک اشکال قابل توجه دارد: همه پیکسل های ماسک فیلتر در هر فاصله ای از فیلتر پردازش شده تأثیر یکسانی بر نتیجه دارند. نتیجه کمی بهتر با اصلاح فیلتر با افزایش وزن نقطه مرکزی به دست می آید:

.

کاهش نویز موثرتر می تواند حاصل شود اگر تأثیر پیکسل ها بر نتیجه با افزایش فاصله از پیکسل پردازش شده کاهش یابد. این ویژگی توسط یک فیلتر گاوسی با یک هسته دارد: h(i, j) = (1/2ps2) exp(-(i2+j2)/2s2). فیلتر گاوسی دارای هسته غیر صفر با اندازه بی نهایت است. با این حال، مقدار هسته فیلتر خیلی سریع به n کاهش می یابد، و بنابراین، در عمل، می توان خود را به پیچیدگی با یک پنجره کوچک در اطراف (0، 0) محدود کرد، به عنوان مثال، شعاع پنجره را برابر 3σ گرفت.

فیلتر گاوسی نیز صاف می شود. با این حال، بر خلاف فیلتر مستطیلی، تصویر یک نقطه با فیلتر گاوسی یک نقطه تار متقارن و با کاهش روشنایی از وسط به لبه ها خواهد بود. درجه تاری تصویر با پارامتر σ تعیین می شود.

فیلترهای کنتراست . اگر فیلترهای صاف کن کنتراست محلی تصویر را کاهش دهند و آن را تار کنند، فیلترهای تقویت کننده کنتراست اثر معکوس ایجاد می کنند و در اصل فیلترهایی با فرکانس های فضایی بالا هستند. هسته فیلتر تقویت کننده در (0، 0) دارای مقداری بزرگتر از 1 است که مجموع مقادیر آن برابر با 1 است. به عنوان مثال، فیلترهای تقویت کننده فیلترهایی هستند که هسته آن توسط ماتریس ها ارائه می شود:

. .

نمونه ای از اعمال فیلتر در شکل نشان داده شده است. 17.3.1. اثر افزایش کنتراست به این دلیل حاصل می شود که فیلتر بر تفاوت بین شدت پیکسل های همسایه تأکید می کند و این شدت ها را از یکدیگر حذف می کند. این اثر قوی تر خواهد بود، ارزش ترم مرکزی هسته بیشتر است. یک مصنوع مشخص از فیلتر افزایش کنتراست خطی، نور قابل توجه و هاله های تیره کمتر در اطراف لبه ها است.

فیلترهای تفاوت فیلترهای خطی هستند که با تقریب های گسسته عملگرهای دیفرانسیل (با روش تفاوت های محدود) تعریف می شوند. این فیلترها در بسیاری از برنامه ها نقش مهمی دارند، به عنوان مثال برای جستجوی لبه ها در یک تصویر.

ساده ترین عملگر دیفرانسیل مشتق x d/dx است که برای توابع پیوسته تعریف می شود. انواع رایج عملگرهای مشابه برای تصاویر گسسته، فیلترهای Prewitt و Sobel هستند:

. .

فیلترهای تقریبی عملگر مشتق با توجه به مختصات y d/dy با جابجایی ماتریس ها به دست می آیند.

ساده ترین الگوریتم برای محاسبه هنجار گرادیان در سه نقطه مجاور:

G(x، y) = .

یک فرمول محاسبه ساده نیز استفاده می شود:

محاسبه هنجار یک گرادیان بر روی چهار نقطه مجاور (عملگر رابرتز):

الگوریتم سوبل از هشت نمونه روشنایی در مجاورت نقطه مرکزی استفاده می کند:

G(x، y) = , G(x, y) @ ,

Gxx، y = -،

Gyx، y = -.

همراه با تعریف دقیق تر از هنجار گرادیان، الگوریتم سوبل همچنین به شما امکان می دهد جهت بردار گرادیان را در صفحه تحلیل تصویر به شکل یک زاویه j بین بردار گرادیان و جهت ردیف های ماتریس تعیین کنید:

j(x، y) = argtg(Gyx، y /Gxx، y).

برخلاف فیلترهای صاف کننده و افزایش کنتراست که میانگین شدت تصویر را تغییر نمی دهند، در نتیجه اعمال عملگرهای تفاوت، معمولاً تصویری با مقدار پیکسل متوسط ​​نزدیک به صفر به دست می آید. قطره های عمودی (حاشیه) تصویر اصلی مربوط به پیکسل هایی با مقادیر مدول بزرگ در تصویر حاصل است. بنابراین به فیلترهای تفاوت، فیلترهای تشخیص مرز شی نیز می گویند.

مشابه فیلترهای فوق، از روش تفاضل محدود می توان برای ترکیب فیلتر برای سایر عملگرهای دیفرانسیل استفاده کرد. به طور خاص، عملگر دیفرانسیل لاپلاس (لاپلاسی) D= 𝝏2/𝝏x2 + 𝝏2/𝝏y2، که برای بسیاری از کاربردها مهم است، می تواند برای تصاویر گسسته توسط یک فیلتر با ماتریس تقریبی شود (یکی از گزینه ها):

.

همانطور که در شکل مشاهده می شود. 17.3.2، در نتیجه اعمال لاپلاسین گسسته، مقادیر بزرگ در مقدار مطلق با تفاوت روشنایی عمودی و افقی مطابقت دارد. بنابراین یک فیلتر فیلتری است که مرزهای هر جهتی را پیدا می کند. یافتن لبه ها در یک تصویر را می توان با اعمال این فیلتر و گرفتن تمام پیکسل هایی که قدر مطلق آنها از یک آستانه خاص فراتر می رود انجام داد.

با این حال، این الگوریتم دارای اشکالات قابل توجهی است. یکی از موارد اصلی عدم اطمینان در انتخاب مقدار آستانه است. برای قسمت های مختلف تصویر، معمولاً در آستانه های بسیار متفاوت، نتیجه قابل قبولی به دست می آید. علاوه بر این، فیلترهای دیفرانسیل به نویز تصویر بسیار حساس هستند.

پیچیدگی چرخه ای دو بعدی. همانند سیگنال های 1 بعدی، پیچیدگی دو بعدی را می توان در حوزه فرکانس فضایی با استفاده از الگوریتم های FFT و ضرب طیف های تصویر دو بعدی و هسته فیلتر انجام داد. همچنین چرخه ای است و معمولاً در نسخه کشویی انجام می شود. با در نظر گرفتن چرخه، برای محاسبه الگوی ثابت طیف هسته، ابعاد ماسک فیلتر هسته در امتداد محورها دوبرابر شده و با صفر پر می شود و از همان ابعاد ماسک برای برجسته کردن پنجره کشویی روی تصویر، در داخل استفاده می شود. که FFT انجام می شود. اجرای فیلتر FIR با FFT به ویژه در صورتی کارآمد است که فیلتر دارای منطقه مرجع بزرگی باشد.

فیلترهای غیر خطی . در پردازش تصویر دیجیتال، الگوریتم‌های غیرخطی مبتنی بر آمار رتبه‌بندی به طور گسترده برای بازیابی تصاویر آسیب‌دیده توسط مدل‌های مختلف نویز استفاده می‌شوند. آنها به شما امکان می دهند از اعوجاج اضافی تصویر هنگام حذف نویز جلوگیری کنید و همچنین به طور قابل توجهی نتایج فیلترها را روی تصاویر با درجه نویز بالا بهبود می بخشد.

اجازه دهید مفهوم یک همسایگی M یک عنصر تصویری A(x,y) را معرفی کنیم که برای این محله مرکزی است. در ساده‌ترین حالت، همسایگی M حاوی N-پیکسل است، یعنی نقاطی که در ماسک فیلتر قرار می‌گیرند، از جمله (یا شامل نشدن) ماسک مرکزی. مقادیر این عناصر N را می توان در یک سری متغیر V(r) قرار داد، به ترتیب صعودی (یا نزولی) رتبه بندی کرد و لحظات خاصی از این سری را می توان محاسبه کرد، به عنوان مثال، مقدار متوسط ​​روشنایی mN. و پراکندگی dN. محاسبه مقدار خروجی فیلتر که جایگزین نمونه مرکزی می شود طبق فرمول انجام می شود:

B(x, y) = aА(x, y) + (1-a)mN. (17.3.2)

مقدار ضریب a = با یک وابستگی خاص به آمار نمونه ها در پنجره فیلتر مرتبط است، به عنوان مثال:

a = dN /(dN + k dS)، (17.3.3)

در جایی که dS واریانس نویز روی تصویر به عنوان یک کل یا بیش از همسایگی S برای S > M و MnS است، k ثابت اطمینان واریانس همسایگی S است. همانطور که از این فرمول به شرح زیر است، برای k=1 و dN » dS، a » 0.5 رخ می دهد، و مقدار B(x, y) = (A(x, y) + mN)/2، یعنی به طور مساوی اضافه می شوند. بر روی مقادیر نمونه مرکزی و مقدار متوسط ​​پیکسل های همسایگی M آن. با افزایش مقادیر dN، سهم مقدار مرجع مرکزی در نتیجه افزایش می یابد؛ با کاهش، مقدار mN. وزن سهم مقادیر متوسط ​​روی همسایگی M را می توان با مقدار ضریب k تغییر داد.

انتخاب یک تابع آماری و ماهیت وابستگی ضریب a به آن می تواند کاملاً متنوع باشد (به عنوان مثال، با توجه به واریانس تفاوت در قرائت ها در همسایگی M با قرائت مرکزی)، و به هر دو بستگی دارد. اندازه دیافراگم فیلتر و ماهیت تصاویر و نویز. در اصل، مقدار ضریب a باید میزان آسیب به نمونه مرکزی و بر این اساس، تابع قرض گرفتن برای تصحیح نمونه‌های محله M را مشخص کند.

ساده ترین و رایج ترین انواع فیلترهای غیر خطی برای پردازش تصویر، فیلترهای آستانه و میانه هستند.

فیلتر آستانه به عنوان مثال به صورت زیر ارائه می شود:

B(x, y) =

ارزش پآستانه فیلتر است. اگر مقدار نقطه مرکزی فیلتر از مقدار میانگین نمونه mN در مجاورت M با مقدار آستانه بیشتر شود، آنگاه با مقدار متوسط ​​جایگزین می شود. مقدار آستانه می تواند ثابت باشد یا از نظر عملکردی به مقدار نقطه مرکزی وابسته باشد.

فیلترینگ میانه به صورت زیر تعریف می شود:

B(x، y) = med (M(x، y))،

به عنوان مثال، نتیجه فیلتر، مقدار میانه پیکسل های همسایگی است که شکل آن توسط ماسک فیلتر تعیین می شود. فیلتر میانی می تواند به طور موثر نویز را از یک تصویر که به طور مستقل بر پیکسل های فردی تأثیر می گذارد حذف کند. به عنوان مثال، چنین تداخل‌هایی عبارتند از: پیکسل‌های «شکسته» در هنگام عکس‌برداری دیجیتال، نویز «برف»، زمانی که برخی از پیکسل‌ها با پیکسل‌هایی با حداکثر شدت جایگزین می‌شوند، و غیره. جایگزین تیره، و "لکه دار" در اطراف محله.

فیلتر میانه نسبت به عناصر آرایه، که جزء غیر یکنواخت دنباله ای از اعداد در دیافراگم فیلتر هستند، گزینش پذیری مشخصی دارد. در همان زمان، فیلتر میانه مولفه یکنواخت دنباله را بدون تغییر می گذارد. با توجه به این ویژگی، فیلترهای میانی، با دیافراگم انتخاب شده بهینه، لبه های شی تیز را بدون اعوجاج حفظ می کنند، نویزهای نامرتبط یا همبسته ضعیف و جزئیات کوچک را سرکوب می کنند.

فیلترهای افراطی توسط قوانین تعیین می شود:

Bmin(x, y) = min(M(x, y)),

Bmax(x, y) = max (M(x, y))،

یعنی نتیجه فیلتر حداقل و حداکثر مقدارپیکسل ها در ماسک فیلتر چنین فیلترهایی معمولاً برای تصاویر باینری اعمال می شوند.

17.4. فشرده سازی تصویر

یک تصویر معمولی با رزولوشن حدود 3000×2000 در 24 بیت در هر پیکسل برای انتقال رنگ دارای حجم 17 مگابایت است. برای دستگاه های حرفه ای، اندازه شطرنجی تصویر حاصل می تواند بسیار بزرگتر باشد، عمق رنگ تا 48 بیت در هر پیکسل و اندازه یک تصویر می تواند بیش از 200 مگابایت باشد. بنابراین، الگوریتم‌های فشرده‌سازی تصویر برای کاهش داده‌های نمایش‌دهنده یک تصویر بسیار مرتبط هستند.

دو دسته اصلی از الگوریتم ها وجود دارد:

1. فشرده سازی بدون تلفات A (فشرده سازی بدون تلفات)، اگر چنین الگوریتم معکوس A-1 وجود داشته باشد که برای هر h - تصویر A[h] = h1 A-1 = h داشته باشیم. فشرده سازی بدون تلفات در فرمت های گرافیکینمایش تصویر مانند: GIF، PCX، PNG، TGA، TIFF، و هنگام پردازش اطلاعات اولیه با ارزش (تصاویر پزشکی، تصاویر هوایی و فضایی، و غیره) استفاده می شود، زمانی که حتی کوچکترین اعوجاج نامطلوب است.

2. فشرده سازی از دست رفته، در صورتی که توانایی بازیابی دقیق تصویر اصلی را فراهم نکند. الگوریتم تقریبی بازیابی تصویر جفت شده با A به صورت A* نشان داده می شود. جفت (A, A*) برای ارائه نسبت فشرده سازی بالا در عین حفظ کیفیت بصری انتخاب شده است. فشرده سازی با اتلاف در فرمت های گرافیکی اعمال می شود: JPEG، JPEG2000 و غیره.

همه الگوریتم‌ها و عبارات هم برای تصاویر و هم برای دنباله‌های دلخواه اعمال می‌شوند که عناصر آن می‌توانند تعداد محدودی از مقادیر را بگیرند. در عین حال، باید در نظر داشت که هیچ الگوریتم ایده آلی وجود ندارد که بتواند هر مجموعه داده ای را بدون از دست دادن فشرده کند.

تکرار الگوریتم های رمزگذاری طول (RLE). بر اساس اصل ساده: جایگزینی گروه های تکرار شونده از عناصر دنباله اصلی با یک جفت (کمیت، عنصر) یا فقط با یک کمیت.

سطح بیت ما داده های اصلی را در سطح دنباله ای از بیت ها در نظر می گیریم، به عنوان مثال، نشان دهنده یک تصویر سیاه و سفید. معمولاً چندین 0 یا 1 در یک ردیف وجود دارد و می توان تعداد ارقام متوالی یکسان را رمزگذاری کرد. اما تعداد تکرارها نیز باید در بیت کدگذاری شود. می توان در نظر گرفت که هر تعداد تکرار از 0 تا 7 (کد 3 بیتی) تغییر می کند و دنباله کدهای یک و صفر را جایگزین می کند. به عنوان مثال، دنباله ها را می توان با اعداد 7 0 4، یعنی 7 یک، 0 صفر، 4 یک مقایسه کرد، در حالی که ما یک سال جدید داریم - هر چه دنباله بیت های یکسان طولانی تر باشد، تأثیر آن بیشتر است. بنابراین، دنباله ای از 21 یک، 21 صفر، 3 یک و 7 صفر به صورت زیر کدگذاری می شود: یعنی از دنباله اصلی 51 بیتی، دنباله ای 36 بیتی داریم.

سطح بایت بیایید فرض کنیم که ورودی یک تصویر در مقیاس خاکستری است، که در آن 1 بایت برای مقدار شدت پیکسل اختصاص داده می شود، در حالی که انتظار زنجیره طولانی بیت های یکسان به طور قابل توجهی کاهش می یابد.

جریان ورودی را به بایت تقسیم می کنیم (کد از 0 تا 255) و بایت های تکرار شده را به صورت جفت (عدد، حرف) رمزگذاری می کنیم. یک بایت ممکن است اصلاح نشود. بنابراین، بایت های AABBBCDAA (2A) (3B) (C) (D) (2A) را رمزگذاری می کنند.

با این حال، اصلاحات این الگوریتم به ندرت به تنهایی مورد استفاده قرار می گیرند (به عنوان مثال، در قالب PCX)، زیرا زیر کلاس دنباله هایی که الگوریتم روی آنها موثر است نسبتاً باریک است. اغلب آنها به عنوان یکی از مراحل خط لوله فشرده سازی استفاده می شوند.

الگوریتم های دیکشنری به جای رمزگذاری تنها یک عنصر از دنباله ورودی، رمزگذاری زنجیره ای از عناصر انجام می شود. این از فرهنگ لغت رشته ها (ایجاد شده از دنباله ورودی) برای رمزگذاری رشته های جدید استفاده می کند.

الگوریتم LZ77 یکی از اولین الگوریتم هایی بود که از دیکشنری استفاده کرد. N آخرین عناصر از قبل کدگذاری شده دنباله به عنوان فرهنگ لغت استفاده می شود. در طول فشرده سازی، فرهنگ لغت-زیر دنباله "لغزش" روی دنباله ورودی است. زنجیره عناصر در خروجی به صورت زیر کدگذاری می شود: موقعیت قسمت تطبیق زنجیره پردازش شده عناصر در فرهنگ لغت - افست (نسبت به موقعیت فعلی)، طول، اولین عنصر به دنبال قسمت منطبق از زنجیره. طول زنجیره تطبیق از بالا با عدد n محدود می شود. بر این اساس، وظیفه یافتن بزرگترین رشته از فرهنگ لغت است که با دنباله پردازش شده مطابقت دارد. اگر هیچ منطبقی وجود نداشته باشد، آنگاه صفر افست، طول یک و اولین عنصر دنباله رمزگذاری نشده نوشته می شود.

طرح کدگذاری که در بالا توضیح داده شد منجر به مفهوم پنجره کشویی می شود که از دو بخش تشکیل شده است:

دنباله ای از عناصر از قبل رمزگذاری شده با طول N-Dictionary - search buffer.

دنباله ای از طول n از زنجیره عناصری که برای یافتن یک تطابق - بافر برای آنها تلاش می شود. پیش نمایش(بافر نگاه به جلو).

رمزگشایی یک دنباله فشرده رمزگشایی کدهای ضبط شده است: هر ورودی با یک زنجیره از یک فرهنگ لغت و یک عنصر به صراحت نوشته شده تطبیق داده می شود، پس از آن فرهنگ لغت جابجا می شود. فرهنگ لغت با اجرای الگوریتم رمزگشایی دوباره ایجاد می شود.

این الگوریتم نیای یک خانواده کامل از الگوریتم ها است. از مزایای آن می توان به درجه فشرده سازی مناسب در توالی های به اندازه کافی بزرگ و رفع فشار سریع اشاره کرد. از معایب آن می توان به سرعت کم فشرده سازی و نسبت تراکم پایین تر نسبت به الگوریتم های جایگزین اشاره کرد.

الگوریتم LZW. فرهنگ لغت در این الگوریتم جدولی است که با اجرای الگوریتم با زنجیره ای از عناصر پر می شود. فرآیند فشرده سازی به دنبال طولانی ترین رشته ای است که قبلاً در فرهنگ لغت نوشته شده است. هر بار که رشته جدیدی از عناصر در فرهنگ لغت یافت نمی شود، به فرهنگ لغت اضافه می شود و کد رشته ثبت می شود. در تئوری، هیچ محدودیتی برای اندازه جدول وجود ندارد، اما محدود کردن اندازه باعث می‌شود تا با جمع‌آوری رشته‌های غیرضروری (غیر اتفاقی) فشرده‌سازی بهتری انجام شود. هرچه یک جدول ورودی های بیشتری داشته باشد، اطلاعات بیشتری باید به کدهای ذخیره اختصاص داده شود.

رمزگشایی شامل رمزگشایی مستقیم کدها است، یعنی در ساخت یک فرهنگ لغت و خروجی زنجیره های مربوطه. فرهنگ لغت به همان روشی که در رمزگذار وجود دارد مقداردهی اولیه می شود. از مزایای الگوریتم می توان به درجه فشرده سازی بالا و سرعت نسبتاً بالا، هم فشرده سازی و هم رمزگشایی اشاره کرد.

الگوریتم های کدگذاری آنتروپی به هر عنصر دنباله یک کد اختصاص دهید تا طول آن با احتمال وقوع عنصر مطابقت داشته باشد. فشرده سازی با جایگزین کردن عناصر دنباله اصلی که طول یکسانی دارند (هر عنصر تعداد بیت های یکسانی را اشغال می کند) با عناصری با طول های مختلف، متناسب با لگاریتم منفی احتمال، رخ می دهد، یعنی عناصری که بیشتر از سایرین رخ می دهند دارای کد هستند. با طول کمتر

الگوریتم هافمن از یک کد پیشوند با طول متغیر استفاده می کند که دارای ویژگی خاصی است: کدهای کوتاهتر با پیشوند (قسمت اولیه) کدهای طولانی تر مطابقت ندارند. چنین کدی امکان کدگذاری یک به یک را فراهم می کند. فرآیند فشرده سازی شامل جایگزینی هر عنصر از دنباله ورودی با کد آن است. ساخت مجموعه ای از کدها معمولاً با استفاده از به اصطلاح انجام می شود درختان کد.

الگوریتم هافمن دو پاس است. اولین عبور از تصویر، جدول وزن عناصر را ایجاد می کند و در طی عبور دوم، کدگذاری صورت می گیرد. پیاده سازی هایی از الگوریتم جدول ثابت وجود دارد. اغلب اتفاق می افتد که توزیع احتمال پیشینی عناصر الفبا ناشناخته است، زیرا کل دنباله به یکباره در دسترس نیست، در حالی که از اصلاحات تطبیقی ​​الگوریتم هافمن استفاده می شود.

فشرده سازی تصویر از دست رفته مقدار اطلاعات مورد نیاز برای ذخیره تصاویر معمولا زیاد است. الگوریتم‌های کلاسیک، که الگوریتم‌های همه منظوره هستند، در نظر نمی‌گیرند که اطلاعات فشرده شده یک تصویر است - یک شی دو بعدی، و درجه فشرده‌سازی کافی را ارائه نمی‌کند.

فشرده سازی اتلاف بر اساس ویژگی های درک انسان از تصویر است: بیشترین حساسیت در طیف خاصی از طول موج های رنگی، توانایی درک تصویر به عنوان یک کل، بدون توجه به اعوجاج های کوچک. دسته اصلی تصاویری که الگوریتم‌های فشرده‌سازی با اتلاف روی آنها متمرکز شده‌اند، عکس‌ها هستند، تصاویری با انتقال رنگ صاف.

تخمین از دست دادن تصویر معیارهای زیادی برای تخمین تلفات در تصاویر پس از بازیابی (رمزگشایی) آنها از نمونه های فشرده وجود دارد، اما برای همه آنها می توان دو تصویر را انتخاب کرد که اندازه تفاوت آنها به اندازه کافی بزرگ باشد، اما تفاوت ها تقریباً غیرقابل محسوس باشد. چشم. و بالعکس - می توانید تصاویری را انتخاب کنید که با چشم تفاوت زیادی دارند، اما تفاوت کمی دارند.

معیار عددی استاندارد افت معمولاً انحراف استاندارد (RMS) مقادیر پیکسل تصویر بازسازی شده از تصویر اصلی است. با این حال، مهمترین "معیار" ارزیابی ضرر، نظر ناظر است. هر چه ناظر تفاوت های کمتری (یا بهتر، عدم وجود آنها) را تشخیص دهد، کیفیت الگوریتم فشرده سازی بالاتر است. الگوریتم‌های فشرده‌سازی با اتلاف اغلب به کاربر اجازه می‌دهند تا میزان داده‌های «از دست رفته» را انتخاب کند، یعنی حق انتخاب بین کیفیت و اندازه. تصویر فشرده شده. به طور طبیعی، هرچه کیفیت بصری در نسبت فشرده سازی بالاتر بهتر باشد، الگوریتم بهتری خواهد داشت.

تبدیل فوریه. در حالت کلی، تصویر را می توان تابعی از دو متغیر در نظر گرفت که در نقاط شطرنجی نهایی تعریف شده اند. مجموعه ای از این توابع بر روی نقاط یک شطرنجی محدود ثابت یک فضای اقلیدسی محدود بعدی را تشکیل می دهند و تبدیل فوریه گسسته، یعنی نمایش طیفی تصویر را می توان برای آنها اعمال کرد. فراهم می کند:

عدم همبستگی و استقلال ضرایب طیف، یعنی دقت نمایش یک ضریب به دیگری بستگی ندارد.

- تراکم انرژی تبدیل اطلاعات اولیه را در تعداد کمی از ضرایب ذخیره می کند. این ملکبیشتر در تصاویر فوتورئالیستی مشخص است.

ضرایب نمایش طیفی دامنه فرکانس های فضایی تصویر است. در مورد تصاویر با انتقال صاف، بیشتر اطلاعات در طیف فرکانس پایین موجود است.

الگوریتم فشرده سازی مورد استفاده در فرمت JPEG، بر اساس استفاده از تبدیل فوریه کسینوس گسسته ساخته شده است. طرح فشرده سازی در الگوریتم یک خط لوله است که در آن این تبدیل تنها یکی از مراحل است، اما یکی از مراحل اصلی است. این الگوریتم شامل عملیات اصلی زیر است:

1. به فضای رنگی YCbCr منتقل کنید. در اینجا Y جزء luma است، Cb و Cr اجزای کرومینانس هستند. چشم انسان به روشنایی بیشتر از رنگ حساس است. بنابراین، حفظ دقت بیشتر در هنگام ارسال Y نسبت به انتقال Cb و Cr اهمیت بیشتری دارد.

2. تبدیل کسینوس گسسته (DCT). تصویر به بلوک های 8 × 8 تقسیم می شود. یک تبدیل کسینوس گسسته برای هر بلوک اعمال می شود (به طور جداگانه برای مؤلفه های Y، Cb و Cr).

3. کاهش مولفه های فرکانس بالا در ماتریس های DCT. چشم انسان به سختی متوجه تغییرات در اجزای فرکانس بالا می شود، بنابراین، ضرایب مسئول فرکانس های بالا را می توان با دقت کمتری ذخیره کرد.

4. ترتیب زیگزاگی ماتریس ها. این یک پاس ماتریسی ویژه برای به دست آوردن یک دنباله یک بعدی است. ابتدا عنصر T00، سپس T01، T10، T1 می آید.علاوه بر این، برای تصاویر واقعی واقعی، ابتدا ضرایب غیر صفر مربوط به اجزای فرکانس پایین و سپس صفرهای زیادی (مولفه های فرکانس بالا) وجود خواهد داشت.

5. ابتدا فشرده کنید روش RLEو سپس با روش هافمن.

الگوریتم بازیابی تصویر در عمل می کند به صورت برعکس. نسبت تراکم از 5 تا 100 بار یا بیشتر است. در عین حال، کیفیت بصری برای اکثر تصاویر فوتورئالیستی، زمانی که تا 15 بار فشرده می شود، در سطح خوبی باقی می ماند. الگوریتم و قالب متداول ترین برای انتقال و ذخیره تصاویر تمام رنگی است.

تبدیل موجک سیگنال ها تعمیم تبدیل فوریه کلاسیک است. اصطلاح "موجک" (موجک) در ترجمه انگلیسی به معنای "موج کوچک (کوتاه)" است. موجک ها نامی تعمیم یافته برای خانواده هایی از توابع ریاضی با فرم معینی هستند که از نظر زمان و فرکانس محلی هستند و در آنها همه توابع از یک تابع پایه با جابجایی و گسترش آن در امتداد محور زمان به دست می آیند.

در الگوریتم های فشرده سازی با اتلاف، به عنوان یک قاعده، تمام عملیات خط لوله فشرده سازی با جایگزینی تبدیل فوریه گسسته با تبدیل موجک گسسته حفظ می شود. تبدیل های موجک دارای مکان یابی فرکانسی-مکانی بسیار خوبی هستند و در این اندیکاتور از تبدیل های فوریه سنتی پیشی می گیرند. در این مورد، امکان اعمال کوانتیزاسیون قوی‌تر و بهبود خواص دنباله برای فشرده‌سازی بعدی وجود دارد. الگوریتم های فشرده سازی تصویر بر اساس این تبدیل، با همان نسبت فشرده سازی، نشان می دهند بالاترین امتیازهابرای حفظ کیفیت تصویر

ادبیات

46. ​​و همکاران الگوریتم های سریع در پردازش تصویر دیجیتال. - م.: رادیو و ارتباطات، 1984. - 224 ص.

47. پردازش تصویر سویفر. بخش 2. روش ها و الگوریتم ها. - مجله آموزشی سوروس شماره 3، 1996.

48. نویز غضروف از تصاویر بر اساس الگوریتم های غیر خطی با استفاده از آمار رتبه. - دانشگاه دولتی یاروسلاول، 2007.

49. سیستم های نظارت تلویزیونی Andreev. قسمت دوم. حساب - مبانی و الگوریتم های منطقی. آموزش. - سن پترزبورگ: سن پترزبورگ، GUITMO، 2005. - 88s.

51. مقدمه ای بر پردازش سیگنال دیجیتال (مبانی ریاضی) - M.: دانشگاه دولتی مسکو، آزمایشگاه گرافیک کامپیوتری و چند رسانه ای، 2002. - http://pv. *****/dsp/dspcourse. pdf، http://dsp-book. *****/dspcourse. djvu، http://geogin. *****/archiv/dsp/dsp4.pdf.

1i. و سایر مبانی الگوریتمی گرافیک شطرنجی. – دانشگاه فناوری اطلاعات اینترنتی. – http://www. *****/goto/course/rastergraph/

2i. لوکین -سیستم های الکترونیکی: یادداشت های سخنرانی. ITMO، 2004. - سنت پترزبورگ، ITMO IFF، 2004. - http://iff. *****/kons/oes/KL. htm

در مورد خطاهای مشاهده شده و پیشنهادات برای اضافات: *****@***ru.

کپی رایت©2008داویدوفولی.V.

1

این مقاله الگوریتم‌های پردازش تصویر را برای ربات‌های موبایل هوشمند بر اساس منطق فازی و شبکه های عصبی، انتخاب مرزها را در تصویر با استفاده از عملگر Sobel فراهم می کند. ماهیت پردازش تصویر این است که تصویر اصلی صحنه را به شکلی بیاوریم که امکان حل مشکل تشخیص اشیاء آن را فراهم کند. مشکلات اصلی و همچنین راه هایی برای حل آنها در هنگام آماده سازی اولیه یک تصویر برای تشخیص در نظر گرفته شده است. الگوریتم پیش پردازش با استفاده از منطق فازی و فرآیند باینری سازی تصویر به تفصیل تجزیه و تحلیل می شود. یک الگوریتم پردازش فازی برای استخراج مرزها در یک تصویر با استفاده از عملگر Sobel ساخته شده است.

پردازش تصویر

منطق فازی

سیستم هوشمند

تشخیص شی

1. Vesnin E.N.، Veto A.V.، Tsarev V.A. در مبحث توسعه و کاربرد سیستم های بینایی اپتوالکترونیک تطبیقی// اتوماسیون در صنعت، 1388.- شماره 11.- ص 48-52.

2. گریشین V.A. سیستم های بینایی در حل مشکلات کنترل وسایل نقلیه هوایی بدون سرنشین // سنسورها و سیستم ها، شماره 2، 2009.- C. 46-52.

3. Klevalin V.A., Polivanov A.Yu. روش‌های تشخیص دیجیتال در سیستم‌های بینایی روبات صنعتی// مکاترونیک، اتوماسیون، کنترل، 2008، شماره 5.- ص 56-56.

4. Mikhailov S.V., Romanov V.V., Zaikin D.A. سیستم بینایی برای تشخیص فرآیند برش مواد // بولتن کامپیوتر و فناوری اطلاعات، 2007، شماره 3.- S. 12-19.

5. سمین م.س. بررسی اجمالی حل مشکلات کاربردی با کمک سیستم های بینایی// http://www.videoscan.ru/page/718#13.

در حال حاضر، پردازش خودکار تصویر یکی از مهم ترین حوزه ها در زمینه هوش مصنوعی است و شامل توسعه سیستم های رباتیکی است که تشخیص تصویر را انجام می دهند. یکی از موثرترین ابزارها برای تشخیص الگو، سیستم هایی است که بر اساس منطق فازی و شبکه های عصبی مصنوعی ساخته شده اند. در یک سیستم بینایی فنی (VTS)، چندین روش و الگوریتم برای حل یک مشکل مورد نیاز است روش های مختلف، ضمن ارائه شاخص های لازم برای سرعت و قابلیت اطمینان شناسایی.

ماهیت الگوریتم پردازش تصویر ترکیبی در VS سیستم‌های رباتیک متحرک (MRC) این است که تصویر اصلی صحنه را به شکلی بیاورد که امکان حل مشکل تشخیص اشیاء آن را فراهم کند.

الگوریتم پیش پردازش تصویر با استفاده از سیستم فازی در VS

برای پردازش تصویر، پردازش فازی انواع رویکردهای فازی مختلف است که عبارتند از درک، نمایش، پردازش تصویر، بخش‌ها و مجموعه‌های فازی. در فرآیند تشخیص الگو، فرآیند پردازش اولیه تصویر فازی از اهمیت بالایی برخوردار است، زیرا کیفیت داده‌هایی که بیشتر به ورودی‌های شبکه عصبی وارد می‌شوند به آن بستگی دارد. در چارچوب مسئله در حال حل، الگوریتم توسعه‌یافته برای پردازش فازی اولیه می‌تواند به صورت دنباله‌ای از مراحل زیر نمایش داده شود (شکل 1): ضبط تصویر با استفاده از یک وب‌کم. تبدیل تصویر رنگی حاصل به یک تصویر خاکستری؛ پردازش تصویر فازی

برنج. 1. الگوریتم برای پردازش تصویر فازی اولیه

بنابراین، اولین مرحله در پردازش پیش فازی، تبدیل تصویر از رنگ به مقیاس خاکستری است. تبدیل رنگ های تصویر به مقیاس خاکستری به صورت زیر انجام می شود. کل پالت رنگ به صورت یک مکعب نشان داده می شود که رئوس آن با رنگ های مختلف مطابقت دارد. مقیاس خاکستری در مورب مکعبی قرار دارد که رئوس سیاه و سفید را به هم متصل می کند.

برای تبدیل یک تصویر به مقیاس خاکستری، شدت مولفه های قرمز، سبز و آبی رنگ برای هر نقطه از تصویر انتخاب می شود و سپس رنگ مطابق فرمول زیر تبدیل می شود:

مقدار رنگ جدید کجاست، شدت جزء قرمز رنگ، شدت جزء سبز رنگ و شدت جزء آبی رنگ است. خروجی هر الگوریتم مقیاس خاکستری بین 0 و 1 است. چندین روش برای تبدیل تصاویر فقط به مقیاس خاکستری وجود دارد. روش تعیین روشنایی از مقدار متوسط ​​بین دو رنگ با بیشترین و کم اهمیت ترین رنگ استفاده می کند: . روش میانگین از میانگین هر سه رنگ استفاده می کند: . روش روشنایی از میانگین وزنی هر سه رنگ برای توضیح درک انسان استفاده می کند. بنابراین، از آنجایی که چشم انسان بیشتر پذیرای رنگ سبز است، وزن آن از همه مهمتر محسوب می شود: . روش تشخیص روشنایی استفاده شده است نرم افزاربرای پردازش تصویر تابع " rgb2gray" در محیط MATLAB و اغلب برای بینایی کامپیوتر استفاده می شود. در پیش پردازش فازی، دارای فرآیند تبدیل تصاویر از رنگ (RGB) به مقیاس خاکستری با استفاده از روش تشخیص روشنایی است. سپس، تصویر از مقیاس خاکستری به سیاه و سفید تبدیل می شود (شکل 2).

برنج. 2. فرآیند تبدیل تصاویر از رنگ به مقیاس خاکستری

باینری شدن تصویر در حین پیش پردازش

هدف از پردازش اولیه تصویر فازی، شکل‌گیری و بهبود متعاقب آن تصویر، باینریزه کردن و کدگذاری آن (به ویژه به دست آوردن یک نمایش کانتور) است. باینریزه شدن تصویر فرآیند تبدیل یک تصویر متشکل از درجه بندی یک رنگ (در مورد ما خاکستری) به یک تصویر باینری است، یعنی. تصویری که در آن هر پیکسل می تواند تنها دو رنگ داشته باشد (در مورد ما، اینها سیاه و سفید هستند). در نتیجه چنین تبدیلی، رنگ یک پیکسل به طور مشروط برابر با صفر یا یک در نظر گرفته می شود، در حالی که پیکسل هایی با مقدار صفر (در این مورد، پیکسل های سفید هستند) پس زمینه و پیکسل هایی با مقدار برابر با یک (سیاه) پیش زمینه نامیده می شود. اما تصویر باینری به دست آمده در نتیجه چنین تبدیلی در مقایسه با تصویر اصلی تحریف شده است که با ظاهر شکاف ها و تاری ها روی اشیاء، ظهور نویز تصویر در مناطق همگن و همچنین از دست دادن یکپارچگی مشخص می شود. از ساختار شی

از دست دادن یکپارچگی جسم، و همچنین پاره شدن جسم، به دلایلی مانند نور ناهموار زیاد جسم یا لمس کردن (یا روی هم قرار گرفتن اجسام روی هم) ایجاد می شود. این پوشش (یا لمس - به عنوان یک مورد خاص از همپوشانی) است که باعث دشواری خاصی در پردازش می شود. از یک طرف، تصویر چندین شی را می توان به عنوان یک شی تفسیر کرد و از طرف دیگر، الگوریتم هایی که یکپارچگی هندسی جسم را بررسی می کنند، در نقاط همپوشانی شکاف ایجاد می کنند و این مناطق را به عنوان پس زمینه ارائه می دهند. پیچیدگی پردازش در فقدان یک راه حل نظری برای مشکل تفسیر همپوشانی اشیاء نهفته است، زیرا بخشی از اطلاعات از بین رفته است. در اجرای الگوریتم ها در عمل، یکی از گزینه های مشخص شده به عنوان تصمیم درست اتخاذ می شود - یا تقاطع ادامه شیء فعلی در نظر گرفته می شود، یا ناحیه پوشش پس زمینه در نظر گرفته می شود.

Thresholding یک تصویر رنگی یا خاکستری را به تصویر سیاه و سفید تبدیل می کند. تبدیل‌های آستانه به دلیل ویژگی‌های بصری و سهولت پیاده‌سازی، برای مشکلات کاربردی تقسیم‌بندی تصویر مرکزی هستند. برای هر پیکسل در تصویر، سطح شدت آن بررسی می شود، اگر مقدار آن بالاتر از یک سطح آستانه باشد، با رنگ سفید مطابقت دارد. اگر زیر آستانه تنظیم شده باشد، روی سیاه تنظیم می شود. سطح آستانه بین 0 تا 255 خواهد بود.

در حال حاضر، تعداد زیادی روش باینریزه کردن وجود دارد. ماهیت این تغییر شکل تصاویر شطرنجی است تحلیل مقایسه ایروشنایی پیکسل فعلی با مقداری آستانه: اگر روشنایی پیکسل فعلی از مقدار آستانه بیشتر شود، به عنوان مثال. ، سپس رنگ پیکسل در تصویر باینری سفید و در غیر این صورت رنگ سیاه خواهد شد. سطح آستانه ماتریسی است که ابعاد آن با بعد تصویر اصلی مطابقت دارد.

در فرآیند باینری سازی، تمام روش ها با توجه به اصل ساخت سطح آستانه به دو گروه تقسیم می شوند - اینها روش های پردازش جهانی و محلی باینری سازی هستند. در روش‌های پردازش دوتایی جهانی، سطح آستانه صفحه‌ای است با مقدار ثابت روشنایی آستانه، یعنی. مقدار آستانه بر اساس تجزیه و تحلیل هیستوگرام کل تصویر محاسبه می شود و برای تمام پیکسل های تصویر اصلی یکسان است. آستانه جهانی یک اشکال قابل توجه دارد - اگر تصویر اصلی دارای روشنایی غیر یکنواخت باشد، مناطقی که نور ضعیفی دارند کاملاً به عنوان پیش زمینه طبقه بندی می شوند. در روش‌های پردازش باینری‌سازی محلی، مقدار آستانه برای هر نقطه بر اساس برخی ویژگی‌های ناحیه متعلق به محله‌ای از نقطه داده شده تغییر می‌کند. عیب این نوع تبدیل است سرعت کمکار الگوریتم های مرتبط با محاسبه مجدد مقادیر آستانه برای هر نقطه از تصویر.

به عنوان روشی برای حل مسئله از روش برنسن استفاده می کنیم. این روش مبتنی بر ایده مقایسه سطح روشنایی پیکسل تبدیل شده با مقادیر میانگین های محلی محاسبه شده در محیط آن است. پیکسل های تصویر یک به یک با مقایسه شدت آنها با مقادیر متوسط ​​روشنایی در پنجره های متمرکز در نقاط پردازش می شوند (شکل 3).

برنج. 3. تبدیل پیکسل تصویر

الگوریتم پردازش فازی برای استخراج لبه و تقسیم‌بندی تصویر

پس از تبدیل تصویر به سیاه و سفید، یک تصویر گرادیان با استفاده از عملگر Sobel به دست می آید و به ورودی های پردازش تصویر فازی (FP) تغذیه می شود (شکل 4).

پردازش تصویر فازی از سه مرحله اصلی تشکیل شده است: فازی سازی تصویر، سیستم استنتاج فازی بر روی مقادیر عضویت و فازی سازی تصویر. پردازش تصویر فازی اصلی در مرحله میانی (سیستم استنتاج فازی) است. پس از انتقال داده های تصویر از سطح خاکستری به فازی سازی، سیستم استنتاج فازی توسط مقادیر عضویت تعیین می شود. فازی سازی رمزگذاری داده های تصویر است و فازی سازی رمزگشایی نتایج است که امکان پردازش تصاویر با روش های فازی را فراهم می کند.

تصویر - اندازه با سطوح خاکستری و می تواند به عنوان یک مجموعه یک نقطه ای فازی آرایه تعریف شود (مجموعه های فازی فقط با یک نقطه پشتیبانی می شوند) که مقدار عضویت هر پیکسل را در رابطه با ویژگی های قبل از تصویر (به عنوان مثال روشنایی، صافی و غیره) نشان می دهد.

(1)

که در آن و متعلقات پیکسل در نماد مجموعه های فازی هستند. تعریف مقادیر عضویت به نیازهای خاص برنامه خاص و به پایگاه دانش مربوطه بستگی دارد.

خروجی سیستم برای سیستم ورودی با فرمول زیر ارائه می شود:

(2)

برنج. 4. الگوریتم پردازش تصویر فازی برای تشخیص لبه

کاربرد شبکه های عصبی برای تشخیص الگو

پرسپترون چندلایه یک شبکه عصبی مصنوعی متشکل از چندین گره ورودی است که یک لایه ورودی، یک یا چند لایه محاسباتی از نورون ها و یک لایه خروجی را تشکیل می دهند (شکل 6). در چنین شبکه هایی، سیگنال اعمال شده به لایه ورودی به صورت متوالی در جهت رو به جلو از لایه ای به لایه دیگر منتقل می شود. این نوع ANN به طور موفقیت آمیزی برای حل مشکلات مختلف، به ویژه برای مشکل تشخیص الگو استفاده شده است.

شبکه عصبی پس انتشار از چندین لایه نورون تشکیل شده است که هر نورون لایه قبلی به هر نورون لایه بعدی متصل است. در این گونه شبکه ها، پس از تعیین تعداد لایه ها و تعداد عناصر هر لایه، باید مقادیر وزن ها و آستانه های شبکه را به گونه ای محاسبه کرد که خطای پیش بینی به حداقل برسد. این مشکل با استفاده از الگوریتم های یادگیری مختلف حل می شود. ماهیت این الگوریتم ها تناسب شبکه با داده های آموزشی است. خطای شبکه پیاده سازی شده با اجرای تمام داده های ورودی و مقایسه مقادیر واقعی به دست آمده در خروجی شبکه با مقادیر هدف مشخص می شود. سپس تفاوت‌های به‌دست‌آمده در یک تابع معمولی به اصطلاح خطا خلاصه می‌شوند که مشخص می‌کند اشتباه رایجشبکه های. اما اغلب، به عنوان تابعی از خطاها، مجموع مجذور خطاها گرفته می شود.

یکی از رایج ترین الگوریتم های یادگیری برای شبکه های عصبی چند لایه، الگوریتم پس انتشار است. در این الگوریتم بردار گرادیان سطح خطا محاسبه می شود. سپس مقدار مشخصی را در جهت بردار حرکت می دهیم (مسیر شیب دارترین نزول را به ما نشان می دهد) ، جایی که مقدار خطا قبلاً کمتر خواهد بود. چنین پیشرفت مداوم به تدریج منجر به به حداقل رساندن خطا می شود. در اینجا مشکل با تعیین مقدار پیش می آید. اگر اندازه پله نسبتاً بزرگ باشد، این منجر به سریعترین فرود می شود، اما احتمال "پرش" وجود دارد.

اگر سطح شکل نسبتاً پیچیده ای داشته باشد، نقطه مورد نظر یا در جهت اشتباه بروید. به عنوان مثال، اگر سطح یک دره باریک با شیب های تند باشد، الگوریتم بسیار آهسته حرکت می کند و از یک شیب به شیب دیگر می پرد. اگر اندازه گام کوچک باشد، این منجر به یافتن بهینه ترین جهت می شود، اما می تواند تعداد تکرارها را به میزان قابل توجهی افزایش دهد. برای دستیابی به بهینه ترین نتیجه، اندازه گام متناسب با شیب شیب با یک ثابت معین - نرخ یادگیری گرفته می شود. انتخاب این ثابت به صورت تجربی انجام می شود و به شرایط یک مسئله خاص بستگی دارد.

اجازه دهید نماد زیر را معرفی کنیم. ماتریس ضرایب وزن از ورودی ها به لایه پنهان با نشان داده می شود و ماتریس وزن هایی که لایه های مخفی و خروجی را به هم متصل می کند با نشان داده می شود. ما از نماد زیر برای شاخص ها استفاده می کنیم: ورودی ها را فقط با شاخص، عناصر لایه پنهان را با شاخص و خروجی ها را با شاخص شماره گذاری می کنیم. تعداد ورودی‌های شبکه، تعداد نورون‌های لایه پنهان، تعداد نورون‌های لایه خروجی است. اجازه دهید شبکه بر روی نمونه آموزش داده شود. سپس الگوریتم یادگیری برای پرسپترون چندلایه به شکل زیر خواهد بود:

مرحله 1. مقداردهی اولیه شبکه. به ضرایب وزن مقادیر تصادفی کوچکی اختصاص داده می شود، به عنوان مثال، از محدوده (-0.3، 0.3). تنظیم شده است - پارامتر دقت یادگیری، - پارامتر نرخ یادگیری (به عنوان یک قاعده، و هنوز هم می تواند در فرآیند یادگیری کاهش یابد)، - حداکثر تعداد مجاز تکرار.

مرحله 2. سیگنال خروجی فعلی را محاسبه کنید. یکی از تصاویر نمونه آموزشی به ورودی شبکه داده می شود و مقادیر خروجی تمام نورون های شبکه عصبی تعیین می شود.

مرحله 3. تنظیم وزن همدیدی. تغییر وزن لایه خروجی شبکه عصبی را با استفاده از فرمول های زیر محاسبه کنید:

جایی که ، . تغییر وزن لایه پنهان را با استفاده از فرمول های زیر محاسبه کنید: ، جایی که

مرحله 4. مراحل 2-3 برای همه بردارهای آموزشی تکرار می شود. آموزش زمانی به پایان می رسد که مقدار تابع خطا برای هر یک از تصاویر آموزشی از e تجاوز نکند یا پس از حداکثر تعداد مجاز تکرار انجام شود.

در مرحله 2، بهتر است بردارها از دنباله آموزش به ورودی به ترتیب تصادفی ارائه شوند.

تعداد ورودی ها و خروجی های شبکه، به عنوان یک قاعده، توسط شرایط مشکل تعیین می شود و اندازه لایه پنهان به صورت تجربی پیدا می شود. معمولا تعداد نورون های موجود در آن 30-50 درصد تعداد ورودی ها است. تعداد زیادی نورون در لایه پنهان باعث می شود که شبکه توانایی تعمیم خود را از دست بدهد (به سادگی عناصر نمونه آموزشی را به طور کامل به خاطر می آورد و به نمونه های مشابه پاسخ نمی دهد، که برای کارهای شناسایی غیرقابل قبول است). اگر تعداد نورون ها در لایه پنهان خیلی کم باشد، شبکه به سادگی نمی تواند یاد بگیرد.

نتیجه

مشکلات اصلی و همچنین راه هایی برای حل آنها در هنگام آماده سازی اولیه یک تصویر برای تشخیص در نظر گرفته شده است. الگوریتم پیش پردازش با استفاده از منطق فازی و فرآیند باینری سازی تصویر به تفصیل تجزیه و تحلیل می شود. یک الگوریتم پردازش فازی برای استخراج مرزها در یک تصویر با استفاده از عملگر Sobel ساخته شده است.

داوران:

گاگارینا L.G.، دکترای علوم فنی، استاد، رئیس گروه انفورماتیک و نرم افزار سیستم های محاسباتی» دانشگاه ملی تحقیقات MIET، مسکو.

Portnov E.M.، دکترای علوم فنی، استاد گروه انفورماتیک و نرم افزار برای سیستم های محاسباتی، رئیس آزمایشگاه تحقیقاتی "سیستم های اطلاعات کنترل" دانشگاه ملی تحقیقاتی "MIET" مسکو.

پیوند کتابشناختی

Aung Ch.H.، Tant Z.P.، Fedorov A.R.، Fedorov P.A. توسعه الگوریتم های پردازش تصویر برای ربات های تلفن همراه هوشمند بر اساس منطق فازی و شبکه های عصبی // مسائل معاصرعلم و آموزش - 2014. - شماره 6.;
آدرس اینترنتی: http://science-education.ru/ru/article/view?id=15579 (تاریخ دسترسی: 2020/01/02). مجلات منتشر شده توسط انتشارات "آکادمی تاریخ طبیعی" را مورد توجه شما قرار می دهیم.

ماهیت پردازش تصویر این است که تصویر اصلی صحنه را به شکلی بیاوریم که امکان حل مشکل تشخیص اشیاء آن را فراهم کند.

هدف نهایی پردازش تصویر در VS آماده سازی اشیاء صحنه برای تشخیص است، به عنوان مثال، تخصیص تصاویر خود به برخی از کلاس های از پیش تعیین شده. علیرغم تنوع رویه‌های تبدیل اطلاعات ارائه شده، سه مرحله پردازش اصلی معمولاً در VS متمایز می‌شوند:

1) پیش پردازش تصویر؛

2) تقسیم بندی؛

3) توضیحات

پیش پردازش نیز به نوبه خود دارای دو مرحله اساسی است: تشکیل تصویر و رمزگذاری آن (فشرده سازی). توالی مراحل سخت نیست و به کار خاص بستگی دارد.

پیش پردازش تصویر

تمام روش های پیش پردازش تصویر در VS به دو روش فضایی و فرکانسی تقسیم می شوند. روش‌های فضایی رویه‌هایی هستند که مستقیماً روی پیکسل‌های یک تصویر عمل می‌کنند. روشنایی به عنوان مشخصه یک تصویر استفاده می شود. Y (x، y).روش‌های فرکانس با ترجمه تصویر به صفحه مختلط با استفاده از تبدیل فوریه مرتبط هستند.

هنگام در نظر گرفتن روش‌های پیش پردازش، ما خود را فقط به روش‌های فضایی محدود می‌کنیم و تصویر اصلی در مقیاس خاکستری در نظر گرفته می‌شود.

در مرحله اول پیش پردازش، شکل گیری تصویرتشکیل تصویر روشی است برای به دست آوردن مستقیم یک تصویر به شکل آرایه ای از عناصر گسسته واقع در حافظه پردازنده ویدئو - پیکسل هایی که یک ماتریس یا کانتور را تشکیل می دهند.

در STZ در مرحله تشکیل تصویر با تنظیم روشنایی یک آستانه روشنایی انتخاب شده و تصویر فیلتر می شود.

فیلتراسیونتصویر طولانی ترین و پیچیده ترین مرحله پیش پردازش است. به طور کلی، فیلتر کردن وظایف اصلی زیر را حل می کند:

صاف کردن (سرکوب نویز با فرکانس بالا مانند "برف")؛

افزایش کنتراست؛

انتخاب کانتور

روش هموارسازی بلافاصله پس از انتخاب آستانه روشنایی اجرا می شود. معنای آن در میانگین گیری مقادیر تابع روشنایی طبق قانون خاصی است Y(X, y)داخل قطعه تحلیل شده تصویر

یک فیلتر پایین گذر برای حذف تداخل فرکانس بالا از نوع "برف" استفاده می شود. عیب فیلتر پایین گذربدتر شدن کنتراست تصویر است.

تقسیم بندی



در نتیجه پیش پردازش، تصویر حاوی یک یا چند نمایش کانتور از اشیا است. روش جداسازی این خطوط و ارتباط آنها با اشیاء خاص نامیده می شود تقسیم بندی

اگر از قبل مشخص شود که تصویر حاوی چندین شی است، روش تقسیم بندی پس از استخراج کانتور قبل از مرحله رمزگذاری تصویر انجام می شود.

الگوریتم های تقسیم بندی، به عنوان یک قاعده، بر اساس جستجوی ناپیوستگی ها در کانتور و شباهت مناطق است. در حالت اول، کانتور پیدا می شود و بای پس نرم افزاری آن طبق قانون تعیین شده انجام می شود. اگر کانتور بسته باشد، متعلق به شی محسوب می شود. در حالت دوم، مناطقی از تصویر که دارای ویژگی های مشترک هستند (مثلاً روشنایی یکسان پیکسل ها) تعیین می شوند. هنگامی که چنین مناطقی یافت می شوند، یا به پس زمینه یا به شی اختصاص داده می شوند.

رمزگذاری تصویر

برای سیستم هایی که تصاویر در مقیاس خاکستری را با روش های فضایی پردازش می کنند، دو روش اصلی رمزگذاری وجود دارد:

· کدگذاری خود تصویر به روش کدهای طول اجرا.

· کدگذاری کانتور تصویر توسط کد زنجیره ای فریمن.

در هر دو مورد، هنگام رمزگذاری، کاهش قابل توجهی در مقدار داده های مشخص کننده تصویر وجود دارد. کارایی رمزگذاری با درجه فشرده سازی تصویر تعیین می شود.

ماهیت کدگذاری با روش کدها طول سری،پیاده سازی شده با استفاده از الگوریتم RLE، برای نشان دادن تصویر به عنوان بخش های همگن از خط اسکن است که در آن روشنایی و رنگ پیکسل ها یکسان است. هر سریال مشخص می شود مقدار مربوطهو طول سری (تعداد پیکسل).

برای رمزگذاری مستقیم کانتور تصویر، اغلب از زنجیره استفاده می شود. کد فریمن(شکل 6.22، ب).در این حالت، کانتور جسم، که از یک نقطه مشخص شروع می‌شود، با دنباله‌ای از بردارها که مقادیر گسسته را می‌گیرند، با زاویه شیب مدول بر 45 تقسیم می‌شود. اگر زاویه شیب بردار 45 باشد، مقدار مدول 2 است. و 1 اگر در حالت عمودی یا افقی باشد. تغییر جهت بردار در طول انتقال از یک نقطه منحنی به نقطه دیگر منعکس کننده ماهیت تغییر در منحنی مدل شده است.



توضیحات تصویر

زیر شرح تعریف پارامترهای مشخصه یک شی درک می شود - نشانه ها(تبعیض کنندگان) لازم برای انتخاب آن از بین همه کسانی که صحنه را تشکیل می دهند.

علائم با توجه به ماهیت فیزیکی خود به جهانی و محلی تقسیم می شوند. ویژگی جهانی images یک ویژگی است که برای هر تصویری از یک شی قابل محاسبه است.

علائم محلیکمتر استفاده شده؛ آنها نه کل تصویر، بلکه تنها بخشی از آن را مشخص می کنند. اینها شامل زاویه بین دو خط کانتور، تعداد و پارامترهای سوراخ‌ها در تصویر جسم و غیره است.

تشخیص تصویر

به رسمیت شناختنفرآیندی است که در آن، بر اساس مجموعه ای از ویژگی های یک تصویر معین از یک شی، تعلق آن به یک کلاس مشخص مشخص می شود.

Recognition عملکرد تجزیه و تحلیل تصویر بصری را اجرا می کند.

به طور متعارف، تمام روش های تشخیص را می توان به دو گروه تئوری و ساختاری تقسیم کرد. رایج ترین روش های تشخیص نظری از اصول تئوری تصمیم استفاده می کنند.

تعیین ارزش واقعی ویژگی های یک شی غیرممکن است، زیرا مقادیر با هر اندازه گیری متفاوت است. بنابراین، وظیفه تشخیص به صورت زیر مطرح می شود: برای تعیین احتمال تعلق یک شی به یک کلاس معین.

یکی از جالب ترین زمینه های تشخیص الگو در VS مربوط به توسعه الگوریتم های تشخیص چهره است. الگوریتم تشخیص (تأیید) به الگوریتم ثبت نزدیک است. ویژگی های استخراج شده از تصویر فعلی در یک بردار ویژگی ترکیب می شوند که اجزای آن با اجزای مربوطه همه بردارهای موجود در پایگاه داده مقایسه می شود.