Xử lý hình ảnh trong Python: từ thuật toán đến công cụ

Công nghệ

815

Xử lý hình ảnh là kỹ thuật cốt lõi của thị giác máy tính, giúp phát triển nhiều ứng dụng thực tế như robot, ô tô tự lái và camera thông minh, phát hiện đối tượng,…. Xử lý ảnh cho phép chuyển đổi và thao tác trên hàng nghìn ảnh cùng lúc, từ đó trích xuất những thông tin chi tiết và quan trọng. Bài viết này sẽ cùng bạn khám phá về xử lý hình ảnh bằng Python: từ thuật toán, công cụ đến phương pháp hữu dụng. Cùng lưu lại và tham khảo thêm nhé!

Danh mục

Các thuật toán xử lý hình ảnh cổ điển

1. Xử lý ảnh hình thái học (Morphological Image Processing)

2. Xử lý hình ảnh Gaussian

3. Fourier Transform trong xử lý ảnh

4. Phát hiện cạnh trong xử lý ảnh

5. Xử lý hình ảnh Wavelet

Các công cụ xử lý hình ảnh

Các thuật toán xử lý hình ảnh cổ điển

1. Xử lý ảnh hình thái học (Morphological Image Processing)

Morphological Image Processing gồm các phép toán phi tuyến tính (non-linear) tác động đến hình dạng hoặc hình thái của ảnh nhị phân. Thuật toán này loại bỏ các điểm nhiễu và làm mịn hình ảnh.

Xử lý hình thái học cũng có thể được mở rộng cho hình ảnh thang độ xám. Nó bao gồm những thao tác phi tuyến tính liên quan đến cấu trúc của các vị trí trong ảnh, phụ thuộc vào thứ tự pixel. Kỹ thuật này phân tích một hình ảnh bằng cách sử dụng phần tử cấu trúc (structuring element) đặt ở những vị trí khác nhau trong hình ảnh và được so sánh với các pixel lân cận tương ứng. Phần tử cấu trúc là một ma trận nhỏ với các giá trị 0 và 1.

Hai thao tác cơ bản của quá trình xử lý hình thái học là Dilation (phép giãn) và Erosion (phép co)

- Phép giãn thêm pixel vào ranh giới của đối tượng trong một hình ảnh

- Phép co loại bỏ các pixel khỏi ranh giới đối tượng.

Số lượng pixel được xóa hoặc thêm vào hình ảnh gốc phụ thuộc vào kích thước của phần tử cấu trúc.

2. Xử lý hình ảnh Gaussian

Gaussian blur (làm mờ/mịn Gaussian) là kết quả của việc làm mờ hình ảnh bởi một hàm Gaussian.

Kỹ thuật này được sử dụng để giảm nhiễu ảnh và các chi tiết. Hiệu ứng hình ảnh của kỹ thuật Gaussian tương tự như việc nhìn một hình ảnh qua màn hình mờ. Trong thị giác máy tính, Gaussian được sử dụng để tăng cường hình ảnh ở các quy mô khác nhau hoặc như một kỹ thuật tăng cường dữ liệu trong học sâu.

Hàm gaussian cơ bản được biểu diễn như sau:

Trong thực tế, có thể tận dụng đặc tính có thể phân tách của Gaussian blur để chia quá trình thành 2 lần. Lần đầu tiên, kernel một chiều (nhân hệ điều hành) được sử dụng để làm mờ hình ảnh chỉ theo hướng ngang hoặc dọc. Lần thứ hai, kernel một chiều tương tự được dùng để làm mờ theo hướng còn lại. Kết quả thu được là kernel hai chiều. Dưới đây là một ví dụ trực quan để hiểu tác động của bộ lọc Gaussian đối với hình ảnh

Có thể thấy, Gaussian filter là bộ lọc thông thấp, tức là làm suy yếu các tần số cao. Nó thường được sử dụng trong phát hiện cạnh.

3. Fourier Transform trong xử lý ảnh

Phép biến đổi Fourier chia hình ảnh thành các thành phần sin và cosin. Nó có nhiều ứng dụng như tái tạo hình ảnh, nén hình ảnh hoặc lọc hình ảnh.

Một hình sin bao gồm ba yếu tố:

- Độ lớn – liên quan đến độ tương phản

- Tần số không gian – liên quan đến độ sáng

- Pha – liên quan đến thông tin màu

Hình ảnh trong miền tần số biểu thị như sau:

Công thức cho phép biến đổi fourier rời rạc 2D là:

Trong công thức trên, f (x, y) biểu thị hình ảnh.

Phép biến đổi fourier nghịch đảo chuyển phép biến đổi trở lại hình ảnh. Công thức cho phép biến đổi fourier rời rạc nghịch đảo 2D là:

4. Phát hiện cạnh trong xử lý ảnh

Phát hiện cạnh là một kỹ thuật xử lý hình ảnh để tìm ranh giới của các đối tượng trong hình ảnh. Nó hoạt động bằng cách phát hiện những điểm không liên tục về độ sáng. Thuật toán này có thể nhanh chóng phản ứng nếu phát hiện một số nhiễu trong ảnh đồng thời phát hiện các biến thể của mức xám. Các cạnh được định nghĩa là cực đại cục bộ của gradient.

Thuật toán phát hiện cạnh phổ biến nhất là thuật toán phát hiện cạnh sobel. Toán tử phát hiện Sobel được tạo thành từ các hạt nhân chập 3 * 3. Một kernel đơn giản Gx và một kernel xoay 90 độ Gy. Các phép đo riêng biệt được thực hiện bằng cách áp dụng cả hai kernel riêng biệt vào hình ảnh.

* biểu thị phép toán tích chập xử lý tín hiệu 2D.

Gradient kết quả có thể được tính như sau:

5. Xử lý hình ảnh Wavelet

Phép biến đổi Fourier chỉ giới hạn ở tần số, trong khi đó Wavelet xem xét cả thời gian và tần suất. Biến đổi này phù hợp với các tín hiệu không cố định.

Cạnh là một trong những phần quan trọng của hình ảnh, tuy nhiên, khi áp dụng các bộ lọc truyền thống, nhiễu được loại bỏ nhưng hình ảnh bị mờ. Biến đổi Wavelet được thiết kế để có được độ phân giải tần số tốt cho các thành phần tần số thấp. Dưới đây là ví dụ về biến đổi wavelet 2D

Các công cụ xử lý hình ảnh

1. OpenCV

OpenCV là viết tắt của Open Source Computer Vision Library. Thư viện này bao gồm khoảng hơn 2000 thuật toán được tối ưu hóa hữu ích cho thị giác máy tính và học máy. Có một số cách bạn có thể sử dụng OpenCV trong xử lý hình ảnh như sau:

- Chuyển đổi hình ảnh từ không gian màu này sang không gian màu khác, chẳng hạn như giữa BGR và HSV, BGR và màu xám, v.v.

- Thực hiện ngưỡng trên hình ảnh, như, ngưỡng đơn giản, ngưỡng thích ứng, v.v.

- Làm mịn hình ảnh, như, áp dụng các bộ lọc tùy chỉnh cho hình ảnh và làm mờ hình ảnh.

- Thực hiện các phép toán hình thái trên ảnh.

- Xây dựng hình kim tự tháp.

- Trích xuất tiền cảnh từ hình ảnh bằng thuật toán GrabCut.

- Phân đoạn ảnh sử dụng thuật toán watershed.

2. Hình ảnh Scikit

Scikit là một thư viện mã nguồn mở được sử dụng để tiền xử lý hình ảnh. Nó sử dụng học máy với các chức năng tích hợp và có thể thực hiện các hoạt động phức tạp trên hình ảnh chỉ với một vài chức năng.

Scikit hoạt động với các mảng numpy và là một thư viện khá đơn giản ngay cả đối với những người mới làm quen với python. Một số thao tác có thể được thực hiện bằng hình ảnh scikit là:

- Để triển khai các hoạt động tạo ngưỡng, hãy sử dụng phương thức try_all_threshold () trên hình ảnh. Nó sẽ sử dụng bảy thuật toán ngưỡng toàn cầu. Đây là trong mô-đun bộ lọc.

- Để thực hiện phát hiện cạnh, hãy sử dụng phương thức sobel () trong mô-đun bộ lọc. Phương pháp này yêu cầu hình ảnh thang độ xám 2D làm đầu vào, vì vậy chúng ta cần chuyển đổi hình ảnh sang thang độ xám.

- Để thực hiện làm mịn gaussian, hãy sử dụng phương thức gaussian () trong mô-đun bộ lọc.

- Để áp dụng cân bằng biểu đồ, hãy sử dụng mô-đun phơi sáng

- Để áp dụng cân bằng biểu đồ bình thường cho hình ảnh gốc, hãy sử dụng phương thức equalize_hist ()

- Để áp dụng cân bằng thích ứng, hãy sử dụng phương thức equalize_adapthist ().

- Để xoay hình ảnh, hãy sử dụng hàm xoay () trong mô-đun biến đổi.

- Để thay đổi tỷ lệ hình ảnh, hãy sử dụng hàm rescale () từ mô-đun biến đổi.

- Để áp dụng các phép toán hình thái, hãy sử dụng hàm binary_e wear () và binary_dilation () trong mô-đun hình thái học.

3. PIL / PILLOW

PIL là viết tắt của Python Image Library. Đây là một trong những thư viện mạnh mẽ, hỗ trợ một loạt các định dạng hình ảnh như PPM, JPEG, TIFF, GIF, PNG và BMP.

Nó có thể giúp bạn thực hiện một số thao tác trên hình ảnh như xoay, thay đổi kích thước, cắt xén, chia tỷ lệ màu xám, v.v. Hãy xem qua một số thao tác đó

- Để tải một hình ảnh, hãy sử dụng phương thức open ().

- Để hiển thị một hình ảnh, hãy sử dụng phương thức show ().

- Để biết định dạng tệp, hãy sử dụng thuộc tính format

- Để biết kích thước của hình ảnh, hãy sử dụng thuộc tính size

- Để biết về thuộc tính chế độ sử dụng định dạng pixel.

-Để lưu tệp hình ảnh sau khi xử lý, hãy sử dụng phương thức save (). Pillow lưu tệp hình ảnh ở định dạng png.

- Để thay đổi kích thước hình ảnh, hãy sử dụng phương thức resize () nhận hai đối số là chiều rộng và chiều cao.

- Để cắt hình ảnh, hãy sử dụng phương thức crop () lấy một đối số dưới dạng một bộ hộp xác định vị trí và kích thước của vùng được cắt.

- Để xoay hình ảnh, hãy sử dụng phương thức xoay () nhận một đối số là số nguyên hoặc số thực thể hiện mức độ xoay.

- Để lật hình ảnh, hãy sử dụng phương thức biến đổi () lấy một đối số trong số các đối số sau: Image.FLIP_LEFT_RIGHT, Image.FLIP_TOP_BOTTOM, Image.ROTATE_90, Image.ROTATE_180, Image.ROTATE_270.

4. NumPy

Với thư viện này, bạn cũng có thể thực hiện các kỹ thuật hình ảnh đơn giản, chẳng hạn như lật hình ảnh, trích xuất các tính năng và phân tích chúng.

Hình ảnh có thể được biểu diễn bằng các mảng đa chiều và do đó kiểu của chúng là NdArrays. Hình ảnh màu là một mảng có 3 chiều. Bằng cách cắt mảng đa chiều, các kênh RGB có thể được tách ra.

Dưới đây là một số thao tác có thể được thực hiện bằng NumPy trên hình ảnh (hình ảnh được tải trong một biến có tên test_img bằng cách sử dụng imread).

- Để lật hình ảnh theo hướng dọc, hãy sử dụng np.flipud (test_img).

- Để lật hình ảnh theo hướng ngang, hãy sử dụng np.fliplr (test_img).

- Để đảo ngược hình ảnh, hãy sử dụng test_img [:: – 1] (hình ảnh sau khi lưu trữ dưới dạng mảng numpy được đặt tên là <img_name>).

-Để thêm bộ lọc vào hình ảnh, bạn có thể làm như sau:

Ví dụ: np.where (test_img> 150, 255, 0), tức là trong hình này nếu tìm thấy bất kỳ thứ gì bằng 150, thì hãy thay thế nó bằng 255, nếu không thì 0.

Bạn cũng có thể hiển thị các kênh RGB riêng biệt. Nó có thể được thực hiện bằng cách sử dụng đoạn mã này:

Để có được kênh màu đỏ, hãy thực hiện test_img [:,:, 0], để có được kênh màu xanh lá cây, hãy thực hiện test_img [:,:, 1] và để có được kênh màu xanh lam, hãy thực hiện test_img [:,:, 2].

5. Mahotas

Đây là một thư viện xử lý hình ảnh và thị giác máy tính và có hơn 100 chức năng. Nhiều thuật toán của nó được thực hiện bằng C ++. Bản thân Mahotas là một mô-đun độc lập, tức là nó có phụ thuộc tối thiểu.

Hiện tại, Mahotas chỉ phụ thuộc vào trình biên dịch C ++ để tính toán số, không cần mô-đun NumPy, trình biên dịch thực hiện tất cả công việc của nó.

Dưới đây là tên của một số thuật toán đáng chú ý có sẵn trong Mahotas:

- Watershed (https://mahotas.readthedocs.io/en/latest/distance.html)

- Hoạt động Hình thái (https://mahotas.readthedocs.io/en/latest/morphology.html)

- Nhấn & bỏ lỡ, làm mỏng. (https://mahotas.readthedocs.io/en/latest/api.html#mahotas.hitmiss)

- Chuyển đổi không gian màu (https://mahotas.readthedocs.io/en/latest/color.html)

- Các tính năng mạnh mẽ được tăng tốc (SURF), một dạng tính năng cục bộ.

- (https://mahotas.readthedocs.io/en/latest/surf.html)

- Ngưỡng. (https://mahotas.readthedocs.io/en/latest/thresholding.html)

- Chuyển đổi. (https://mahotas.readthedocs.io/en/latest/api.html)

- Nội suy Spline (https://mahotas.readthedocs.io/en/latest/api.html)

- SLIC superpixels. (https://www.pyimagesearch.com/2014/07/28/a-slic-superpixel-tutorial-using-python/)