Deep Neural Network trong phát hiện biến động lớp phủ rừng trên ảnh vệ tinh đa thời gian

Ảnh vệ tinh quang học đóng vai trò quan trọng trong các giám sát, phân tích biến động này nhờ khả năng dễ dàng tiếp cận, độ phân giải thời gian tốt. Tuy nhiên, chất lượng ảnh quang học sử dụng trong phân tích lớp phủ rừng thường dễ bị ảnh hưởng bởi yếu tố thời tiết (mây và bóng mây) hoặc do chất lượng bộ quét, đặc biệt là tại khu vực Việt Nam. Vì lý do đó, nhóm tác giả Salman H Khan và Fatih Porikli (Đại học Quốc gia Australia - ANU), Xuming He (Đại học Thượng Hải), và Mohammed Bennamoun (Đại học Tây Australia - UWA) đã cùng nhau nghiên cứu đề xuất Kỹ thuật phát hiện biến động sử dụng phương pháp Mạng nơ-ron nhân tạo chuyên sâu (DNN - Deep Neural Networks), áp dụng cho bộ ảnh vệ tinh không hoàn chỉnh. Kỹ thuật này đã được áp dụng thử nghiệm cho khu vực Đông Bắc của thành phố Melbourne, bang Victoria, Australia và mang lại những kết quả tích cực cả về mặt công nghệ và triển khai.

Giới thiệu

Quản lý hệ sinh thái và các nghiên cứu kinh tế xã hội ở quy mô vùng, quốc gia và quốc tế đòi hỏi phải phát hiện và theo dõi các thay đổi về lớp phủ đất. Đặc biệt, việc phát hiện thay đổi đóng vai trò quan trọng trong việc giám sát môi trường liên tục, nhằm điều tra chặt chẽ các vấn đề môi trường cấp bách như suy giảm tài nguyên thiên nhiên, đa dạng sinh học và mất rừng. Phát hiện biến động sử dụng ảnh viễn thám cũng có thể cung cấp thông tin cần thiết để giúp quản lý thiên tai, hoạch định chính sách, quy hoạch khu vực và quản lý đất đai hiệu quả.

Chỉ tính riêng tại Úc, nơi diện tích rừng chiếm 125 triệu ha, tương ứng với 16% tổng diện tích lục địa và gần 3% tổng diện tích rừng trên thế giới, diện tích rừng này thường xuyên bị xáo trộn đáng kể. Trong giai đoạn 2006-07 đến 2010-11, khoảng 39 triệu ha rừng đã bị phá hủy bởi hỏa hoạn và 9.000 ha được thu hoạch hàng năm ở Úc. Những xáo trộn này cần được thường xuyên theo dõi và phân tích nhằm xây dựng các quy trình ứng phó đối với các thay đổi hệ sinh thái rừng.

Các nghiên cứu hiện tại sử dụng ảnh vệ tinh có độ phân giải không gian trung bình, thường thực hiện phân tích khái quát trên quy mô tổng thể trong một hoặc nhiều năm. Trong khi đó, hệ thống vệ tinh Landsat hoạt động với tần suất lặp dày hơn, bao phủ toàn cầu, trái ngược với các nguồn hình ảnh vệ tinh có độ phân giải không gian thô, ví dụ: MODIS, NOAA và AVHRR.

Trong nghiên cứu này, nhóm tác giả giới thiệu một giải pháp tự động giám sát lớp phủ rừng với tần suất thường xuyên hơn, cho cả lĩnh vực quản lý đất chăn thả, kiểm tra sức khỏe cây trồng và phân tích nguy cơ xảy ra thiên tai. Giải pháp này cũng có thể áp dụng cho những khu vực nơi quá trình tái sinh rừng đang diễn ra mạnh mẽ để tránh các sai sót quá mức. Dữ liệu Landsat (NASA) được sử dụng nhờ khả năng truy cập công khai với độ phân giải thời gian tốt hơn nhiều so với các nguồn ảnh vệ tinh khác hiện có.

Tuy nhiên, giống như các loại dữ liệu quang học truyền thống, ảnh vệ tinh Landsat  thường xuyên gặp phải vấn đề thiếu dữ liệu do hạn chế về khẩu độ của máy ảnh, ảnh hưởng của mây và các yếu tố khác gây ra bởi hạn chế công nghệ của cảm biến. Để giải quyết vấn đề này, nhóm nghiên cứu đề xuất thực hiện phân tích biến động theo hai giai đoạn chính như sau:

Hình 1. Tổng quan về quy trình Phát hiện biến động trên loạt ảnh vệ tinh không hoàn chỉnh

Mô tả hai giai đoạn chính:

  • Giai đoạn 1: Thực hiện chỉnh sửa, bổ sung dữ liệu còn thiếu và tăng cường chất lượng ảnh để tạo ra bộ ảnh mới với độ phân giải tốt hơn từ một loạt các nguồn ảnh Landsat sẵn có. Kỹ thuật sử dụng ở đây là mã hóa rời rạc, khai thác tính liên tục theo thời gian và không gian để lấp đầy những khoảng trống do mất dữ liệu hoặc thông tin phản hồi. Sử dụng chuỗi hình ảnh có độ phân giải thời gian cao giúp việc phân tích trở nên dễ dàng hơn.
  • Giai đoạn 2: Tập trung vào việc nghiên cứu, xác định những thay đổi xảy ra trên ảnh. Nhóm tác giả tập trung vào hai vấn đề: phát hiện các lớp và trường hợp có thay đổi trong một vùng cụ thể; và ước tính thời gian bắt đầu và kết thúc của sự biến đổi được phát hiện. Với mục đích này, nhóm tác giả xem xét ứng sự kiện thay đổi độc lập với lớp và dự đoán khả năng xảy ra các loại sự kiện thay đổi nhất định cùng với thời gian bắt đầu và kết thúc của chúng.

Quy trình kỹ thuật

Các phương pháp tiếp cận phân tích phát hiện biến động trên ảnh vệ tinh hiện nay được chia thành hai loại chính: phương pháp tiếp cận cục bộ cấp thấp và phương pháp tiếp cận dựa trên đối tượng. Các phương pháp tiếp cận cục bộ cấp thấp sử dụng các chỉ số thống kê lấy từ các giá trị pixel của ảnh quang phổ. Các trị số pixel đôi khi không có giá trị trong một số hoàn cảnh cụ thể. Phương pháp tiếp cận thông thường để phát hiện thay đổi ở cấp độ pixel là so sánh trực tiếp độ tương phản của cặp ảnh đa thời gian thu được tại các ngày đã chọn khi có dữ liệu chất lượng cao. Một cách tương tự là trích xuất các chỉ số quang phổ để so sánh và phát hiện những thay đổi trong một cặp ảnh. Để nghiên cứu xu hướng theo mùa trong nhiều ảnh, quỹ đạo thời gian của dữ liệu quang phổ có độ phân giải không gian từ thô đến trung bình cũng đã được phân tích. Các nghiên cứu trước đây đề xuất chỉ số xu hướng rừng ở cấp độ pixel và nghiên cứu hiệu suất của nó trên hình ảnh Landsat. So với cách tiếp cận của nhóm nghiên cứu này, họ thực hiện phân tích ở quy mô thời gian thưa thớt hơn (chỉ có 10 ảnh trong giai đoạn 1989-2006) và chỉ làm việc trên dữ liệu không mây thu được trong các mùa khô.

Trong khi đó, các kỹ thuật phát hiện biến động dựa trên giá trị pixel khác sử dụng chỉ số đặc trưng, vectơ biến đổi, phân tích trộn phổ và kết cấu cục bộ. Các bộ phân loại dựa trên công nghệ máy học như Perceptron đa lớp, ra quyết định theo sơ đồ cây và máy vectơ hỗ trợ (SVM) cũng đã được sử dụng để phát hiện thay đổi ở mức độ pixel. Tuy nhiên, các phương pháp này chủ yếu sử dụng các tính năng thủ công dựa trên kiến ​​thức chuyên môn về khu vực.

Các phương pháp tiếp cận dựa trên đối tượng xem xét thông tin theo ngữ cảnh bằng cách làm việc với các pixel, phân tích và nhóm lại các pixel đồng nhất, dựa trên sự xuất hiện của chúng (thông tin quang phổ), vị trí và/hoặc đặc tính thời gian. Trong hầu hết các trường hợp, quy trình phân đoạn (segmentation) và phân loại không giám sát được sử dụng để tạo ra các cụm pixel như vậy. Các cách tiếp cận này hoạt động ở cấp độ vùng hoặc đối tượng, nên chúng ít bị biến đổi phổ, hiệu ứng tham chiếu địa lý và sai sót trong việc phát hiện các thay đổi về độ che phủ bề mặt so với các cách tiếp cận ở cấp độ pixel. Một số phương pháp tiếp cận dựa trên đối tượng khác là so sánh trực tiếp các đối tượng từ các hình ảnh khác nhau để giải thích các thay đổi. Ngược lại, phương pháp so sánh các đối tượng được trích xuất để phát hiện thay đổi chỉ sau khi chúng được phân loại thành một trong các lớp mong muốn.

Một vấn đề với các phương pháp dựa trên đối tượng là chúng phụ thuộc rất nhiều vào các phương pháp phân đoạn (segmentation) được sử dụng để tạo ra các đối tượng. Không phải tất cả các đối tượng được tạo ra theo cách này đều có cùng kích thước, và do đó các lỗi phân đoạn lặp đi lặp lại dẫn đến kết quả phát hiện thay đổi kém chính xác hơn. Để tránh những lỗi như vậy, nhóm tác giả đã đề xuất tạo các toán tử khung giới hạn ở nhiều tỷ lệ để phát hiện những thay đổi ở các kích thước khác nhau. Hơn nữa, các công trình nghiên cứu hiện có sử dụng các tính năng hoặc chỉ số quang phổ được làm thủ công từ các đối tượng để theo dõi sự thay đổi. Ngoài ra, thuật toán này còn tự động học các đặc điểm của các đối tượng và dự đoán khả năng biến đổi bằng cách sử dụng mạng nơ-ron chuyên sâu (DNN).

Chất lượng dữ liệu viễn thám quang học thường xuyên bị ảnh hưởng bởi một số hiện tượng thiên nhiên và các phương pháp tiếp cận khác nhau đã được đề xuất để xử lý trước và khôi phục dữ liệu. Các kỹ thuật tiền xử lý giải quyết các vấn đề liên quan đến khai báo tạo độ, khảm ghép ảnh, hiệu chỉnh bức xạ, hiệu chỉnh biến dạng do khí quyển và địa hình cần thiết để cải thiện dữ liệu quang phổ thô. Từ quan điểm của phân tích thay đổi thường xuyên, một vấn đề quan trọng hơn là khôi phục dữ liệu bị mất do hạn chế của cảm biến, các yếu tố theo mùa và thời tiết. Các phương pháp khôi phục dữ liệu thường sử dụng là phục chế ảnh, thông tin đa phổ và đa thời gian.

Các phương pháp tiếp cận phục chế ảnh cho kết quả trực quan đẹp mắt, tuy nhiên chúng không khôi phục được các vùng dữ liệu bị thiếu rất lớn và thông tin được khôi phục không đáng tin cậy để thực hiện phân tích thay đổi. Các phương pháp tiếp cận đa phổ sử dụng thông tin phổ từ các dải phổ hoặc cảm biến khác (ví dụ: MODIS) để ước tính thông tin còn thiếu trong hình ảnh Landsat ETM+. Tuy nhiên, dải quang phổ từ các cảm biến khác thường bị chênh lệch về độ phân giải không gian và bước sóng. Phương pháp Đánh giá độ phủ mây tự động (Automated Cloud Cover Assessment - ACCA), sử dụng các đặc tính phản xạ và nhiệt của hình ảnh đã chụp ước tính độ phủ mây. Kỹ thuật này không thành công đối với trường hợp các đám mây Ti mỏng (xuất hiện ở các tầng cao) vì đặc tính nhiệt yếu của chúng. So với ACCA, phương pháp Mặt nạ chức năng (Function of Mask - Fmask) - phát hiện các đám mây và bóng của chúng hoạt động tốt hơn một chút nhưng vẫn bỏ sót các đám mây Ti rất mỏng. Do vậy, các phương pháp kết hợp để bổ trợ thường được sử dụng để kết hợp thông tin nhằm khôi phục dữ liệu tốt nhất.

Phương pháp phục hồi dữ liệu được sử dụng trong nghiên cứu này là phương pháp dựa trên hình ảnh đa thời gian, dựa trên cả thông tin bối cảnh không gian và thời gian, rất tốt để khôi phục các vùng lớn bị mất thông tin. Cách tiếp cận như vậy giả định những thay đổi về độ che phủ mặt đất là không đáng kể trong một thời gian ngắn và sử dụng các bản vá không bị mây che để khôi phục dữ liệu bị che phủ hoặc không có thông tin. Tương tự, các cách tiếp cận khác đưa ra các phương pháp phức tạp để thực hiện khôi phục dữ liệu trên miền thời gian bằng cách điều chỉnh thống kê bản vá hoặc dự đoán trực tiếp dựa vào cường độ.

Ngược lại với các cách tiếp cận này, phương pháp của nhóm tác giả là thực hiện khôi phục dữ liệu bằng cách sử dụng thông tin thời gian đáng tin cậy và cũng có thể khôi phục các khu vực bị bao phủ các đám mây Ti trong suốt. Ngoài ra, cách tiếp cận được đề xuất khá đơn giản và sử dụng các cấu hình đa độ phân giải, giúp giữ cho dữ liệu được khôi phục nhất quán và đáng tin cậy để thực hiện các phân tích phát hiện biến động hợp lệ.

Sự kết hợp của thông tin bổ sung thu được từ nhiều cảm biến từ xa cũng đã được nghiên cứu trong tài liệu để loại bỏ mâu thuẫn. Điều này hữu ích vì các nguồn dữ liệu khác nhau có độ phân giải, tỷ lệ lỗi và độ nhạy khác nhau đối với các điều kiện không bình thường (ví dụ: mây). Một số nhà nghiên cứu đã kết hợp các luồng dữ liệu tần suất và độ phân giải không gian cao để tận dụng lợi ích của cả hai đối với phân tích dạng hòn đảo nhiệt thường thấy trong các khu vực có đô thị. Thông tin được cùng nhau sử dụng để tạo ra các dự báo tốt hơn khi lập bản đồ về tốc độ đô thị hoá ở các vùng đông dân cư. Một số tác giả khác cũng đã đề xuất một phương pháp phục chế ảnh để hưởng lợi từ sức mạnh tương hỗ của các phép đo vi sóng và tia hồng ngoại đối với nhiệt độ bề mặt nước biển. Ngoài các ứng dụng trong phân tích địa vật lý, phép nội suy dữ liệu bị thiếu được thực hiện bằng cách sử dụng nhiều nguồn dữ liệu cũng đã được sử dụng trong giám sát lý sinh, ví dụ, lập bản đồ thảm thực vật. Khác với những cách tiếp cận này, nhóm tác giả chỉ xem xét dữ liệu từ một cảm biến duy nhất để nội suy thông tin còn thiếu nhằm cho phép phân tích độ che phủ rừng thường xuyên hơn.

Gần đây hơn, mạng nơ-ron phức hợp CNN đã được sử dụng để phát hiện và phân đoạn đối tượng trong các ảnh đa phổ. Các đặc điểm chuyên sâu được trích xuất từ ​​một mạng lưới và hiển thị trước trên ảnh màu thông thường, tổng quát hóa rất tốt đối với ảnh vệ tinh. Mô hình học chuyển giao cũng đã được nghiên cứu để tìm hiểu các cách biểu diễn tốt hơn từ dữ liệu cảm biến từ xa. Trong một số trường hợp, mô hình CNN đã được sử dụng, được tinh chỉnh trên một số lượng lớn ảnh vệ tinh để phát hiện thiệt hại. Các kiến ​​trúc phức hợp đa tỷ lệ cũng được học để xác định mẫu pixel-phân đoạn trên ảnh vệ tinh. Trong một số ứng dụng khác, các mô hình CNN đã được sử dụng để phân loại trên các cảnh ảnh viễn thám có độ phân giải cao, phân đoạn mạng lưới đường và phát hiện phương tiện. Ngược lại với các kỹ thuật này, cách tiếp cận của nhóm tác giả đề cập đến việc phát hiện sự thay đổi trong độ che phủ rừng và cung cấp một cơ chế để trích xuất và kết hợp các đại diện đối tượng địa phương bằng cách sử dụng CNN.

Khu vực nghiên cứu thử nghiệm

Khu vực nghiên cứu có diện tích 222.4 x 90.0 km2 ở phía Đông Bắc của thành phố Melbourne, bang Victoria, Úc (Hình 2). Dữ liệu ảnh vệ tinh được cung cấp bởi tổ chức Australia Reflectance Grid (ARG) thuộc cơ quan Geoscience Australia (GA). Để so sánh dữ liệu, các mô hình vật lý được sử dụng để loại bỏ sai số hình học, hiệu ứng địa hình, đặc điểm mặt trời và khí quyển gây ra. Với mỗi ảnh phản xạ bề mặt, một bản đồ chất lượng pixel tương ứng (với cờ dấu) được cung cấp. Đối với mỗi ô lưới, bản đồ này chỉ ra sự hiện diện hoặc vắng mặt của các giá trị trống, độ bão hòa của band, các đám mây và bóng mây. Dữ liệu được xử lý, hiệu chỉnh bằng hàm phân phối phản xạ hai chiều (Bi-directional Reflectance Distribution Function - BRDF) để tạo ra sản phẩm dự báo độ phản xạ vuông góc (nadir BRDF) và sau đó là dự báo độ phản xạ vuông góc điều chỉnh (Nadir BRDF Adjusted Reflectance - NBAR).

Hình 2: Hai khu vực nghiên cứu phát hiện biến động rừng tại Victoria, Úc

Các loại cờ dấu có trong bản đồ chất lượng pixel được hiển thị trong Bảng 1. Hai cờ đánh dấu mây được đưa vào bản đồ dựa trên hai phương pháp khác nhau (ACCA và Fmask). Fmask sử dụng độ phản xạ cực trị của khí quyển (TOA) để phát hiện ra các đám mây và hoạt động tốt hơn thuật toán ACCA. Do đó, trong báo cáo này, nhóm tác giả sử dụng các đám mây được phát hiện bằng thuật toán Fmask trong giai đoạn chuẩn bị. Điều quan trọng nữa cần lưu ý là các đám mây rất mỏng vẫn bị bỏ sót bởi cả hai phương pháp trên, do đó cách tiếp cận của các tác giả trong phần này là nhằm loại bỏ những đám mây như vậy.

Khu vực nghiên cứu được chia thành hai phần có tỷ lệ bằng nhau, do nguồn dữ liệu sẵn có ở hai khu vực này là khác nhau. Khu vực Db-37 sử dụng bộ dữ liệu ảnh giai đoạn 1999-2015 (17 năm); Khu vực Db-36 sử dụng dữ liệu từ năm 1987-2014 (28 năm).

Bit positionNhãn phân loại
0-4Dải band 1-5 đã bão hòa
5Band 6-1 đã bão hòa
6Band 6-2 đã bão hòa
7Band 7 đã bão hòa
8Vùng tiếp giáp (không có giá trị rỗng)
9Đất liền hoặc Biển
10Mây (ACCA)
11Mây (Fmask)
12Bóng mây (ACCA)
13Bóng mây (Fmask)
14Bóng địa hình
Bảng 1: Các nhãn phân loại chất lượng pixel có sẵn với ảnh Landsat NBAR

Dữ liệu viễn thám được gắn nhãn với hai loại biến động rừng, đó là biến động do khai thác và do cháy. Trong suốt 17 năm hoạt động tại khu vực Db-37, tổng cộng 99 sự cố đã được các chuyên gia xác định thủ công, trong đó 50 sự cố hỏa hoạn trong khi 49 sự cố còn lại là do khai thác. 99 sự cố biến động này đã xảy ra tại 68 điểm khác nhau. Tương tự, tổng cộng 49 sự cố đã được ghi nhận ở Db-36 trong suốt 28 năm, trong đó 14 sự cố hỏa hoạn và 35 sự cố do khai thác. Các sự kiện thay đổi này đã diễn ra tại 29 địa điểm khác nhau. Biểu đồ tổng thể đại diện cho cả hai loại chú thích trong Db-37 được thể hiện trong Hình 3. Lưu ý rằng sự cố cháy thường kéo dài trong một thời gian ngắn hơn nhiều (và cũng phục hồi nhanh chóng) so với sự cố thu hoạch.

Hình 3: Biểu đồ tổng quát về các sự cố cháy và khai thác rừng ở các khu vực quan tâm được xác định trong giai đoạn 1999-2015. Vùng cháy thường được phục hồi trong thời gian ngắn hơn so với vùng thu hoạch.

Xử lý, khôi phục dữ liệu

Dữ liệu ảnh viễn thám đang sử dụng chứa một vài yếu tố dị thường khiến cho đối tượng trên bề mặt đất không thể nhìn thấy được trên ảnh. Những yếu tố này bao gồm dữ liệu phản xạ bề mặt bị thiếu, các đám mây dày đặc và các kênh bão hòa trong dữ liệu cảm biến từ xa. Bên cạnh đó, còn có các sọc đen xuất hiện trong ảnh Landsat-7 ETM+ do lỗi cảm biến vào năm 2003. Không có mối quan hệ thời gian giữa các vị trí dữ liệu bị thiếu, tức là các vị trí này không đồng nhất theo thời gian.

Hình 4. Ví dụ về các yếu tố dị biệt trong dữ liệu. Tồn tại những vùng dữ liệu bị thiếu lớn cùng với những đám mây dày đặc và bóng của chúng. Lỗi sọc được hiển thị trong hai hình ảnh ngoài cùng bên phải xuất hiện dưới dạng các vùng → phần dữ liệu bị thiếu (hình vẽ rõ nhất khi được phóng to) - chiếm khoảng 75,9% dữ liệu

Trong hình trên, có thể thấy khoảng 40.7% dữ liệu khu vực Db-37 bị thiếu trong khi gần 35.2% dữ liệu bị mờ. Đối với việc phân tích và phát hiện sự thay đổi lớp phủ bề mặt, cần phải loại bỏ những yếu tố này, chúng chiếm 75.9% diện tích trong Db-37.

Trong nghiên cứu này, nhóm tác giả không đặt mục tiêu loại bỏ bóng mây nhẹ hoặc bóng địa hình, những thứ này cũng tạo ra các vấn đề thị giác nhưng không quá nghiêm trọng như các yếu tố được mô tả ở trên. Để xác định dữ liệu bị thiếu và các vùng có mây còn sót lại, nhóm tác giả đã thiết kế quy trình hoàn thiện, khôi phục hình ảnh thành ba giai đoạn khác nhau. Giai đoạn đầu tiên xử lý các khoảng trống lớn bằng cách đánh giá độ tin cậy của dữ liệu theo thời gian. Giai đoạn thứ hai thực hiện khôi phục hình không gian để loại bỏ dữ liệu nhiễu và đảm bảo tính nhất quán về mặt không gian. Giai đoạn cuối thực hiện tái tạo thêm bằng cách loại bỏ những đám mây rất mỏng và trong suốt.

  • Xử lý các khoảng trống dữ liệu (Gap Filling)

Dữ liệu đa thời gian được kết hợp để tạo ra một hình ảnh đại diện trong khoảng thời gian hai tháng sử dụng bản đồ phân loại chất lượng pixel. Sau đó, ảnh trung bình được tạo ra từ các ảnh đại diện để có được một ảnh cơ sở hàng năm, nơi các pixel được sử dụng để lấp đầy trong các ảnh gốc bị thiếu. Phương án này mang lại hiệu suất tốt hơn so với phép nội suy theo pixel chỉ sử dụng thông tin không gian. Với tần suất trung bình là 12 ngày, phương pháp này có thể lấp đầy thông tin cho các pixel bị thiếu mà không làm ảnh hưởng đến diễn biến rừng (thường là các quá trình diễn ra chậm hơn)

  • Tái tạo vùng có dữ liệu thưa thớt (Masked Sparse Reconstruction)

Thực hiện nâng cao chất lượng ảnh bằng cách sử dụng kỹ thuật tái tạo vùng có dữ liệu thưa thớt để thực thi tính đồng nhất về mặt không gian và loại bỏ các vật cản xuất hiện từ giai đoạn đầu tiên. Tuy nhiên, dữ liệu quang phổ thường xuất hiện các yếu tố dẫn đến việc một số vùng vùng dữ liệu chưa được phục hồi hoàn toàn. Nếu thực hiện một bước tái tạo thông thường bằng cách sử dụng tất cả các pixel trong một bản vá nhất định, nó sẽ dẫn đến lỗi vì một số thông tin về bản vá có thể không hợp lệ (thường xuất hiện dưới dạng vùng đen). Trong bước này, nhóm tác giả chỉ tái tạo lại các vùng dữ liệu hợp lệ (dữ liệu hợp lệ ban đầu và các vùng được khôi phục trong bước phục dựng ảnh) và không bao gồm các pixel bị thiếu. Bước này điền vào các vùng dữ liệu bị thiếu nhỏ và loại bỏ các thay đổi đột ngột về độ tương phản pixel vì từ điển chỉ được xây dựng từ các bản vá sạch.

Hình ảnh hoàn chỉnh cuối cùng thu được bằng cách kết hợp tất cả các bản vá nhỏ và thực hiện phép tính trung bình trên các vùng chồng chéo. Bước tái tạo vùng có dữ liệu thưa thớt được thực hiện riêng lẻ cho từng kênh ảnh của dữ liệu phản xạ bằng cách học một từ điển riêng biệt nhằm bảo toàn thông tin riêng biệt trong mỗi dải phổ và đảm bảo khôi phục thông tin bị thiếu một cách nhất quán.

Hình 5: Trái: kết quả sau Gap filling. Phải: Kết quả của Tái tạo thưa thớt để lọc nhiễu và loại bỏ các ảnh hưởng biên do gap filling

Loại bỏ các đám mây mỏng

Giai đoạn này tập trung vào việc giải quyết các đám mây mỏng còn sót lại trong quá trình khôi phục ảnh. Tất cả các vùng dữ liệu bị thiếu sẽ được lấp đầy. Tuy nhiên, một số vùng bị thiếu một phần vẫn có thể xảy ra do các đám mây mỏng. Nguyên nhân là các phương pháp phát hiện đám mây hiện đại như ACCA và Fmask không thể tìm thấy các lớp mây mỏng. Trong khi đó, bản đồ chất lượng pixel cũng không thể chỉ ra vị trí của đám mây này. Các vùng mờ này sẽ ảnh hưởng đến kết quả phân tích, phát hiện biến động phía sau. Do đó, nhóm tác giả đã nghiên cứu, đề xuất một cách tiếp cận hiệu quả dựa trên phương pháp Đo màu sắc để loại bỏ các đám mây mỏng (Hình 6).

Hình 6. Quy trình phát hiện và loại bỏ các đám mây mỏng dựa còn sót lại trên ảnh sử dụng các phương pháp lọc mây hiện có (ACCA và Fmask)

Trong khu vực đang được xem xét, các đám mây mỏng xuất hiện trong Band-1 của ảnh. Những đám mây này xuất hiện và biến mất đột ngột và không chiếm một vị trí không cụ thể nào trên ảnh. Để phát hiện các đám mây, nhóm tác giả xây dựng một hồ sơ đa độ phân giải (MRP) không gian cấp cao hơn bao gồm cấu hình nền của một khu vực được tạo ra bằng cách lấy trung bình tất cả các pixel hợp lệ trong toàn bộ phạm vi thời gian, tức là 1999-2015. Cấp thấp hơn bao gồm hồ sơ hàng năm của một khu vực được tạo ra bằng cách lấy trung bình tất cả các pixel hợp lệ trong vòng một năm. Để phát hiện bóng mờ, trước tiên nhóm tác giả so sánh cấu hình hàng năm với cấu hình nền và tính toán hình ảnh chênh lệch ngưỡng bằng cách sử dụng Band-1. Dải này bắt dải độ dài sóng (0,45-0,52 µm) nơi có thể nhìn thấy rõ những đám mây mỏng. Các vùng được phát hiện trong hồ sơ hàng năm được thay thế bằng dữ liệu hồ sơ nền để loại bỏ các đám mây mỏng.

Ở cấp độ tiếp theo, nhóm tác giả lặp lại quy trình tương tự với các hình ảnh và hồ sơ hàng năm. Hình ảnh chênh lệch ngưỡng được tính toán bằng cách so sánh từng hình ảnh với hình ảnh hồ sơ hàng năm của nó. Các vùng được phát hiện trong hình ảnh được thay thế bằng các giá trị ở các vị trí tương ứng trong hình ảnh hồ sơ hàng năm. Thủ tục phân cấp này (dọc theo miền thời gian) có ưu điểm là đơn giản và hiệu quả, trong khi chỉ ảnh hưởng đến Băng tần-1 và do đó các vùng thay đổi cảnh quan không bị thay đổi. Việc sử dụng cấu hình trung bình đa độ phân giải trong quá trình khôi phục phân cấp đảm bảo rằng thông tin nhiễu không cần thiết (ví dụ: các đám mây và bóng địa hình) được lọc ra và các giá trị được điền vào là đáng tin cậy để phát hiện thay đổi. Sau quá trình khôi phục dữ liệu (xem Hình 5). Kết quả cuối cùng khá khả quan giờ đây chúng ta có các khung hình ảnh hoàn chỉnh cho chuỗi thời gian trôi đi (khoảng một khung cho hai tháng một lần), được sử dụng để phát hiện sự thay đổi rừng được mô tả trong phần tiếp theo.

Hình 7: Kết quả khôi phục dữ liệu của một cảnh đơn: Phía trên là ảnh ban đầu với nhiều bóng mây và một phần mất hoàn toàn dữ liệu. Phía dưới là ảnh sau khi thực hiện các thuật toán lọc mây và bù ảnh.

Phát hiện biến động

Tập trung vào việc nghiên cứu, xác định những thay đổi xảy ra trên ảnh. Nhóm tác giả tập trung vào hai vấn đề: phát hiện các lớp và trường hợp có thay đổi trong một vùng cụ thể; và ước tính thời gian bắt đầu và kết thúc của sự biến đổi được phát hiện. Với mục đích này, nhóm tác giả xem xét ứng cử sự kiện thay đổi độc lập với lớp và dự đoán khả năng xảy ra các loại sự kiện thay đổi nhất định cùng với thời gian bắt đầu và kết thúc của chúng.

Quá trình này được thực hiện theo bước: Phân loại toàn bộ khu vực đánh giá, xác định trước các khu vực đề xuất và áp dụng CNN sâu để phát hiện biến động và chỉ ra loại biến động đối với lớp phủ rừng. Cụ thể, coi độ che phủ của rừng trong điều kiện bình thường là vùng không có biến động. Khu vực có biến động sẽ được gán nhãn. Nếu một sự biến động được phát hiện, loại biến động sẽ được dự đoán. Với cách tiếp cận này, có thể phát hiện nhiều biến động (cùng loại hoặc khác loại) xảy ra tại một địa điểm cụ thể.

  • Tạo mẫu tại các khu vực đa tỷ lệ

Để phát hiện những thay đổi về lớp phủ rừng, nhóm tác giả bắt đầu với việc xây dựng tập hợp những khu vực biến động tiềm năng. Sử dụng một tập hợp các dải quang phổ được chọn để cung cấp dữ liệu hình ảnh phù hợp cho các thay đổi do cháy hoặc do thu hoạch,  đều là những thay đổi có thể nhìn thấy, với cấu trúc và hình dạng phân biệt được trên ảnh.

Khu vực biến động tiềm năng được tạo ra bằng cách sử dụng hồ sơ đa phân giải (MRP). Vì những thay đổi đáng quan tâm chủ yếu kéo dài trong một khung thời gian cố định nên nhóm tác giả tạo ra tập hợp ban đầu các ứng viên khu vực thay đổi tiềm năng bằng cách sử dụng từng hồ sơ hàng năm trong MRP. Ranh giới các khung giới hạn bao quanh các vùng quan tâm được tạo bằng phương pháp đề xuất đối tượng dựa trên cạnh (EdgeBox). Lưu ý rằng khái niệm về cạnh và đường bao tương tự nhau trong cả dữ liệu phản xạ và hình ảnh màu. Nhóm tác giả sử dụng mô hình dò ​​cạnh có cấu trúc được đào tạo trước trên Tập dữ liệu phân đoạn Berkeley 500 (tập dữ liệu BSDS-500) để phát hiện cạnh. Vì mô hình được đào tạo trước trên hình ảnh màu thông thường, nhóm tác giả thu được hình ảnh RGB từ dữ liệu phản xạ bằng cách chọn các kênh có liên quan cung cấp hình ảnh tự nhiên về thảm thực vật và đám cháy.

Từ các vùng biến động được chú thích bởi chuyên gia, nhóm tác giả nhận thấy rằng có sự chênh lệch lớn giữa các kích thước tương đối của các khung giới hạn cho các biến động khác nhau. Ví dụ, các vùng cháy thường lớn (lên đến 80% tổng diện tích được bao bọc bởi toàn bộ ảnh) và vùng thu hoạch thường nhỏ (lên đến <0,005% diện tích ảnh). Để giải quyết vấn đề này, một sơ đồ sử dụng hình ảnh gốc cũng như các bản vá được trích xuất ở nhiều tỷ lệ để tạo ra các đề xuất khung giới hạn.

Phương pháp sử dụng là sử dụng bốn thang đo trong quá trình tạo đề xuất, mỗi thang có các bản vá có kích thước khác nhau. Chính xác hơn, kích thước hình ảnh gốc là 1×1; 1/4 × 1/4, 1/8 × 1/8 và 1/16 × 1/16. Để tránh bỏ sót bất kỳ vùng thay đổi nào xuất hiện gần với ranh giới bản vá, nhóm tác giả trích xuất các bản vá chồng chéo với kích thước bước bằng 80% kích thước bản vá ngắn nhất. Đối với mỗi bản vá, nhóm tác giả cho phép phát hiện số lượng khung (Mbox) tối đa cố định có điểm cao hơn Sbox. Bằng cách thay đổi Mbox và Sbox, chúng ta có thể nhận được số lượng khung khác nhau. Lưu ý rằng việc tạo ra một số lượng lớn các đề xuất mang lại tỷ lệ trùng lặp tốt hơn với các vùng thay đổi được xác định theo cách thủ công bởi các chuyên gia. Tuy nhiên, nó cũng dẫn đến các đề xuất dư thừa và tải tính toán cao trong các bước xử lý tiếp theo.

Hình 8: Khung đề xuất được tạo ra ở nhiều tỷ lệ để có thể ghi nhận được hết quy mô/ kích thước của các biến động. Các hằng số H và W lần lượt biểu thị các chiều XY của ảnh gốc.

Tiếp theo, nhóm tác giả mô tả cách tiếp cận để tinh chỉnh nhóm ứng viên ban đầu bằng cách loại bỏ các đề xuất khung dư thừa và không mong muốn.

Loại bỏ khu vực không tiềm năng

Tập hợp các khung ứng viên ban đầu được hiệu chỉnh thêm để giảm tải tính toán mà không ảnh hưởng đến độ chính xác của việc phát hiện biến động sau này. Trước tiên, một bản đồ biến động được tạo ra bằng cách so sánh hồ sơ hàng năm với hồ sơ tổng thể trong MRP. Vì bản đồ biến động thường bao gồm sự khác biệt về cường độ theo pixel, nên nó ghi lại mọi thay đổi có thể nhìn thấy được đã xảy ra trên bề mặt. Bản đồ biến động được hiểu chỉnh bằng các phép toán hình thái học (xói mòn theo sau là giãn nở). Sau đó, các khung ứng viên biến động ít nhất 20% được giữ lại. Trong nghiên cứu này, nhóm tác giả bỏ qua các đề xuất khung với tỷ lệ phần trăm biến động rất cao (> 90%) trên tổng diện tích đã thay đổi. Điều này dẫn đến việc loại bỏ một số đề xuất khung nhỏ và không cần thiết không bao gồm đầy đủ một sự kiện thay đổi cụ thể. Cuối cùng, nhóm tác giả thực hiện ngăn chặn không tối đa các khung giới hạn để loại bỏ các đề xuất thừa. Bước triệt tiêu này nhằm mục đích loại bỏ các khung giới hạn được ghi điểm thấp hơn cho mỗi cặp khung chồng chéo (tỷ lệ chồng chéo do IOU xác định). Lưu ý rằng các đề xuất được tạo cung cấp mức độ phù hợp hợp lý (> 94%) cho 2000 4000 đề xuất khung trong một diện tích 104 km2.

  • Mạng nơ-ron phức hợp (CNN - Convolutional Neural Network)

Mô hình nơ-ron phức hợp (CNN) được sử dụng để ánh xạ dữ liệu bản vá thô tới một không gian đặc trưng phân biệt, sau đó được sử dụng để phát hiện những thay đổi có liên quan. Với một tập hợp các vùng thay đổi ứng viên, mạng nơ-ron sẽ dự đoán liệu mỗi bản vá có thuộc danh mục thay đổi hay không (VD: thay đổi rừng bị cháy hoặc đã bị thu hoạch). Kiến trúc mạng bao gồm 17 lớp trọng số, có kích thước bộ lọc và số lượng bộ lọc được hiển thị trong Hình 9. Cho đến lớp trọng số thứ 14 (lớp đầu tiên được kết nối đầy đủ (FC), kiến ​​trúc mạng giống hệt trạng thái art VGG-16 net (cấu hình-D).

Sau đó, nhóm tác giả thực hiện tổng hợp đối tượng dọc theo miền thời gian để tạo ra các dự đoán tạm thời. Lưu ý rằng, đối với mọi trường hợp i, mạng được cung cấp 2t trước và sau các khung có các tính năng (F(it).. F(i + t)) được gộp chung với các tính năng của khung hiện tại (thứ i) để tạo ra một biểu diễn (FJ(i)). Hoạt động tổng hợp tối đa được sử dụng để kết hợp tính năng và hoạt động tốt hơn so với hoạt động tổng hợp trung bình trong các thử nghiệm của nhóm tác giả. Biểu diễn tính năng tổng hợp theo thời gian FJ(i) sau đó được sử dụng bởi các lớp FC tiếp theo và cuối cùng là lớp đầu ra để dự đoán lớp thay đổi. Nhóm tác giả đặt kích thước cửa sổ tạm thời t = 3 bằng cách xác nhận chéo, điều này giúp tăng mức độ vừa phải so với các tính năng không gộp chung.

Hình 9. Kiến trúc CNN được sử dụng để phát hiện thay đổi rừng. Mạng có một loạt các bản vá (P (i - t)...P (i + t)) tập trung tại một phiên bản thời gian nhất định cho mỗi đề xuất khu vực thay đổi. Các biểu diễn tính năng được hợp nhất với nhau sau lớp FC đầu tiên bằng cách sử dụng hoạt động tổng hợp tối đa để tạo ra các tính năng nhất quán và mượt mà theo thời gian.

Các bản vá đầu vào được cung cấp cho mạng có kích thước khác nhau, bao gồm một số khung giới hạn rất lớn cũng như rất nhỏ. Để loại bỏ sự chênh lệch này, nhóm tác giả đảm bảo rằng kích thước nhỏ hơn của một bản vá hình ảnh nằm trong phạm vi tiêu chuẩn bằng cách lấy mẫu phù hợp hoặc giảm kích thước. Từ mỗi bản vá hình ảnh đầu vào, nhóm tác giả trích xuất 224x224 cửa sổ với kích thước bước là 64 để cung cấp các đầu vào có kích thước bằng nhau cho mạng. Các vectơ đặc trưng chiều 4096 của tất cả các cửa sổ này (thu được sau lớp FC đầu tiên) sau đó được tổng hợp tối đa để có được một biểu diễn duy nhất của mỗi bản vá riêng biệt. Hình ảnh trung bình cũng được trừ khỏi mỗi bản vá đầu vào giúp tăng cường khả năng phân biệt của các tính năng.

Các thông số mạng là tương đối lớn (khoảng 139 triệu) so với các nhãn vá có sẵn cho biến động do thu hoạch và cháy rừng. Do đó, nhóm tác giả khởi tạo 14 lớp đầu tiên từ mạng được đào tạo trước trên tập dữ liệu ImageNet và thực hiện tinh chỉnh bằng cách sử dụng dữ liệu phản xạ bề mặt có sẵn. Hai lớp FC cuối cùng được khởi tạo với trọng số ngẫu nhiên và được học từ đầu để phát hiện thay đổi.

Nhóm tác giả cũng lưu ý rằng vì các sự kiện cháy kéo dài trong một thời gian tương đối ngắn, nên tính đại diện của chúng tương đối thấp hơn trong tập huấn luyện dẫn đến hiệu suất thử nghiệm thấp hơn. Để tránh vấn đề mất cân bằng lớp này, nhóm tác giả lấy mẫu dữ liệu sự kiện thay đổi ít thường xuyên hơn để đảm bảo rằng cả hai loại sự kiện thay đổi có biểu diễn gần như bằng nhau trong tập huấn luyện. Việc lấy mẫu tăng lên đạt được bằng cách thêm các bản sao giống hệt nhau, được lật, xoay và cắt của các mẫu lớp ít thường xuyên hơn.

Trong giai đoạn thử nghiệm, nhóm tác giả nhập nhiều bản vá vào mạng (tương tự như giai đoạn đào tạo) và thực hiện gộp các tính năng tạm thời sau lớp FC đầu tiên. Các dự đoán do mạng đưa ra tạm thời mượt mà và được so sánh trực tiếp với sự thật cơ bản để đánh giá.

Đánh giá kết quả

Ở giai đoạn này, nhóm tác giả tập trung vào việc xây dựng và kiểm tra các thuật toán, áp dụng và đánh giá các kết quả có được.

  • Các nhiệm vụ đánh giá

Các thuật toán được kiểm tra theo bốn nhiệm vụ chính. Hai nhiệm vụ đầu tiên liên quan đến phân tích rút gọn để nghiên cứu, bản địa hóa các phân loại và đánh giá hiệu suất phân loại của phương pháp tiếp cận. Hai nhiệm vụ tiếp theo liên quan đến phát hiện biến động theo chuỗi thời gian và dự đoán thời gian bắt đầu/kết thúc.

  1. Phân tích rút gọn

Bản địa hóa các phân loại biến động: Trong nhiệm vụ này, thực hiện đánh giá chất lượng của các khung giới hạn đề xuất được tạo ra. Vì chỉ một số vị trí thay đổi hạn chế được xác định trong các chú thích có sẵn, nhóm tác giả định lượng chất lượng của các đề xuất bằng cách tìm tỷ lệ các khung thay đổi được gắn nhãn phù hợp với các đề xuất đã tạo.

Phân loại biến động hàng loạt: Ở nhiệm vụ này, nhóm tác giả xem xét vấn đề phát hiện thay đổi như một nhiệm vụ phân loại. Do đó, đối với một chuỗi thời gian trôi qua nhất định, nhóm nghiên cứu coi mỗi khung như biến thể độc lập và dự báo liệu có sự biến đổi xảy ra trong một khung nhất định hay không. Để đánh giá, nhóm tác giả sử dụng độ chính xác tổng thể và thước đo thu hồi được tính trung bình qua các lớp.

  1. Nhiệm vụ Phát hiện biến động

Phát hiện biến động theo thời gian: Đối với nhiệm vụ này, nhóm tác giả sử dụng thông tin tạm thời trong khi đưa ra các dự đoán thay đổi. Để thực thi tính nhất quán theo thời gian trong các dự đoán, nhóm tác giả thực hiện kết hợp đối tượng trong một cửa sổ nhỏ được xác định trên các đối tượng được tính cho cùng một khu vực tại các phiên bản thời gian liền kề. Nhóm tác giả cũng làm trơn các dự đoán đầu ra từ các phương pháp tiếp cận cơ sở để có một mẫu phát hiện đồng nhất. Số liệu đánh giá được sử dụng cho trường hợp này là giao điểm khi hợp vùng (Intersection Over Union - IOU) thu được trên tất cả các vùng thay đổi được gắn nhãn.

Dự báo biến động (On/Offset): Trong tác vụ này, sự bắt đầu và bù đắp của một sự kiện thay đổi được dự đoán cho một khu vực nhất định. Thông tin trên nhiều trường hợp thời gian được sử dụng để dự đoán một chuỗi thay đổi suôn sẻ và tránh nhiều đột biến nhiễu trong dự đoán. Để đánh giá, nhóm tác giả sử dụng hàm khoảng cách độ lệch chuẩn trung bình cho cả điểm khởi đầu và điểm bù của các dự đoán sự kiện thay đổi.

  • Thiết lập tham số thử nghiệm

Trong nghiên cứu này, nhóm tác giả thực hiện báo cáo hiệu suất dựa trên tập dữ liệu hoàn chỉnh bao gồm cả vùng dữ liệu gốc và vùng dữ liệu sau phục hồi. Cần lưu ý là các vùng dữ liệu được phục hồi chiếm một phần đáng kể trong tập dữ liệu đang nghiên cứu và làm ảnh hưởng đến quá trình phát hiện biến động. Nhóm tác giả đã thực hiện xác nhận chéo 10 lần bằng cách giữ tỷ lệ phân chia cho đào tạo (training) và thử nghiệm (testing) là 90% với 10%. Tập hợp các vị trí thay đổi loại trừ lẫn nhau được sử dụng cho các quy trình đào tạo và thử nghiệm, đồng thời đảm bảo rằng không có sự cố nào xảy ra giữa đào tạo và thử nghiệm.

Nhóm tác giả sử dụng kết hợp các band 5, 4 và 1 từ ảnh Landsat 7 và các band 6, 5 và 2 từ ảnh Landsat 8 để đào tạo và thử nghiệm. Các tổ hợp này của Landsat 7 và 8 phù hợp để nhìn trực quan, nổi bật các đối tượng thảm thực vật và các đám cháy. Thảm thực vật khỏe mạnh, khô và thưa thớt lần lượt xuất hiện với các màu xanh sáng, cam và nâu. Đồng cỏ có màu xanh nhạt trong khi nước thường có màu xanh lam. Vùng cháy có màu đỏ sẫm. Vì các tổ hợp này cung cấp hình ảnh trực quan tự nhiên về độ che phủ rừng, nên có thể áp dụng các thuật toán thị giác máy tính tiêu chuẩn và các mô hình được đào tạo trước trên dữ liệu quang phổ.

Để nâng cao độ tương phản của ảnh, nhóm tác giả thực hiện thay đổi tỷ lệ đồng nhất của các kênh red, green và blue trong phạm vi lần lượt là 0,0055-0,0463, 0,0132-0,0600 và 0,0029-0,0175. Điều này giúp trong quá trình trích xuất đối tượng và ánh xạ đồng nhất, đảm bảo rằng nhiều khung hình vẫn có thể so sánh được với nhau để phân tích đa thời gian.

  • Cách tiếp cận đường cơ sở (baseline)

Nhóm tác giả so sánh cách tiếp cận của mình với các đường cơ sở mạnh mẽ sử dụng các tính năng thủ công phổ biến và bộ phân loại máy học mạnh mẽ.

  1. Các tính năng được làm thủ công cho phân loại

Nhóm tác giả sử dụng các thuật toán Biến đổi tính năng bất biến quy mô (SIFT) dày đặc làm cơ sở để phát hiện biến động. Dựa trên các tính năng này, nhóm tác giả thử nghiệm với ba thuật toán phân loại: (i) Máy vectơ hỗ trợ tuyến tính (SVM) để phân loại biên tối đa, (ii) hạt nhân SVM để phân loại phi tuyến và (iii) rừng ngẫu nhiên (RF) để phân loại dựa trên học tập theo nhóm. Đối với hạt nhân SVM, ánh xạ hạt nhân thuần nhất hiệu quả được sử dụng để tính gần đúng hạt nhân χ2. Các thuật toán SIFT được tính toán trên một lưới dày đặc và bộ phân loại được đào tạo trực tiếp về các tính năng cục bộ này. Lưu ý rằng điều này là khả thi vì pixel ghi nhãn của các vùng biến động được biết trong mỗi bản vá (patch). Trong giai đoạn thử nghiệm, nhóm tác giả phân loại một bản vá hình ảnh nhất định là vùng thay đổi nếu ít nhất 15% bộ mô tả SIFT phân loại là thay đổi do cháy hoặc thu hoạch. Tỷ lệ phần trăm này được thiết lập bằng cách sử dụng các thử nghiệm xác thực chéo, cung cấp tỷ lệ đúng-dương và đúng-âm xấp xỉ bằng nhau.

  1. Bag-of-Visual-Words (BoW) để phân loại

Đối với đường cơ sở của BoW, nhóm tác giả sử dụng SIFT dày đặc làm các tính năng cục bộ và tính toán hiệu quả từ điển bằng cách sử dụng cụm k-means. Số lượng thùng được đặt thành 600 thông qua xác nhận chéo. Tất cả các tính năng sau đó được biểu diễn dưới dạng liên kết với các nguyên tử từ điển. Mô hình BoW thông thường không bảo toàn thông tin không gian. Tuy nhiên, thông tin này có thể giúp ích cho việc phân loại các mẫu thay đổi có hình dạng đặc biệt. Do đó, để kết hợp thông tin không gian, nhóm tác giả sử dụng các thùng không gian rời rạc để tính toán các biểu đồ sau đó được xếp chồng lên nhau để có được kết quả cuối cùng. Tương tự như đường cơ sở trước đó, nhóm tác giả sử dụng SVM tuyến tính, SVM χ2-kernel và bộ phân loại RF để dự đoán.

  • Kết quả
  1. Phân tích Ablative

Trước tiên, nhóm tác giả đánh giá hiệu suất của kế hoạch tạo đề xuất khung giới hạn cho vùng Db-37. Số lượng khác nhau của đề xuất khung giới hạn ảnh hưởng đến mức độ phù hợp cho các khu vực biến động được gắn nhãn (Xu hướng được minh họa trong Hình 10).

Nhóm tác giả xem xét sự kết hợp thành công giữa khung giới hạn chân lý và đề xuất được tạo nếu IOU của chúng > 0.1. Nhóm tác giả tạo ra số lượng đề xuất khung giới hạn khác nhau bằng cách thay đổi giá trị của các hằng số Mbox và Sbox. Số lượng đề xuất khung cao hơn cung cấp độ phủ nhiều hơn nhưng cũng đòi hỏi nhiều tài nguyên tính toán hơn để xử lý thêm. Để đưa ra lựa chọn cân bằng, nhóm tác giả đặt Mbox = 30 và Sbox = 0.05 trong thử nghiệm của để tạo ra ∼1900 đề xuất khung, bao gồm 94% thay đổi được gắn nhãn.

Nhóm tác giả cũng đã thử nghiệm với các phương pháp tạo đề xuất khung khác và phân tích hiệu suất của chúng so với EdgeBox. Các phương pháp đề xuất khung này bao gồm tìm kiếm có chọn lọc, cắt giảm tối thiểu tham số bị ràng buộc và đo lường đối tượng. Thông số của các mô hình này đã được thiết lập để tạo ra số lượng khung gần giống như được tạo bởi EdgeBox. Trong trường hợp số lượng khung được tạo rất lớn, nhóm tác giả chỉ xem xét các đề xuất khung có điểm cao nhất để đánh giá. Đối với mỗi phương pháp này, nhóm tác giả ghi lại phần trăm phạm vi bao phủ của các vùng thay đổi chân-chính khi số lượng đề xuất khung được tăng lên. Hơn nữa, nhóm tác giả cũng đã đánh giá hiệu suất của việc tạo khung ngẫu nhiên xung quanh các vùng thay đổi. Cụ thể, đối với việc tạo khung ngẫu nhiên, nhóm tác giả nhận được mask thay đổi có ngưỡng cho mỗi hình ảnh hồ sơ hàng năm và tạo các khung có kích thước ngẫu nhiên với phạm vi kích thước khung thay đổi sự thật (bằng cách thay đổi đường chéo của khung). Sau đó, số lượng khung mong muốn được chọn ngẫu nhiên làm bộ ứng viên để xử lý tiếp. Với cùng số lượng khung được sử dụng cho EdgeBox (∼ 1900), tỷ lệ bao phủ cho thấy kết quả rất thấp (17,6%). Tuy nhiên, nhóm tác giả nhận thấy sự gia tăng nhất quán về tỷ lệ bao phủ và đối với một số lượng khung rất lớn (50.000), nhóm tác giả đã thu được tỷ lệ bao phủ khá tốt là 86,7%.

Nhóm tác giả đã thực hiện dự đoán biến động/không biến động ở mức bản vá bằng cách coi vấn đề như một nhiệm vụ phân loại. Nhóm tác giả báo cáo độ chính xác tổng thể, tỷ lệ thu hồi trung bình và IOU trung bình (tính trung bình trên tất cả các lớp). Nhóm tác giả nhận thấy hiệu suất tương đối cao khi các tính năng được hợp nhất trong một cửa sổ nhỏ dọc theo kích thước thời gian để có được bản biểu diễn tính năng được cải thiện tại mỗi trường hợp thời gian. Nhóm tác giả đã thử nghiệm các cửa sổ có kích thước khác nhau và nhận thấy rằng cửa sổ có kích thước trung bình (size = 7) hoạt động tốt nhất. Các phương pháp cơ sở hoạt động khá thấp (độ chính xác và chênh lệch thu hồi tương ứng là ∼24% và ∼27%) so với phương pháp tiếp cận đề xuất trong nghiên cứu này. Trong số hai kỹ thuật cơ bản, quy trình dựa trên bag-of-words hoạt động tốt hơn so với các tính năng SIFT cấp thấp. Về mặt phân loại, xấp xỉ thuần nhất của χ2-kernel luôn hoạt động tốt hơn các lựa chọn thay thế SVM tuyến tính và RF.

  1. Kết quả Phát hiện biến động

Đối với nhiệm vụ phát hiện biến động theo thời gian, vì lớp phủ rừng rất khó có khả năng biến động đột ngột tại các thời điểm gần nhau, do đó nhóm tác giả tiếp tục làm mịn các dự đoán đầu ra do các quy trình cơ sở. Với mục đích này, nhóm tác giả đã sử dụng bộ lọc trung vị đơn chiều với kích thước cửa sổ tương đối cao hơn là 5 (tương đương với dữ liệu ∼10 tháng). Lưu ý rằng kết quả đầu ra từ phương pháp tiếp cận dựa trên CNN của với sự kết hợp tính năng đã được làm sạch và không cần xử lý thêm. Kết quả mẫu về mặt đất và các chuỗi dự đoán cho trường hợp do cháy và thu hoạch được thể hiện. Phương pháp tiếp cận của nhóm tác giả cung cấp các nhãn tạm thời và có thể phát hiện nhiều thay đổi giống nhau và khác nhau xảy ra tại một địa điểm thay đổi cụ thể.

Hình 10. Kết quả mẫu của các mẫu thay đổi và trình tự thay đổi được dự đoán Trong mỗi hình, thanh trên hiển thị kết quả thật và thanh dưới cùng hiển thị dự đoán từ cách tiếp cận của nhóm tác giả.

Nhóm tác giả thực hiện phân tích độ chính xác của việc dự đoán bắt đầu/kết thúc cho mỗi sự kiện thay đổi. Sự khác biệt giữa thời điểm bắt đầu/kết thúc biến động được chỉ ra trong các dự đoán đầu ra và chú thích cho từng sự kiện riêng biệt trong Hình 12. Trung bình, điểm bắt đầu của mỗi sự kiện thay đổi được dự đoán trong Db-37 và Db-36 khác với chuỗi thay đổi cơ bản-sự thật tương ứng là 3: 2 ± 2: 3 và 4: 1 ± 2: 7 tháng. Chênh lệch điểm cuối trung bình giữa những thay đổi được dự đoán và sự thật trong Db-37 và Db-36 lần lượt là 5: 5 ± 5: 5 và 6: 9 ± 4: 8 tháng. Đối với sự bắt đầu thay đổi, nhóm tác giả coi một phát hiện hợp lệ là một phát hiện nằm trong vòng một năm kể từ điểm bắt đầu sự kiện thay đổi sự thật cơ bản. Đối với trường hợp kết thúc thay đổi, khoảng cách tối đa cho phép giữa thời gian kết thúc dự đoán và trung bình được đặt thành hai năm vì các thay đổi phục hồi chậm và không có thời gian kết thúc thay đổi nhất định. Một sự kiện được coi là bị bỏ lỡ nếu thời gian bắt đầu và thời gian bù đắp dự đoán cao hơn giới hạn cho phép. Với các giới hạn đã đề cập ở trên, các lần khởi động thay đổi 19: 2% và 22: 4% bị bỏ lỡ trong khi các hiệu số thay đổi 22: 2% và 22: 4% bị bỏ lỡ đối với Db-37 và Db-36 tương ứng. Điều quan trọng cần lưu ý ở đây là các mô hình thay đổi không rõ ràng lắm trong hầu hết các trường hợp và các chú thích về sự thật cơ bản (đặc biệt là đối với các lỗi sai lệch) được dựa trên một phán đoán chủ quan.

Để nghiên cứu ảnh hưởng của các giới hạn cho phép (ngưỡng sai số) đối với sự thay đổi trên/hiệu suất bù đắp và tỷ lệ phần trăm sự kiện bị bỏ lỡ, nhóm nghiên cứu thử nghiệm với các ngưỡng khác nhau. Lưu ý rằng khi ngưỡng sai số bắt đầu/bù đắp (theo tháng) được tăng lên, tỷ lệ các sự kiện bị bỏ lỡ giảm đều đặn. Tuy nhiên, sai số trung bình về khoảng cách taxi (taxicab distance) tăng khi ngưỡng lỗi tăng lên. Một quan sát quan trọng khác là sai số bắt đầu thay đổi tương đối thấp hơn lỗi bù thay đổi. Điều này có thể được giải thích bởi thực tế là mặc dù các sự kiện thay đổi thường bắt đầu tại một thời điểm cụ thể, quá trình khôi phục diễn ra chậm và không kết thúc tại một thời điểm duy nhất.

Nhóm tác giả cũng phân tích định tính các kết quả phát hiện trên các vùng không được gắn nhãn trong khu vực nghiên cứu. Hình 11 cho thấy kết quả phát hiện hình ảnh đầy đủ (lấy ví dụ từ năm 2003). Ngoài các vị trí thay đổi được gắn nhãn, cách tiếp cận của nhóm tác giả có thể xác định các vị trí thay đổi mới (xem hai hàng dưới cùng) và cũng dự đoán thời điểm điểm thay đổi/điểm bù của chúng trong dữ liệu thời gian. Chỉ trong ví dụ được hiển thị, phương pháp này đã phát hiện ra hơn 10 vị trí thay đổi mới. Nhóm tác giả cũng nhận thấy một vài phát hiện sai, ví dụ, một ở giữa bên phải của hình trên cùng trong Hình 11. Cách tiếp cận này có thể giảm đáng kể nỗ lực của con người đối với các chú thích thay đổi đầy đủ bằng cách giới thiệu một con người trong vòng lặp để loại bỏ bất kỳ phát hiện sai nào trên các bản vá không có nhãn. Hệ thống được đề xuất sau đó có thể được đào tạo trên tập hợp đào tạo nâng cao (bao gồm cả dữ liệu đào tạo mới được tạo), điều này sẽ cải thiện hơn nữa khả năng phát hiện biến động.

Kết quả định tính của phương pháp tiếp cận của  nhóm tác giả đối với các phần được chọn của dữ liệu chuỗi thời gian được thể hiện trong Hình 12. Đặc biệt, việc hiển thị ba chuỗi hình ảnh đầy thách thức mà cách tiếp cận của nhóm tác giả không hoàn toàn chính xác. Các ví dụ minh họa bao gồm cả những thay đổi về do cháy và thu hoạch. Thách thức đầu tiên là các thay đổi phục hồi chậm, do đó sự không khớp giữa các thời gian bù được dự đoán là hiển nhiên trong một số trường hợp (ví dụ: trình tự trên và dưới trong Hình 15). Thứ hai, các sự kiện thay đổi thuộc các loại khác nhau xảy ra ở các vùng lân cận ảnh hưởng đến hiệu suất chung. Ví dụ, một sự kiện cháy đã được dự đoán trước khi thay đổi vụ thu hoạch do sự kiện cháy gần xảy ra trong chuỗi giữa trong Hình 15. Cuối cùng, các lỗi nhỏ trong dự đoán có thể xảy ra khi các vùng thay đổi rất nhỏ có liên quan như hình minh họa ở dưới cùng của Hình 12.

Hình 11. Kết quả phát hiện biến động được chỉ ra trên ảnh
Hình 12. Ba phần nhỏ của trình tự bản vá được hiển thị. Ảnh thật và các nhãn thay đổi/không thay đổi được dự đoán được hiển thị ở góc trên cùng bên trái với màu xanh lam và màu đỏ tương ứng. Các chữ số 1, 2 và 3 ở trên cùng bên trái đại diện cho không thay đổi, thay đổi do cháy và do thu hoạch.

Kết luận

Các phương pháp phát hiện biến động lớp phủ rừng hiện nay được thực hiện ở quy mô thời gian lớn và sử dụng các đối tượng được khai báo thủ công dựa trên các thuộc tính cảnh quan. Phương pháp tiếp cận được đề xuất bởi nhóm tác giả có khả năng thực hiện phân tích và phát hiện biến động ở độ phân giải thời gian tốt hơn nhiều và tự động học các tính năng mạnh mẽ từ dữ liệu phản xạ bề mặt thô. Để đạt được độ phân giải theo thời gian tốt hơn, nhóm tác giả thực hiện inpainting bằng cách sử dụng các giá trị dữ liệu đáng tin cậy và mã hóa thưa.

Để phát hiện thay đổi, cách tiếp cận của nhóm tác giả hoạt động ở cấp độ đối tượng bằng cách xác định một tập hợp các vùng thay đổi ứng viên thông qua  sử dụng các cấu hình vùng đa độ phân giải. Nhóm tác giả sử dụng cả thông tin không gian và thời gian trong mô hình CNN sâu giúp đưa ra dự đoán tốt hơn.

Phương pháp của nhóm tác giả có thể khoanh vùng chính xác các vùng thay đổi và dự đoán chính xác thời gian bắt đầu/kết thúc của chúng trong khoảng sai số từ 3 đến 6 tháng. Trong tương lai, khả năng tạo tập dữ liệu có chú thích quy mô lớn sẽ được nghiên cứu. Điều này sẽ cho phép đào tạo các mô hình hướng dữ liệu quy mô lớn ngay từ đầu. Vì các thay đổi thú vị rất khan hiếm trong các cài đặt thực tế, nhóm tác giả cũng sẽ điều tra việc học không cân bằng lớp học của các mạng sâu để phát hiện thay đổi.

Những đóng góp chính nghiên cứu:

  • Không đi theo phương pháp truyền thống: Sử dụng kiến thức chuyên gia để trích xuất các đối tượng, nhóm tác giả sử dụng phương pháp học sâu để tự động phân loại và trích xuất các lớp đối tượng từ dữ liệu ảnh và ở quy mô thời gian tốt hơn. Các phương pháp tiếp cận dựa trên mạng nơ-ron sâu (DNN) như này cho thấy hiệu suất vượt trội trong hầu hết các nhiệm vụ thị giác máy tính như phân loại, phát hiện và phân đoạn (segmentation), và đặc biệt phù hợp để biểu thị các tín hiệu và bối cảnh không gian của chúng.
  • Không giống như các kỹ thuật phát hiện thay đổi truyền thống dựa trên giá trị pixel, phương pháp DNN được sử dụng trong đề tài kết hợp thông tin ngữ cảnh dưới dạng các mối quan hệ không gian, quang phổ và thời gian trong một mô hình mạng lưới nơ-ron phức hợp sâu mới (CNN). Do đó, phương pháp mới này được xếp vào nhóm phương pháp phát hiện thay đổi dựa trên đối tượng mạnh hơn so với các phương pháp phân loại truyền thống.
  • Các phương pháp phát hiện thay đổi dựa trên đối tượng thông thường chủ yếu dựa vào phân đoạn (segmentation) hình ảnh, điều này có thể tạo ra những vùng thay đổi quá lớn hoặc quá nhỏ. Để giảm bớt vấn đề này, nhóm tác giả đã tạo ra các đề xuất thay đổi linh động phạm vi và chọn ra một bộ ứng viên biến động với sự trợ giúp của các hồ sơ tham chiếu của khu vực với nhiều độ phân giải.

Trong nghiên cứu này, nhóm tác giả sử dụng chuỗi ảnh vệ tinh đa thời gian tại khu vực đông bắc Melbourne, Victoria, Úc. Khu vực này có diện tích 20.016,1 km2 (7.728,2 mi2). Nghiên cứu thực hiện phân tích, phát hiện những thay đổi tiềm ẩn trong lĩnh vực này và dự đoán thời gian bắt đầu và offset của chúng.

Vì chú thích chỉ có sẵn cho một số vùng thay đổi được chọn, nên nhóm tác giả đã thực hiện cả phân tích định lượng và định tính để đánh giá hiệu suất của phương pháp tiếp cận. Thông qua những kinh nghiệm đã triển khai, phương pháp này chứng minh khả năng vượt trội với điểm IOU trung bình là 84,9% và tỷ lệ thu hồi trung bình là 77,7% đối với các nhiệm vụ phân loại và phát hiện thay đổi theo thời gian.

Về dự đoán thời gian bắt đầu và kết thúc cho các thay đổi được phát hiện, phương pháp này đã dự đoán thời gian bù trừ với biên độ sai số trung bình tương ứng là 3 tháng và 6 tháng. Hiệu suất này tốt hơn đáng kể so với các phương pháp tiếp cận hiện đại nhất, với biên độ sai số tính theo năm.

Quay lại

Bạn có thể quan tâm

XEM NHIỀU