Geo-blockchain – Tương lai của công nghiệp dữ liệu không gian quy mô lớn

GIỚI THIỆU

Công nghệ chuỗi khối (Blockchain) đã thu hút sự chú ý của công chúng thông qua sự phát triển của các loại tiền điện tử như bitcoin. Tuy nhiên, công nghệ chuỗi khối còn có nhiều ứng dụng khác, trong đó việc thay đổi và chia sẻ thông tin đồng thời có thể cập nhật một khối dữ liệu bằng cách sử dụng môi trường bảo mật/ mã hoá. Nó là một thiết kế mở và phân tán cho phép các giao dịch được thực thi đồng thời theo thời gian thực.

Đối với các công nghệ không gian và quan trắc Trái đất, chỉ tới gần đây các nhà nghiên cứu mới bắt đầu xem xét điều gì có thể hữu ích trong việc áp dụng công nghệ blockchain. Cơ quan Vũ trụ Châu Âu gần đây đã kêu gọi các ý tưởng và ứng dụng mới của blockchain để khám phá Trái đất. Liên minh châu Âu gần đây đã tài trợ cho các dự án áp dụng công nghệ blockchain vào nghiên cứu, chẳng hạn như chia sẻ và sử dụng đồng thời dữ liệu khoa học, nơi Cơ quan Vũ trụ châu Âu tìm cách tạo ra các cách thức để thông tin có thể được sử dụng liên thông và đồng thời giữa các tổ chức khác nhau.

Ở Trung Quốc, đã có sự phát triển của một giao thức, dựa trên hệ thống của Ủy ban Tư vấn về Hệ thống Dữ liệu Không gian (CCSDS), sử dụng định dạng chung của TCF để gửi dữ liệu, cho phép các vệ tinh giao tiếp và chia sẻ tài nguyên hoặc áp dụng các chức năng giao tiếp mà không lặp lại chức năng của vệ tinh khác. Điều này, một cách hiệu quả, có nghĩa là một giao thức dựa trên blockchain – cho phép các vệ tinh, bao gồm cả những vệ tinh không được tạo ra bằng cách sử dụng cùng một hệ điều hành, hoạt động đồng thời với nhau bằng cách sử dụng chia sẻ và giao tiếp dữ liệu chung.

Trong khi quan trắc Trái đất là một lĩnh vực mà công nghệ blockchain có thể có tiềm năng sử dụng, lĩnh vực y tế đã bắt đầu khám phá blockchain để chia sẻ và cung cấp thông tin y tế an toàn về bệnh nhân và dữ liệu của nhà cung cấp. Việc sử dụng blockchain đã bao gồm việc áp dụng các hệ thống tọa độ không gian tiền điện tử, với việc bảo mật chia sẻ thông tin về vị trí, một lợi ích chính của blockchain, kết hợp bối cảnh không gian bất biến, nơi các tham chiếu thời gian và không gian là một phần của hồ sơ được lưu giữ trong blockchain. Việc tích hợp blockchain với trí tuệ nhân tạo (AI) dự  kiến có thể được sử dụng để đánh giá bệnh nhân và nhà cung cấp dịch vụ chăm sóc sức khỏe. Sử dụng chuỗi dữ liệu di chuyển lịch sử an toàn, AI có thể được sử dụng để xác định nhu cầu chăm sóc sức khỏe dựa trên các hoạt động hàng ngày.

Các lĩnh vực khác cũng đã bắt đầu khám phá việc sử dụng blockchain, chẳng hạn như trong quản lý đất đai. Trong trường hợp này, một số ứng dụng đã được sử dụng để đánh giá cách dữ liệu an toàn có thể được truy cập đồng thời có thể mang lại kiến thức thời gian thực và hiệu quả hơn về các thửa đất, bao gồm quyền sở hữu, thảm thực vật và sự thay đổi theo mùa. Tuy nhiên, cho đến nay, các ứng dụng còn tương đối hạn chế và chưa được khám phá đầy đủ cho các ứng dụng phức tạp hơn.

Một ứng dụng thú vị có tên là Littercoin, là một loại ứng dụng blockchain được phát triển từ OpenLitterMap sử dụng dữ liệu không gian địa lý về rác được chia sẻ giữa một nhóm người dùng. Người dùng chỉ cần tải lên dữ liệu về rác nhựa mà họ phát hiện ở đó dữ liệu được chia sẻ và chỉnh sửa bởi những người dùng khác nhau. Littercoin thưởng cho người dùng khi họ báo cáo vị trí của rác nhựa ở một địa điểm. Littercoin không có phần thưởng bằng tiền nhưng mục đích cuối cùng là tạo động lực tiền tệ cho mọi người để giúp giữ cho khu vực địa phương của họ sạch sẽ khỏi rác thải nhựa.

Blockchain ngày càng trở thành một loại hình công nghệ mà nhiều người trong chúng ta đang biết đến. Tuy nhiên, ứng dụng của nó bên ngoài tiền điện tử vẫn còn tương đối hạn chế. Đây là trường hợp của các công nghệ không gian. Hầu hết các ứng dụng là thử nghiệm hoặc dựa trên các khu vực mục tiêu hạn chế. Tuy nhiên, điều này có thể thay đổi khi các lợi ích ngày càng được nhận ra, chẳng hạn như đồng thời chia sẻ dữ liệu an toàn và cho phép cộng đồng các nhà cung cấp dịch vụ, ví dụ như trong ngành y tế, theo dõi thông tin nhạy cảm theo thời gian và không gian.

TỔNG QUAN

Phần mềm cơ bản của Hệ thống Thông tin Địa lý (GIS) là một hỗ trợ quan trọng cho việc xây dựng và số hóa thông tin. Nó được sử dụng rộng rãi trong nhiều lĩnh vực, từ  chính phủ, quân đội, doanh nghiệp tới cá nhân và các tổ chức. Và nó là phần mềm cơ bản trong các lĩnh vực quan trọng như thành phố kỹ thuật số song lập (Dual digital city), đo đạc cơ bản và lập bản đồ toàn không gian. GIS phân tán là một trong những hướng phát triển quan trọng nhất của công nghệ phần mềm cơ bản GIS hiện nay và là một yêu cầu tất yếu đối với việc nâng cấp công nghệ thông tin và có nhu cầu thị trường rất lớn.

Với sự phát triển nhanh chóng của các công nghệ như Internet, Internet di động và Internet kết nối vạn vật, các nguồn đa phương tiện như cảm biến di động, thiết bị di động cá nhân và mạng xã hội tiếp tục tạo ra một lượng dữ liệu lớn về mặt không gian, với quy mô khổng lồ, phát tán nhanh chóng, đa dạng, mật độ cao nhưng giá trị thấp và nhiều tính năng mới khác.

Tuy nhiên, dữ liệu không gian theo thời gian ngày càng tăng với cấp số nhân không chỉ mang lại nguồn dữ liệu phong phú hơn cho GIS truyền thống mà còn đặt ra những thách thức trong quản lý, tính toán, phân tích và dịch vụ dữ liệu. Các biểu hiện cụ thể là:

  1. Các tệp NAS/ SAN hoặc các cụm SQLDB được sử dụng chủ yếu. Khi đối mặt với dữ liệu không gian quy mô cực lớn phát triển từ mức GB, TB đến PB sẽ gặp phải các vấn đề như khả năng xử lý đồng thời cao, khả năng tương tác dữ liệu yếu và khả năng tương tác dữ liệu hạn chế;
  2. Phân tích tính toán chủ yếu dựa trên việc lập lịch ở cấp độ nhiệm vụ chức năng. Khi lượng dữ liệu GIS tăng lên, khi thời gian tính toán của một nhiệm vụ chức năng đơn lẻ sẽ dài tới vài tuần hoặc thậm chí vài tháng, lúc này, việc lập lịch biểu cho các nhiệm vụ ở cấp chức năng không thể cải thiện đáng kể hiệu suất của hệ thống, dẫn đến giảm tính kịp thời, do đó, yêu cầu về khám phá mô hình mới xử lý và tính toán phân phối phân phối-song song-kết hợp trở nên cấp thiết;
  3. Các nút phân tán chủ yếu được triển khai trong các cụm nhiều máy và máy ảo. Kích thước nút càng lớn thì việc sử dụng tài nguyên càng thấp và số lượng nút lại bị hạn chế (10-100). Trong các trường hợp khẩn cấp, không thể lên lịch nhanh chóng và linh hoạt để đạt được phản ứng nhanh với CSDL thông tin địa lý;
  4. Mô hình phân cấp chủ yếu dựa trên ba cấp độ (lưu trữ, dịch vụ và thiết bị đầu cuối). Nó không thể đạt được tỷ lệ co giãn chi tiết của tài nguyên máy tính. Phương pháp này thiếu lớp tính toán về GIS và bỏ qua các sức mạnh tính toán của các thiết bị tiên tiến.

Để đáp ứng những thách thức trên, một số hãng phần mềm GIS đã xây dựng một hệ thống công nghệ GIS phân tán hoàn chỉnh sau nhiều năm nghiên cứu. Họ đã phát triển một loạt các sản phẩm GIS phân tán – thực hiện công nghiệp hóa quy mô lớn và tích hợp dữ liệu không gian thời gian với quy mô cực lớn, bao gồm quản lý lưu trữ, tính toán phân tán hiệu suất cao với đầy đủ quy trình, xây dựng kiến trúc phần mềm có các dịch vụ nhỏ, độ tùy chỉnh cao, chạy đồng thời và tính toán biên trên dữ liệu không gian với độ trễ thấp, v.v.

Hệ thống công nghệ GIS phân tán

Công nghệ GIS phân tán bao gồm: công nghệ xử lý và công cụ thao tác dữ liệu không gian phân tán, không gian blockchain, xử lý và phân tích không gian phân tán, công nghệ xử lý tạo đám mây GIS gốc và công nghệ GIS tiên tiến, hỗ trợ lưu trữ và quản lý dữ liệu không gian cổ điển khổng lồ và dữ liệu không gian quy mô lớn và Phân tích, xử lý, hiển thị và xuất bản chúng. Đây chính là những thành tựu mang tính đột phá trong kỷ nguyên dữ liệu không gian dung lượng lớn, hiệu suất cao, đa luồng với tính sẵn sàng và độ tin cậy cao. Công nghệ phân tán của một số hãng phần mềm GIS thường xây dựng một mô hình phân tán mới với sự cộng tác của các thiết bị đầu cuối tích hợp trên đám mây. Kiến trúc điển hình của mô hình này thường phân tầng như sau:

Hệ thống công nghệ GIS phân tán điển hình

Các công nghệ cụ thể bao gồm:

  • Dựa trên mô hình tích hợp dữ liệu không gian để thực hiện việc quản lý thống nhất dữ liệu không gian khổng lồ, không đồng nhất, đa nguồn và nhận biết phân bố vật lý và logic thống nhất của dữ liệu không gian siêu lớn.
  • Cung cấp các công cụ lưu trữ dữ liệu không gian phân tán cho các kịch bản ứng dụng khác nhau, bao gồm hệ thống tệp không gian phân tán, cơ sở dữ liệu không gian SQL phân tán, cơ sở dữ liệu không gian NoSQL phân tán.

Thông qua việc tích hợp công nghệ dữ liệu không gian với Hyperledger Fabric (một chuỗi liên hợp có khả năng mở rộng tốt, tính phổ biến cao, nguồn mở và tính khả dụng thương mại) một số hãng phần mềm GIS cung cấp một phương pháp lưu trữ dữ liệu không gian phân tán đặc biệt, trong đó kết hợp các đặc điểm của dữ liệu không gian để cung cấp IPFS, như một bộ lưu trữ ngoài với các khả năng chính của dữ liệu trên chuỗi, tạo ra một cơ chế quản lý chuỗi khối dữ liệu không gian có độ an toàn cao, có thể theo dõi và độ tin cậy cao.

Thông qua việc tích hợp sâu hơn các toán tử phân tích không gian và khung tính toán phân tán hiệu suất cao Spark, một số hãng phần mềm GIS cung cấp hơn 200 phép tính xử lý và phân tích không gian phân tán, hỗ trợ gần như đầy đủ nhu cầu phân tích dữ liệu đa dạng của người dùng. Công nghệ kết xuất phân tán động hiệu suất cao và công nghệ phân tích thời gian thực có thể hỗ trợ trực quan hóa đối với dữ liệu lớn với hiệu suất rất cao. Một số hãng phần mềm GIS còn đồng thời cung cấp một khung mô hình địa lý phân tán hỗ trợ hiệu quả việc xây dựng tùy chỉnh và xuất bản, chia sẻ các mô hình miền dữ liệu không gian khác nhau. Công nghệ này đáp ứng được nhu cầu cập nhật thường xuyên, phân tích hiệu quả, xuất bản tức thì và duyệt nhanh dữ liệu không gian quy mô siêu lớn.

Một số hãng phần mềm GIS lại sử dụng công nghệ microservices để xây dựng mô hình GIS phân tán và triển khai các nâng cấp bảo trì dưới dạng điều phối vùng lưu trữ để thực hiện việc xuất bản nhanh chóng và triển khai các microservices GIS một  cách thông minh. Các vùng lưu trữ, phục vụ triển khai hoặc trung chuyển có thể tự động hóa việc sắp xếp và quản lý bảo trì, để thực hiện triển khai nhanh chóng hàng loạt và mở rộng quy mô của hàng nghìn dịch vụ GIS một cách linh động. Cơ chế này cho phép hỗ trợ rất tốt hoạt động hiệu quả của các hệ thống GIS phân tán phức tạp.

Một số hãng phần mềm GIS khác lại sử dụng các tính năng khác nhau của điện toán biên để hỗ trợ các yếu tố của ứng dụng GIS, vượt qua chế độ của điện toán trung tâm và hiển thị thiết bị đầu cuối truyền thống, đồng thời tối ưu hóa toàn bộ quy trình ứng dụng GIS theo cách linh hoạt, hiệu quả và chi phí thấp hơn. Nói cách khác, các hãng này tạo ra một mô hình mới của  ứng dụng cộng tác GIS đầu cuối trên đám mây và đạt được phản hồi độ trễ thấp trong các tình huống xử lý đa luồng với hiệu suất khá cao.

Công nghệ công cụ dữ liệu không gian phân tán

Công cụ dữ liệu không gian phân tán

Dựa trên mô hình tích hợp dữ liệu không gian phân tán, công nghệ công cụ dữ liệu không gian phân tán của các hãng phần mềm GIS bao gồm: hệ thống tệp không gian phân tán, cơ sở dữ liệu không gian SQL phân tán và cơ sở dữ liệu không gian NoSQL phân tán. Trong số đó, dữ liệu không gian-thời gian ở các định dạng lưu trữ khác nhau được truy cập thông qua các công cụ dữ liệu khác nhau và mô hình tích hợp được sử dụng để chuyển đổi phân tán, cung cấp hỗ trợ cơ bản hoàn chỉnh cho phần mềm GIS phân tán tiếp theo.

Ví dụ về Mô hình Công cụ dữ liệu không gian phân tán của SuperMapGIS

Hệ thống tệp không gian phân tán

  • Công cụ tệp không gian HDFS

HDFS (Hệ thống tệp phân tán Hadoop) chủ yếu được sử dụng để lưu trữ dữ liệu lớn không có cấu trúc, ít cập nhật hơn, chẳng hạn như CSV, TXT, GeoJSON, v.v… HDFS đặc biệt thích hợp làm nguồn dữ liệu cho tính toán phân tán kết hợp với Spark để đáp ứng các yêu cầu về hiệu suất của không gian phân tích dựa trên tính toán phân tán.

Trên nền tảng thông tin cơ bản của phạm vi không gian, 240 triệu bản ghi đã được lưu trữ và lập chỉ mục trong cơ sở dữ liệu HDFS.

Chỉ mục và lưu trữ HDFS
  • Công cụ tệp không gian DSF

DSF (Tệp Không gian Phân tán) là một công cụ lưu trữ phân tán được cung cấp bởi một số hãng phần mềm GIS. Nó tập trung vào việc nâng cấp toàn diện quản lý dữ liệu nâng cao, lưu trữ hiệu quả dữ liệu vector, dữ liệu raster và dữ liệu ảnh. Hệ thống tệp và lưu trữ đám mây hỗ trợ nhiều loại lưu trữ để đạt được phân tích lớp phủ và truy vấn trên dữ liệu nguyên trạng (không nén, không giản lược…). Dữ liệu được tính toán bằng cách lập lưới và phản hồi trên phần nghìn giây của truy vấn dữ liệu mức Terabytes được thực hiện với khả năng phân tích phân tán mạnh mẽ. Khi nhu cầu của người dùng tăng lên, họ có thể dễ dàng thêm các chức năng của sản phẩm thông qua việc mở rộng theo chiều ngang.

Cơ sở dữ liệu không gian SQL phân tán

  • Công cụ dữ liệu không gian Postgres-XL

Cơ sở dữ liệu Postgres-XL chủ yếu được sử dụng để lưu trữ dữ liệu động thay đổi liên tục, chẳng hạn như dữ liệu vector lớn, dữ liệu ảnh ở mức PB, v.v. Postgres-XL là cơ sở dữ liệu quan hệ phân tán điển hình với SQL mạnh và khả năng truy vấn nhanh.

Một số hãng phần mềm GIS sử dụng công cụ dữ liệu không gian Postgres-XL để hỗ trợ lưu trữ hiệu quả một lớp đơn với hàng tỷ tính năng (VD: 500GB dữ liệu vectơ OpenStreetMap) và công cụ nhận ra phản hồi tương tác trong 1 giây.

Lưu trữ dữ liệu vectơ cấp triệu dựa trên Postgres-XL (PostGIS)
  • Các công cụ dữ liệu không gian khác

Ngoài ra, một số hãng phần mềm GIS cũng hỗ trợ nhiều loại cơ sở dữ liệu không gian phân tán, chẳng hạn như Oracle RAC, SQL Server Cluster, v.v. Một các nhà cung cấp phần mềm GIS cũng tích cực hợp tác với nhiều nhà sản xuất khác nhau để cung cấp hỗ trợ kỹ thuật toàn diện cho việc lựa chọn công cụ dữ liệu của người dùng.

Cơ sở dữ liệu không gian NoSQL phân tán

  • Công cụ dữ liệu không gian-thời gian HBase

HBase (cơ sở dữ liệu Hadoop) chủ yếu được sử dụng để lưu trữ dữ liệu động và tĩnh quy mô lớn, chẳng hạn như dữ liệu raster (như GeoTIFF), dữ liệu vector (như UDB / UDBX, Shapefile, GDB, v.v.) và các dữ liệu tệp khác nhau. HBase có khả năng mạnh để truy vấn dữ liệu, đọc dữ liệu và ghi dữ liệu, phù hợp để đọc và ghi thời gian thực và truy cập ngẫu nhiên vào dữ liệu quy mô lớn.

Một số hãng phần mềm GIS hiện thực hóa việc lưu trữ và đọc dữ liệu vector nhanh chóng với 1,5 tỷ dữ liệu tuyến tính và 2,8 tỷ đa giác dựa trên cơ sở dữ liệu HBase.

  • Công cụ ô gạch MongoDB

Cơ sở dữ liệu MongoDB chủ yếu được sử dụng để lưu trữ dữ liệu xếp (ô raster, ô vector và ô 3D), chẳng hạn như tệp OSGB của mô hình chụp ảnh 3D …v.v. MongoDB là cơ sở dữ liệu phân tán Key – Giá trị điển hình – để lưu trữ dữ liệu bộ nhớ đệm và ô lớn. một số hãng phần mềm GIS sử dụng cụm cơ sở dữ liệu phân tán MongoDB để thực hiện lưu trữ dữ liệu của hàng chục tỷ ô (700GB). Và trong thử nghiệm kịch bản với 100 yêu cầu đồng thời của khách hàng, thời gian phản hồi trung bình là dưới 1 giây.

Công cụ cơ sở dữ liệu hình dựa trên MongoDB
  • Công cụ dữ liệu không gian công nghệ Elasticsearch

Elasticsearch chủ yếu được sử dụng để lưu trữ dữ liệu luồng liên tục, nhanh, lớn và đến liên tục. Những dữ liệu này thường xác định thông tin vị trí như dữ liệu GNSS, dữ liệu Internet of Things, v.v. Nó cung cấp công cụ tìm kiếm văn bản đa người dùng phân tán có thể đạt được yêu cầu chức năng tìm kiếm theo thời gian thực, ổn định, đáng tin cậy và nhanh chóng.

Dựa trên Elasticsearch, một số hãng phần mềm GIS đã ghi nhận được tập hợp thời gian thực của 1 tỷ dữ liệu quỹ đạo. 

Công cụ dữ liệu hình dựa trên Elasticsearch

(còn tiếp)

Tăng Tài Đức, Nguyễn THị Nhung và Bùi Mạnh Linh lược dịch.