Kỳ 3- Các nền tảng công nghệ của Geo-blockchain
Công nghệ xử lý và phân tích không gian dạng phân tán
Một số Hãng trình bày mô hình tính toán geo-things hiệu suất cao, tích hợp tính toán hạt nhân và tính toán phân tán. Spark được hợp nhất và khung tính toán phân tán đa cấp và đa chi tiết của Geo-big-data được xây dựng, giúp cải thiện hiệu suất phân tích lõi Geo-things theo thứ tự độ lớn và giảm đáng kể ngưỡng ứng dụng của thuật toán lõi trong môi trường dữ liệu lớn. Hiện tại, Một số Hãng đã hỗ trợ nhiều khách hàng khai thác theo mô hình phân tán này.
Phân tích và xử lý dữ liệu không gian truyền thống: công nghệ truyền thống vẫn có thể được sử dụng với đầy đủ các toán tử thông dụng đối với các loại dữ liệu Vector, Raster và 3D:
- Phân tích và xử lý dữ liệu vectơ:
- Các tính năng phân tích dữ liệu vector dạng phân tán truyền thống bao gồm: Toán tử phân tích dữ liệu vector phân tán (Table Vector Data Distributed Analysis Operators), Toán tử phân tích dữ liệu vector phân tán dạng bảng (Vector Data Distributed Analysis Operator), Phân tích vùng lân cận (Neighbor Analysis), Tóm tắt trong lân cận (Neighbor Summary), Phân tích vùng đệm (Buffer Analysis), Truy vấn lân cận (Neighbor Query), Chồng ghép không gian (Spatial Overlay), Kết nối không gian (Spatial Connection), Phân tích chồng ghép lớp (Overlay Analysis), Phân tích so sánh (Comparative Analysis), Truy vấn Vị trí (Location Query), Truy vấn không gian (Spatial Query).
- Ví dụ về toán tử chồng ghép lớp (Overlay): có thể sử dụng 1 hay nhiều tính năng phân tích khi chồng ghép như Intersect (giao nhau), Erase (xóa), Union (hợp)... để tạo ra lớp dữ liệu mới như mong muốn. VD trong hình dưới, quy hoạch xây dựng đường yêu cầu phân tích lớp phủ dữ liệu đường quy hoạch và hiện trạng sử dụng đất. Chúng ta có thể chồng ghép 2 lớp này với nhau và tạo ra kết quả thống kê từng loại đất cần được sử dụng/giải toả để làm đường (chồng ghép và tính toán từng loại kèm theo diện tích cụ thể). Kết quả này chính là cơ sở cho kế hoạch giải tỏa đền bù và đánh giá tác động môi trường.
Một số Hãng sử dụng các file dữ liệu không gian phân tán (Distributed Spatial File - DSF) và công nghệ phân tán để thực hiện phân tích lớp phủ với dữ liệu lớn. Sơ đồ sau là 1 ví dụ về kết quả thử nghiệm phân tích chồng ghép giữa các nguồn dữ liệu lớn sử dụng (Spark-Worker:16 CPU cores, 32G)*3nodes
- Các tính năng xử lý vector truyền thống áp dụng cho các dữ liệu dạng phân tán bao gồm: Ghép nối dữ liệu (Append Data), Tính toán độ dốc (Calculate Convex Hull), Toán tử xử lý dữ liệu vector cơ bản (Classic Vector Data Processing Operator), Cắt tệp dữ liệu (Clip Dataset), Sao chép tệp dữ liệu (Copy Dataset), Tạo chỉ mục (Create Index), Tích hợp dữ liệu (Data Integration), Lấy mẫu lại tập dữ liệu (Dataset Resampling), Làm mịn tập dữ liệu (Dataset Smoothing).Dưới đây là một số ví dụ về các toán tử và kết quả xử lý
- Phân tích và xử lý dữ liệu Raster
- Các tính năng phân tích dữ liệu raster dạng phân tán truyền thống bao gồm:
- Phân tích dữ liệu raster phân tán dạng bảng: Phân tích và khai thác dữ liệu Raster (Raster Data Analysis and Mining), Tính toán raster theo hàm đại số (Algebraic Operation), Các toán tử raster (Operators), Hàm số học (Arithmetic Function), Hàm số mũ (Exponential Function), Các hàm số có điều kiện (Conditional Function), Hàm lượng giác (Trigonometric Function).
- Thống kê dữ liệu Raster: Thống kê cơ bản (Basic Statistic), Thống kê lân cận (Neighbor Statistic), Thống kê giá trị Raster (Raster value statistics), Thống kê theo vùng (Region Statistic).
- Phân tích địa hình (Terrain Analysis): Độ Dốc (Slope), Hướng sườn (Aspect), Tạo mô hình dốc 3D (3D rendering), Phân tích hướng dòng chảy (Flow Direction Analysis).
- Phân tích ảnh (Image Analysis) bằng các bộ chỉ số chuyên ngành NDVI, NDWI…
- Phân tích nội suy (Interpolation Analysis): Phân tích mật độ (Density Analysis); các phép nội suy 2D (2D Interpolation Analysis): Tuỳ thuộc vào đặc điểm và quy luật của biến số cần nội suy, chọn hàm số mô tả nó hợp lý nhất để suy đoán các điểm thiếu dữ liệu bằng các điểm dữ liệu đã biết, sau đó đánh giá sai số giữa giá trị nội suy và giá trị thực để xác định độ tin cậy của mô hình. Sai số càng bé và số lượng tập mẫu càng lớn thì độ tin cậy càng cao.
- Phân tích độ dốc (Slope Analysis): tính độ dốc và hướng dốc của bề mặt tại từng điểm ảnh và phân loại thành các khu vực như mong muốn (VD: rất dốc, thoải, bằng phẳng…) rất có ích trong các ứng dụng về quản trị tình trạng trượt lở. VD ứng dụng: tính toán phân tích để xây dựng một khu nghỉ mát trượt tuyết trên núi: cần chọn các khu vực có độ dốc khác nhau (thể hiện bằng các màu khác nhau trên ảnh) để sử dụng làm đường trượt chính, đường trượt trung gian và đường trượt nâng cao, đáp ứng nhu cầu của các cấp độ trượt tuyết khác nhau.
Độ dốc - hướng dốc và địa hình thường được phân tích liên thông để mô tả chính xác nhất về bề mặt. Như VD dưới đây, dữ liệu DEM toàn cầu được phân tích về cả 3 tham số trên và phân loại theo tính phù hợp của địa hình và thể hiện kết quả bằng các mã màu (đỏ = rất khó khăn; cam = tương đối phù hợp; vàng = phù hợp; xanh = rất thuận lợi…)
- Các tính năng xử lý dữ liệu raster dạng phân tán truyền thống bao gồm: Cắt tập dữ liệu (Clip Dataset), Chuyển đổi định dạng pixel (Pixel Format Conversion), Chuyển điểm thành lưới (Point to Grid), Chuyển đổi phép chiếu (Projection conversion), Toán tử xử lý dữ liệu Raster (Raster Data Processing Operator), Phân loại lại (Reclass), Thay đổi kích thước điểm ảnh (Resample), Xử lý hàm phân bố mảng Raster (Table Raster Data Distributed Processing), Vector hóa (Vectorization). Dưới đây là ví dụ về một số toán tử và kết quả:
- Các tính năng phân tích dữ liệu raster dạng phân tán truyền thống bao gồm:
- Xử lý dữ liệu 3D:
- BIM & Mô hình hoá thủ công: Trích xuất thuộc tính (Extract Attribute), Tạo S3M (Generate S3M), Khởi tạo mô hình đơn (Instantiate), Lưu S3M trong CSDL MongoDB (S3M Save in MongoDB), Xóa Điểm/Đa giác thừa (Remove Redundant Point/ Polygon), Hợp nhất nút gốc S3M (S3M Merge Root Node); Phân chia dữ liệu (Break up), Chuyển vùng thành mô hình 3D (Polygon Stretch to 3D Model); Gộp dữ liệu (Merge Data); Chuyển đổi khuôn dạng dữ liệu (Model Format Conversion)
- Trích xuất Vector 3D (Vector Extract): cao nhất/ thấp nhất (Max/Min Height); Monomer; lỗ khoan (Drill Hole); sửa đổi tâm (Modify Center Point); khảm ghép (Mosaic)
- Chia tách dữ liệu (Split/clip Data): hiệu chỉnh độ cao mô hình (Modify Model Height); chụp ảnh xiên (Oblique Photography); tạo file lớn (Generate Large File); tạo S3M (Generate S3M); lưu vào CSDL Mongo (Save in MongoDB)
- Nội suy/ mô hình hoá 3D (3D Interpolation Analysis/Modeling Data): gán lại kết cấu (Texture Remapping); gộp điểm gốc (Merge Root Node); trích xuất độ cao điểm/ đường (Extract Point/Line Height); nén kết cấu (Texture Compression)
- TIN: điểm/ đường đồng mức 3D (3D Point/Contour); tạo lưới tam giác TIN (Generate TIN); tạo bộ nhớ đệm (Generate Cache); gộp vào CSDL Mông (Append to MongoDB); lỗ khoan (Drill Hole); khảm ghép (Mosaic); cắt (Clip); trích xuất độ cao (Extract Height).
- Trường 3D (3D Field): ô lưới Voxel đa năng S3M (Voxel Grid Superpose S3M); tạo TIN (Create TIN); đám mây điểm (Point Cloud); tạo S3M (Generate S3M) ; lưu S3M vào CSDL Mongo (S3M Save in MongoDB). Dưới đây là minh hoạ của 1 số chức năng 3D thông dụng:
- BIM & Mô hình hoá thủ công: Trích xuất thuộc tính (Extract Attribute), Tạo S3M (Generate S3M), Khởi tạo mô hình đơn (Instantiate), Lưu S3M trong CSDL MongoDB (S3M Save in MongoDB), Xóa Điểm/Đa giác thừa (Remove Redundant Point/ Polygon), Hợp nhất nút gốc S3M (S3M Merge Root Node); Phân chia dữ liệu (Break up), Chuyển vùng thành mô hình 3D (Polygon Stretch to 3D Model); Gộp dữ liệu (Merge Data); Chuyển đổi khuôn dạng dữ liệu (Model Format Conversion)
Phân tích dữ liệu không gian lớn phân tán:
- Dựng lại quỹ đạo/truy vết:
Reconstruct Tracks được định hướng đến các đối tượng điểm hoặc bề mặt có thuộc tính thời gian, để truy vết và xây dựng/tái tạo quỹ đạo theo chuỗi thời gian và sử dụng kết quả để thành lập bản đồ tuyến (chuyển động/ vận tải…)
- Tính toán mật độ
Tính toán Mật độ được sử dụng để tính toán độ lớn trên một đơn vị diện tích trong vùng lân cận cụ thể của mỗi điểm. Kiểu dữ liệu đầu vào là điểm và các lưới hình chữ nhật/ lục giác. Ứng dụng của thuật toán này là thiết kế trạm phát sóng, tối ưu hóa mạng lưới viễn thông, lập bản đồ phân bố rủi ro của các khu vực tội phạm....
- Lọc dữ liệu theo phạm vi không gian
Các phép lọc này dựa trên định nghĩa về quan hệ không gian của các biến số theo thời gian thực cho từng phạm vi địa lý (VD: bao gồm, chứa, giao cắt, tiếp xúc…).
Ví dụ: xác định rõ các vùng địa lý có khả năng xảy ra các sự vụ an ninh và gửi tới nhân viên/xe cảnh sát theo thời gian thực (qua SMS, E-mail...) khi họ đi vào các khu vực này, đồng thời ghi lại và lập báo cáo lịch sử di chuyển vào/ra, lịch trình của từng người/phương tiện tuần tra theo các vùng địa lý này.
Các chức năng máy học với dữ liệu không gian phân tán
- Phân nhóm không gian theo mật độ
Phân nhóm không gian theo mật độ được thực hiện với một tập hợp các điểm để tạo ra các vùng không gian khi có mật độ điểm đủ cao phân bố thành cụm và khám phá mối tương quan của dữ liệu với vị trí không gian. Trong một số giải pháp, chức năng này có thể được kết hợp hiệu quả với tính toán phân tán nâng cao giúp cải thiện hiệu suất tính toán với dữ liệu quy mô lớn.
VD: phân cụm/nhóm Khu dân cư theo mật độ - thực hiện trên dữ liệu các khu dân cư ở Bắc Kinh: Các khu dân cư được phân loại theo cụm → kết quả cho thấy: tổng thể dân cư phân bố dày đặc tại các khu vực Đường vành đai 3 (và một số Đường vành đai 4) - là khu vực lõi của Bắc Kinh; bên ngoài Đường Vành đai 3 các khu co cụm rải rác thành nhiều nhóm quy mô lớn, chẳng hạn như các khu dân cư như Zhongguancun, Wangjing và Chaoqing.
- Máy học hỗ trợ phân loại vector
Máy hỗ trợ vector - SVM (Support Vector Machine) là một thuật toán phân loại có giám sát phổ biến trong máy học. Nó là một mô hình phân loại nhị phân với mục đích tìm một biến siêu phẳng để phân đoạn tập mẫu. Biến siêu phẳng có thể loại bỏ các cực trị dị biệt trong tập mẫu. Nguyên tắc phân loại là tối đa hóa các khoảng. Phương pháp này giải quyết được các vấn đề thực tế trong phân loại như mẫu nhỏ, độ phi tuyến tính cao, có cực trị cục bộ. Nó được sử dụng rộng rãi trong xử lý hình ảnh, khai thác dữ liệu và các lĩnh vực khác.
- Hồi quy tuyến tính tổng quát
Phương pháp này thường được sử dụng để dự đoán hoặc mô hình hóa quan hệ giữa biến phụ thuộc và một tập hợp các biến giải thích. Xác định và lượng hoá mối quan hệ giúp hiểu rõ hơn quy luật xảy ra ở một địa điểm, dự đoán khả năng có thể xảy ra ở một địa điểm hoặc điều tra lý do của sự việc. Mô hình hồi quy này mở rộng phân phối của biến phụ thuộc sang họ phân phối hàm mũ (phân phối Gaussian, phân phối Bernoulli, phân phối Poisson) và nó có thể giải quyết các vấn đề phân tích hồi quy của các biến ngẫu nhiên rời rạc và liên tục, đặc biệt là dữ liệu thuộc tính và dữ liệu rời rạc. Nó có tính ưu việt khi giải các biến không liên tục và không số.
Mô hình hóa xử lý dữ liệu địa lý phân tán
Với sự ra đời của kỷ nguyên dữ liệu lớn, con người có nhu cầu ngày càng cấp thiết về tự động hóa và hiệu suất xử lý dữ liệu lớn theo không gian. Để đạt được điều này, cần phải cung cấp một khung mô hình thống nhất. Và các mô hình xử lý địa lý chạy thông qua các nhà khai thác xử lý địa lý, có thể thực hiện tự động hóa quá trình xử lý và phân tích dữ liệu lớn theo không gian.
Một số Hãng đã phát triển một khung mô hình thống nhất phân tán cho dữ liệu lớn theo không gian - thời gian. Khung mô hình phân tán đóng vai trò là cơ sở để xây dựng các mô hình kinh doanh trong phần mềm ứng dụng cấp cao hơn. Nó bao gồm vô số toán tử xử lý dữ liệu không gian phân tán, toán tử nhập và xuất, phân tích vector, phân tích raster và toán tử học máy phân tán, v.v ... Đồng thời, nó có thể hỗ trợ người dùng sử dụng nhiều ngôn ngữ phát triển (Java / Scala / Python ) để tùy chỉnh các toán tử và liên kết với các toán tử hiện có.
Hơn 200 phương pháp tính toán phân tán đã được triển khai trong các công cụ lập mô hình phân tán của một số Hãng và chúng đã được áp dụng cho dịch vụ xử lý địa lý (Geoprocessing Modeler) trong các sản phẩm máy chủ và hộp công cụ trong các sản phẩm máy tính để bàn.
Hộp công cụ dữ liệu lớn dựa trên sản phẩm của Một số Hãng iDesktopX hoặc dịch vụ xử lý địa lý của Một số Hãng iServer có thể cung cấp hơn 200 điều phối và kết hợp các toán tử phân tích và xử lý phân tán, đồng thời nhận ra rằng dữ liệu không gian hoặc kết quả phân tích dựa trên lưu trữ phân tán có thể được sử dụng trực tiếp bởi "bản đồ xuất bản dịch vụ ”. Xuất bản phụ lên dịch vụ bản đồ của Một số Hãng iServer để duyệt web.
Công nghệ GIS đám mây nguyên bản (native).
Điện toán đám mây là một mạng dựa trên thông tin cung cấp các tài nguyên công nghệ thông tin một cách năng động và linh hoạt trong một chế độ dịch vụ. Người dùng có thể sử dụng các mô hình tính toán và mô hình dịch vụ khi cần thiết.
Hệ thống ứng dụng điện toán đám mây bao gồm ba giai đoạn: Cloud-Enabled, Cloud-Ready và Cloud-Native: Cloud-Enabled, di chuyển các ứng dụng chạy trong máy vật lý sang môi trường ảo hóa, cho phép phân phối tài nguyên nhanh chóng; Cloud-Ready là đạt được tính năng lồng ghép đàn hồi của các máy chủ đám mây, nhưng độ chi tiết của mô-đun quá lớn, kiến trúc phức tạp và khổng lồ; Cloud-Native tận dụng tối đa các lợi thế của điện toán đám mây và kết hợp chìa khóa của microservices, công nghệ vùng chứa và điều phối tự động. Công nghệ để đạt được các khả năng đám mây tinh chỉnh và tự động.
Một số Hãng tích hợp sâu công nghệ GIS và công nghệ điện toán đám mây, trải qua ba giai đoạn phát triển GIS đám mây và cuối cùng đã hình thành hệ thống GIS tích hợp Cloud-Edge-Terminal. Cloud-Edge-Terminal GIS tích hợp bao gồm bốn phần: công nghệ Cloud Native GIS, công nghệ GIS điện toán biên, công nghệ đầu cuối GIS và GIS tích hợp.
Nền tảng Cloud Native GIS là nhà cung cấp dịch vụ trong hệ thống tích hợp phía đám mây. Dựa trên kiến trúc vi dịch vụ GIS, công nghệ lưu trữ, công nghệ điều phối tự động, lưu trữ và phân tích dữ liệu không gian, nó cung cấp hiệu suất cao, tính sẵn sàng cao và khả năng dịch vụ GIS có độ tin cậy cao.
Quản lý dịch vụ và vi dịch vụ
Kiến trúc microservice là một phong cách kiến trúc phần mềm. Kiến trúc microservice GIS đề cập đến việc tách một ứng dụng GIS truyền thống thành nhiều dịch vụ vi mô có thể triển khai độc lập. Bằng cách này, sự phụ thuộc giữa các dịch vụ GIS được làm rõ và tách rời từ các ứng dụng một-một thành phân tán, mang lại sự linh hoạt và đa dạng kỹ thuật hơn cho việc triển khai phát triển. Đồng thời, hệ thống GIS có thể tận dụng tối đa lợi thế của điện toán đám mây, xây dựng và chạy các ứng dụng một cách đàn hồi trong các môi trường động mới (công cộng, riêng tư và đám mây) để tránh tương tác giữa các dịch vụ khác nhau, giúp hệ thống ổn định hơn.
Sau microservice, nền tảng quản lý dịch vụ được xây dựng để thực hiện các chức năng đăng ký dịch vụ, cân bằng tải, mở rộng quy mô đàn hồi, giám sát và vận hành, v.v., để đảm bảo khả năng mở rộng và tính sẵn sàng cao của GIS.
Triển khai đa nút và phân cấp quy mô đàn hồi
Việc áp dụng công nghệ container hóa vào GIS có thể làm cho việc triển khai GIS trở nên linh hoạt hơn và đạt tiêu chuẩn hơn, trong khi độ giảm hiệu suất thấp hơn so với máy ảo. Đồng thời, vùng chứa là một phương tiện vận chuyển tuyệt vời cho các dịch vụ vi mô và các dịch vụ GIS phục vụ vi mô được đóng gói trong các hộp chứa, có kích thước nhỏ hơn, sử dụng tài nguyên cao hơn và linh hoạt hơn trong triển khai. Nhờ công nghệ container nhẹ, việc khắc phục thảm họa của các ứng dụng GIS đám mây cũng linh hoạt hơn, và các nút GIS có vấn đề có thể nhanh chóng bị phá hủy và tái tạo. Đối với nút GIS có trạng thái đang chạy, tùy thuộc vào cơ chế chia sẻ của vùng chứa, trạng thái đang chạy có thể được trích xuất ra bên ngoài vùng chứa, do đó đảm bảo khôi phục tự động sau khi xây dựng lại.
Cloud GIS kết hợp với sơ đồ điều phối tự động có thể thực hiện quản lý nút dịch vụ GIS phân tán và tự động, cung cấp các tính năng như xây dựng trang web nhanh chóng, tự phục hồi, nâng cấp liền mạch và lồng kính thiên văn ngang. Sau vài năm phát triển, Kubernetes đã trở thành tiêu chuẩn điều phối vùng chứa trên thực tế, vì vậy Một số Hãng iManager sử dụng Kubernetes để cung cấp điều phối tự động các vùng chứa GIS khác nhau (bao gồm cả các dịch vụ GIS), chẳng hạn như triển khai một cú nhấp chuột Trang web dữ liệu lớn không gian liên quan đến nhiều hiệp hội công nghệ phân tán .
Vận hành và Quản lý Thông minh Tích hợp
Trong môi trường sản xuất thực tế của các ứng dụng GIS đám mây, do sự khác biệt về nền tảng người dùng, những người dùng khác nhau có các lựa chọn khác nhau cho nền tảng quản lý điện toán đám mây, chẳng hạn như VMware vSphere, nền tảng điện toán đám mây thương mại của Huawei FusionSphere và nền tảng đám mây nguồn mở OpenStack. Đối mặt với những vấn đề trên, Một số Hãng đã đề xuất một cách sáng tạo hệ thống công nghệ quản lý vận hành và bảo trì nền tảng đám mây không đồng nhất GIS, che chắn sự khác biệt giữa các nền tảng đám mây không đồng nhất thông qua tùy chỉnh hình ảnh GIS, kết nối API nền tảng đám mây, điều phối kinh doanh GIS và các công nghệ khác. Để triển khai tích hợp môi trường GIS thông minh; thực hiện quản lý thống nhất tất cả các nút GIS trên đám mây.
Trong giải pháp Một số Hãng GIS Cloud Native, các microservices GIS nhận ra việc triển khai nhanh chóng phổ biến thông qua container hóa, thực hiện triển khai container tự động, phân tán, mở rộng và quản lý thông qua tổ chức Kubernetes và kết nối các dịch vụ GIS thông qua Một số Hãng iManager, chẳng hạn như quản lý lưu trữ, quản lý bảo mật, quản lý nhật ký, giám sát, mở rộng quy mô đàn hồi, v.v. Một số Hãng iManager là trung tâm GIS linh hoạt điều phối năng động của SuperMap. Nó cũng kết thúc và đơn giản hóa việc sử dụng các thùng chứa và Kubernetes. Người dùng không cần quen thuộc với Kubernetes, họ vẫn có thể xây dựng hệ thống Cloud Native GIS.