Nhận dạng ngôn ngữ ký hiệu liên tục không gian-thời gian mới bằng cách sử dụng mạng đa tính năng chú ý(1)
Jun 01, 2023
trừu tượng: Với các luồng video, chúng tôi mong muốn phát hiện chính xác các dấu hiệu không được phân đoạn liên quan đến nhận dạng ngôn ngữ ký hiệu liên tục (CSLR). Bất chấp sự gia tăng các phương pháp học sâu được đề xuất trong lĩnh vực này, hầu hết chúng chủ yếu tập trung vào việc chỉ sử dụng một tính năng RGB, hình ảnh toàn khung hình hoặc các chi tiết của bàn tay và khuôn mặt. Sự khan hiếm thông tin cho quy trình đào tạo CSLR hạn chế rất nhiều khả năng tìm hiểu nhiều tính năng bằng cách sử dụng các khung hình đầu vào video. Ngoài ra, việc khai thác tất cả các khung hình trong video cho tác vụ CSLR có thể dẫn đến hiệu suất dưới mức tối ưu vì mỗi khung hình chứa một mức thông tin khác nhau, bao gồm các tính năng chính trong suy luận nhiễu. Do đó, chúng tôi đề xuất nhận dạng ngôn ngữ ký hiệu liên tục theo không gian mới bằng cách sử dụng mạng đa tính năng chu đáo để nâng cao CSLR bằng cách cung cấp các tính năng điểm chính bổ sung. Ngoài ra, chúng tôi khai thác lớp chú ý trong các mô-đun không gian và thời gian để nhấn mạnh đồng thời nhiều tính năng quan trọng. Kết quả thử nghiệm từ cả hai bộ dữ liệu CSLR chứng minh rằng phương pháp được đề xuất đạt được hiệu suất vượt trội so với các phương pháp tiên tiến hiện tại theo 0.76 và 20.56 cho điểm WER trên bộ dữ liệu CSL và PHOENIX, tương ứng.

Hầm thảo dược siêu nhân
từ khóa: ngôn ngữ ký hiệu liên tục; không gian; thời gian; đa tính năng; những điểm chính; tự chú ý
1. Giới thiệu
Ngôn ngữ ký hiệu ưu tiên giao tiếp thủ công bằng cử chỉ tay, ngôn ngữ cơ thể và cử động môi thay vì âm thanh để giao tiếp [1,2]. Thông thường, ngôn ngữ ký hiệu được sử dụng bởi những người khiếm thính hoặc nghe kém, nhưng ngôn ngữ này cũng có thể được sử dụng trong những trường hợp không thể hoặc khó nghe thấy âm thanh. Do đó, cần có một hệ thống nhận dạng ngôn ngữ ký hiệu (SLR) vì nó giúp kết nối những người khiếm thính và những người không nghe kém.
Trong những năm gần đây, các nhà nghiên cứu đã tập trung nhiều sự chú ý vào SLR vì thông tin hình ảnh phong phú mà nó cung cấp. Các nghiên cứu SLR gần đây thường được nhóm thành nhận dạng ngôn ngữ ký hiệu riêng biệt (ISLR) hoặc nhận dạng ngôn ngữ ký hiệu liên tục (CSLR). Một số công trình chỉ đề cập đến ISLR [3,4], trong khi những công trình khác chỉ phân tích các nhiệm vụ dễ dàng hơn, chẳng hạn như cử chỉ tĩnh để nhận dạng bảng chữ cái [5]. Trong khi đó, các phương pháp mới nhất thường phức tạp hơn khi chúng giải quyết các nhiệm vụ CSLR [6–8]. So với ISLR, CSLR là một vấn đề khó khăn hơn vì nó liên quan đến việc xây dựng lại các câu.

trà bí đao
Nhấn vào đây để xem các sản phẩm trà Cistanche Deserticola
【Yêu cầu thêm】 Email:cindy.xue@wecistanche.com / Ứng dụng Whats: 0086 18599088692 / Wechat: 18599088692
Nhu cầu nghiên cứu về CSLR vẫn rất lớn vì việc thực hiện nó liên quan mật thiết đến các điều kiện hàng ngày trong thế giới thực. Cách tiếp cận này nhằm mục đích nhận ra một loạt bóng xuất hiện trong một chuỗi video mà không có sự phân đoạn rõ ràng hoặc thậm chí không có gì cả. Hơn nữa, nó kết hợp rất nhiều nghiên cứu về máy học và sự hiểu biết thấu đáo về hành vi của con người. Chẳng hạn, nó liên quan đến theo dõi chuyển động của con người [9], nhận dạng cử chỉ [10] và nhận dạng khuôn mặt [11]. Tuy nhiên, có một số thách thức để thực hiện các nhiệm vụ CSLR.
Đầu tiên, việc thu thập và chú thích dữ liệu rất tốn kém đối với CSLR [12]. Đây có lẽ là một trong những thách thức phải đối mặt trong quá trình phát triển vì CSLR tham gia vào một mạng lớn và lượng dữ liệu ảnh hưởng mạnh đến hiệu suất [13]. Hơn nữa, một số bộ dữ liệu có sẵn cho ngôn ngữ ký hiệu được chú thích yếu [12,14,15]. Để giải quyết vấn đề này, nhiều nghiên cứu đã sử dụng phương pháp giám sát yếu, bên cạnh việc áp dụng mô-đun trích xuất đặc trưng và căn chỉnh cho kiến trúc mạng [12].
Thứ hai, so với ISLR, CSLR phức tạp hơn. Có đủ thông tin bằng cách sử dụng một số tính năng; điều này đã được chứng minh là đạt được hiệu suất tốt hơn so với việc sử dụng một tính năng duy nhất như đã báo cáo trong các tác phẩm trước đó [16–18]. Các đặc trưng đa dạng này bao gồm đặc trưng chính là hình ảnh cơ thể đạt độ chính xác cao nhất và các đặc trưng phụ như tư thế, đầu, tay trái, tay phải có độ chính xác thấp hơn đối với hoạt động cá nhân [17,18]. Đào tạo một mạng lớn với lượng dữ liệu lớn rất tốn thời gian [13]. Thêm luồng đầu vào cũng làm tăng thời gian đào tạo, trong khi sử dụng các tính năng dựa trên hình ảnh bổ sung làm tăng chi phí [19]. Do đó, chúng ta cần chọn những đặc điểm quan trọng để có thể luyện tập hiệu quả.

cistache thảo mộc Trung Quốc
Thứ ba, đầu vào video có một số lượng lớn hình ảnh trong chuỗi. Một số hình ảnh có hình dạng bàn tay không rõ ràng do chuyển động nhanh, có thể dẫn đến thông tin không chính xác. Do đó, mô hình đề xuất của chúng tôi sử dụng tính năng tự chú ý dựa trên [20] để giúp chọn thông tin quan trọng. Hơn nữa, sự chú ý đến bản thân được chứng minh bởi [21,22] có tác động đến việc nâng cao hiệu suất.
Do đó, chúng tôi đề xuất một mô hình mới có tên là đa tính năng chú ý không gian thời gian mới (STAMF) để xử lý tất cả các vấn đề. Chúng tôi đã làm theo các công trình trước đó [17,23], đã được chứng minh là hoạt động đối với CSLR với các vấn đề về chú thích yếu. Họ xây dựng mô hình bằng ba thành phần chính: thứ nhất là mô-đun không gian, thứ hai là mô-đun thời gian và thứ ba là mô-đun học trình tự. Chúng tôi đề xuất đầu vào đa tính năng hiệu quả và hiệu quả bằng cách sử dụng tính năng toàn khung hình cùng với các tính năng điểm chính để thực hiện các tác vụ CSLR. Tính năng toàn khung hình đại diện cho hình ảnh cơ thể là tính năng chính và các tính năng điểm chính là tính năng bổ sung. Đặc điểm quan trọng là tư thế cơ thể, bao gồm cả chi tiết của tư thế tay. Tư thế cơ thể này là tính năng bổ sung hiệu quả nhất vì trong một số tác phẩm, nó đã được chứng minh là đạt độ chính xác cao nhất sau tính năng toàn khung hình [17,18]. Chúng tôi cũng sử dụng mô-đun chú ý sử dụng tính năng tự chú ý dựa trên [20] để nắm bắt tính năng quan trọng và giúp quá trình học theo trình tự nâng cao hiệu suất.
Đóng góp của bản thảo này được tóm tắt như sau: • Chúng tôi đưa sự chú ý mới về thời gian vào mô-đun trình tự để nắm bắt các mốc thời gian quan trọng đóng góp vào kết quả cuối cùng; • Chúng tôi giới thiệu tính năng đa dạng bao gồm tính năng toàn khung hình từ giá trị RGB của khung hình làm tính năng chính và các tính năng điểm chính bao gồm tư thế cơ thể với chi tiết hình dạng bàn tay như một tính năng bổ sung để nâng cao hiệu suất nhận dạng mô hình; • Chúng tôi sử dụng chỉ số WER để chỉ ra rằng mô hình STAMF được đề xuất của chúng tôi hoạt động tốt hơn các mô hình hiện đại nhất trên cả hai bộ dữ liệu điểm chuẩn CSLR thông qua các thử nghiệm.

Cistanche bổ sung gần tôi-Cải thiện trí nhớ
2. Công việc liên quan
Đã có một số tiến bộ trong công nghệ và rất nhiều nghiên cứu đã được thực hiện trên SLR. Các nghiên cứu trước đây [24–27] đã khám phá khả năng sử dụng ISLR có phân đoạn cho mỗi từ. Trong những năm gần đây, các phương pháp dựa trên học sâu đã được sử dụng để trích xuất các tính năng bằng cách sử dụng mạng tích chập, 2D [28,29] hoặc 3D [30,31], để thể hiện trực quan mạnh mẽ. Phần lớn các nghiên cứu ban đầu về nhận dạng ngôn ngữ ký hiệu tập trung vào ISLR với các đặc điểm đa phương thức [30–32], chẳng hạn như RGB, bản đồ độ sâu và khung, mang lại hiệu suất tốt hơn.
Ngày nay, CSLR đã trở nên phổ biến hơn, mặc dù nó chưa được phân chia rõ ràng giữa từng từ. Các công trình ban đầu sử dụng trình trích xuất tính năng CNN [6,33] và HMM [34] để xây dựng mục tiêu trình tự. Một số nghiên cứu gần đây cho các hệ thống CSLR [17,23] đã bao gồm ba bước chính trong việc thực hiện nhiệm vụ nhận dạng vấn đề. Đầu tiên, họ tiến hành trích xuất đặc trưng không gian, sau đó là phân đoạn thời gian và cuối cùng là tổng hợp câu bằng một mô hình ngôn ngữ [35] hoặc họ sử dụng phương pháp học tuần tự [17,23]. Quá trình học trình tự này đã sử dụng Bi-LSTM và CTC để khai thác mối quan hệ giữa độ bóng của ký hiệu trong các chuỗi video. Mặc dù nó sử dụng một chú thích yếu có các chuỗi video không được phân đoạn để xác định độ bóng của biển báo, những cách tiếp cận này đã cho thấy kết quả đầy hứa hẹn.
Tuy nhiên, nghiên cứu CLSR có liên quan gần đây nhất đã triển khai phương pháp tiếp cận đa tính năng [17] đã sử dụng đồng thời năm tính năng. Cách tiếp cận đa tính năng nặng hơn so với sử dụng ít tính năng hơn [19]. Cách tiếp cận này cũng không thể xử lý các khung hình nhiễu từ chuỗi video có thông tin không rõ ràng, chẳng hạn như hình dạng bàn tay bị mờ do chuyển động nhanh. Hơn nữa, dựa vào việc học trình tự dựa trên RNN có thể gặp phải vấn đề với các trình tự dài và có thể làm mất bối cảnh toàn cầu [20].

Cistanche bổ sung gần tôi-Cải thiện trí nhớ
Nghiên cứu hiện tại nhằm mục đích cải thiện hiệu suất bằng cách thêm cơ chế tự chú ý [21,22] có thể xử lý các chuỗi dài hơn để tìm hiểu bối cảnh toàn cầu. Sự chú ý đến bản thân dựa trên nghiên cứu ban đầu [20] cho thấy rằng sự chú ý đến bản thân có lợi thế là có thể xử lý các mối quan hệ phụ thuộc lâu dài. Tuy nhiên, sự tự chú ý này sẽ dễ dàng hơn để học một con đường ngắn hơn so với một con đường dài hơn với các phụ thuộc dài. Trong các tác phẩm CLSR trước đây [21,22] tự chú ý có thể giúp mạng tìm hiểu tính năng này hiệu quả hơn.
Do đó, trong bài báo này, chúng tôi giới thiệu một mô hình đa tính năng chú ý theo không gian mới lạ. Mô hình được đề xuất này trích xuất hiệu quả các tính năng quan trọng và tìm hiểu trình tự tốt hơn bằng cách cung cấp thông tin quan trọng bằng cơ chế tự chú ý từ đa tính năng. Tất cả các quy trình được thực hiện theo cách tiếp cận đầu cuối.
3. Phương pháp đề xuất
Phần này trình bày chi tiết các kỹ thuật cốt lõi của mô hình được đề xuất cho CSLR của chúng tôi. Do đó, chúng tôi bắt đầu phần này bằng cách giải thích tổng quan về mô hình được đề xuất của chúng tôi. Ngoài ra, chúng tôi cung cấp thêm chi tiết về từng thành phần chính, bao gồm mô-đun không gian, mô-đun thời gian và mô-đun học trình tự. Ngoài ra, chúng tôi cũng giải thích mô-đun chú ý được đề xuất của mình để giúp mô hình học tốt hơn. Cuối cùng, chúng ta có thể tích hợp khung đào tạo và suy luận vào mô hình đề xuất của mình.
3.1. Tổng quan về khung
Đưa ra một đầu vào video, mô hình được đề xuất của chúng tôi nhằm mục đích dự đoán dấu hiệu tương ứng thành một câu bóng chính xác. Mô-đun đầu tiên tạo nhiều tính năng không gian, chẳng hạn như tính năng toàn khung hình và điểm chính cho từng khung hình T của video. Sau đó, mô-đun thời gian cho phép chúng tôi trích xuất các mối tương quan thời gian của các đặc điểm không gian giữa các khung cho cả hai luồng. Bước cuối cùng, các mạng không gian và thời gian đã được liên kết với bộ nhớ ngắn hạn dài hạn hai chiều (Bi-LSTM) và CTC để học và suy luận theo trình tự. Tiếp theo, chúng tôi giải thích các thành phần chính của chúng tôi một cách chi tiết hơn và liên tục. Tổng quan về kiến trúc đề xuất của chúng tôi được thể hiện trong Hình 1.

Hình 1. Kiến trúc tổng thể của phương pháp được đề xuất bao gồm ba thành phần: mô-đun không gian, mô-đun thời gian và mô-đun học trình tự. Trước tiên, mô-đun không gian lấy chuỗi hình ảnh để trích xuất các đặc điểm theo khung và sau đó áp dụng mô-đun thời gian để trích xuất các đặc điểm tạm thời. Sau đó, các đặc điểm thời gian được gửi đến mô-đun học trình tự để thực hiện dự đoán từ và cấu trúc từ đó thành câu.
3.2. Mô-đun không gian
Mô-đun không gian khai thác tính năng toàn khung hình và các tính năng điểm chính, như trong Hình 2. Mô-đun này sử dụng kiến trúc mạng 2D-CNN làm xương sống và ResNet50 được chọn để nắm bắt nhiều tính năng. ResNet50 được sử dụng hiệu quả hơn so với kiến trúc ResNet gần đây về mặt thời gian trong khi có kết quả tương đương [36,37]. RGB sử dụng ResNet50 trực tiếp, trong khi điểm chính được HRNet [38] lấy từ khung hình video và được trích xuất bằng ResNet50 để lấy các tính năng điểm chính.

Hình 2. Kiến trúc mô-đun không gian sử dụng đầu vào đa luồng. Luồng RGB dưới dạng tính năng toàn khung hình và luồng điểm chính dưới dạng tính năng điểm chính.
3.2.1. Tính năng toàn khung hình
Chúng tôi đã áp dụng các bước tiền xử lý của mình cho dữ liệu RGB và sau đó đưa dữ liệu của mình vào mô hình. Sau đó, chúng tôi đưa chúng làm đầu vào toàn khung hình vào kiến trúc của mình. Hình 3 cho thấy hình minh họa của hình ảnh RGB gốc ở bên trái và hình ảnh đã cắt ở bên phải. Hình ảnh đã cắt được sử dụng làm đầu vào cho mô hình. Điều này minh họa bước tiền xử lý làm giảm các phần ít quan trọng hơn của hình ảnh và tập trung nhiều hơn vào người ký. Việc cắt xén này sử dụng phương pháp cắt ngẫu nhiên từ [12] để bổ sung cho tập dữ liệu. Tính năng fullframe được trích xuất từ hình ảnh đã cắt cho từng khung hình trong chuỗi bằng cách sử dụng ResNet50.

Hình 3. Tính năng full-frame sử dụng ảnh RGB, (ảnh bên trái) là ảnh gốc và (ảnh bên phải) là ảnh đã cắt để điều chỉnh với mô hình được đề xuất
3.2.2. Tính năng điểm chính
Chúng tôi đã trích xuất các tính năng điểm chính trong mô-đun không gian từ dữ liệu RGB cho từng khung hình trong đầu vào video. Chất lượng của các tính năng điểm chính có vai trò quan trọng trong mô hình được đề xuất của chúng tôi, vì vậy chúng tôi cần sử dụng một cách tiếp cận mạnh mẽ, chẳng hạn như HRNet [38]. Chúng tôi đã sử dụng HRNet đã được đào tạo trước [38] để ước tính tất cả 133 điểm chính của nội dung và chúng tôi đã sử dụng 27 trong số 133 điểm chính từ kết quả của nó. Như thể hiện trong Hình 4, phía bên trái là điểm chính ban đầu của phần trên cơ thể và phía bên phải là 27 điểm chính của phần trên cơ thể đã chọn. 27 điểm chính này bao gồm cổ tay, khuỷu tay, vai, cổ, bàn tay và ngón tay.

Hình 4. Các tính năng điểm chính của bộ dữ liệu PHOENIX-RWTH [33,39], trích xuất (hình bên trái) từ hình ảnh RGB và (hình bên phải) là điểm điểm đã chọn được mô hình đề xuất sử dụng.
3.3. Mô-đun tạm thời
Mô-đun thời gian nhằm mục đích tìm hiểu thông tin không gian thời gian từ mô-đun không gian. Các mô-đun tạm thời được xây dựng bằng cách tổng hợp tạm thời xếp chồng lên nhau cho mỗi luồng. Như thể hiện trong Hình 5, mô-đun tổng hợp tạm thời bao gồm một lớp tích chập thời gian và một lớp tổng hợp để trích xuất các tính năng từ các đầu vào tuần tự.

Hình 5. Kiến trúc mô-đun tạm thời bao gồm 1D-CNN xếp chồng lên nhau và lớp tổng hợp được nhúng với mô-đun chú ý. Hoạt động song song cho cả hai luồng đối tượng được nối ở cuối các lớp xếp chồng lên nhau và tạo ra một đối tượng tạm thời duy nhất có độ dài chuỗi nhỏ hơn bốn lần.
Đầu vào là một danh sách các tính năng đa không gian từ giai đoạn trước. Tính năng thời gian thu được bằng cách sử dụng lớp tích chập thời gian, là lớp tích chập 1D duy nhất có cùng độ dài đầu vào và đầu ra, theo sau là một lớp tổng hợp duy nhất làm giảm kích thước xuống một nửa. Sử dụng hai lớp tổng hợp thời gian xếp chồng lên nhau này là cấu hình tốt nhất, theo các công trình trước đó [12]. Sau mỗi lần tổng hợp thời gian, chúng tôi nhúng một mô-đun chú ý sẽ được giải thích chi tiết trong Phần 3.4. Cuối cùng, chúng tôi ghép đầu ra của tổng hợp thời gian từ cả hai luồng.
3.4. Mô-đun chú ý
Video có nhiều khung hình trong đó một số phần của hình ảnh đôi khi bị mờ. Tập dữ liệu RTWH-PHOENIX [33,39] có nhiều khung bị lỗi hơn tập dữ liệu CSL [8,40,41]. Điều này xảy ra khi chuyển động quá nhanh, tạo ra hình ảnh mờ và dẫn đến vị trí điểm chính sai. Khung này được coi là bị lỗi và có khả năng dẫn đến hiểu sai cả tính năng RGB và điểm chính. Hình 6 minh họa các khung bị lỗi trong bộ dữ liệu RTWH-PHOENIX [33]. Để giải quyết vấn đề này, chúng tôi đã thêm một lớp chú ý.

Hình 6. Minh họa khung lỗi trên tập dữ liệu RWTH-PHOENIX [33,39]. Một số điểm chính ở khu vực bàn tay bị sai vị trí do hình ảnh bị mờ.
Sử dụng thuật toán CTC, việc căn chỉnh đường dẫn cùng với việc ghi nhãn của nó được thực hiện bằng cách sử dụng nhãn trống và loại bỏ các nhãn lặp lại. CTC thích dự đoán nhãn trống hơn là ranh giới bóng khi nó không thể phân biệt ranh giới bóng, nhưng không có kết quả nào thuyết phục. Điều này khiến mạng sử dụng CTC để tạo ra các kết quả đột biến khi phân tích, học hỏi và dự đoán [42,43]. Nói chung, tổn thất CTC tìm kiếm các khung hình chính và kết quả cuối cùng là dự đoán về một khung hình chính cụ thể có xác suất cao là nhãn trống hoặc nhãn không trống. Nếu độ bóng dự đoán cùng một nhãn hoặc nhãn trống liên tiếp, nó sẽ dẫn đến cùng một đầu ra. Tuy nhiên, nếu có một nhãn chèn vào giữa cùng một nhãn, thì dù chỉ sai một lỗi cũng dẫn đến thiệt hại lớn hơn rất nhiều. Ở đây, việc bổ sung lớp chú ý giúp chọn trình tự thời gian quan trọng trước khi được sử dụng để học tuần tự.
Mô-đun chú ý sử dụng cơ chế tự chú ý nhiều đầu [20]. Mô-đun nhiều đầu được sử dụng để chạy một số cơ chế chú ý song song cùng một lúc. Sự chú ý của nhiều đầu hoạt động độc lập để tập trung vào các phụ thuộc ngắn hạn hoặc phụ thuộc dài hạn trong một đầu riêng biệt. Mỗi đầu ra sau đó được nối tuyến tính và chuyển đổi thành hình dạng mong muốn.
Đồng thời, cơ chế tự chú ý nhiều đầu xử lý thông tin từ nhiều không gian con biểu diễn, tùy thuộc vào lịch sử quan sát. Để đơn giản, chúng tôi ký hiệu các chuỗi đầu vào là X. Về mặt toán học, đối với mô hình chú ý một đầu, đầu vào đã cho X t − T cộng 1:t=[X t − T cộng 1, · · ·, X t ] ∈ RT × N × P, thu được ba không gian con, cụ thể là không gian con truy vấn Q ∈ RN ×dq, không gian con khóa K ∈ RN × dk và không gian con giá trị V ∈ RN × dv. Quá trình học tập không gian con tiềm ẩn có thể được xây dựng như [20]:
Q=XWQ, K=XWK , V=XWV ,
Sau đó, chú ý của sản phẩm chấm được chia tỷ lệ được sử dụng để tính toán đầu ra chú ý là [20]:
Lưu ý(Q, K, V)=nên f tmaxQKT/ p dkV,
Hơn nữa, nếu chúng ta có nhiều đầu theo dõi đồng thời nhiều biểu diễn của đầu vào, chúng ta có thể thu được nhiều kết quả phù hợp hơn cùng một lúc. Bước cuối cùng là nối tất cả các mặt ngửa và chiếu lại chúng để tính điểm cuối cùng [20]:
MultiHead(Q,K,V)=Concat(head1,... , đầu )WO,
đầu=Chú ý (Qi,Ki,Vi),
trong đó Qi=XWQ i , Ki=XWVi và WO ∈ R hd × dmodel. Cuối cùng, nó có thể chọn phần quan trọng từ chuỗi các tính năng vì không phải tất cả thông tin trong chuỗi đều quan trọng.
Như thể hiện trong Hình 7, chúng tôi sử dụng mô-đun chú ý trong một số cấu hình. Mô-đun chú ý đầu tiên được đặt ở cuối mô-đun không gian, trong khi mô-đun chú ý thứ hai và thứ ba được đặt trong mô-đun thời gian. Mô-đun chú ý thứ hai được gọi là mô-đun thời gian sớm, được đặt sau khối tổng hợp thời gian đầu tiên làm đầu vào, trong khi mô-đun chú ý theo thời gian thứ ba, được gọi là mô-đun chú ý thời gian muộn, được đặt sau khối tổng hợp thời gian thứ hai.

Hình 7. Các mô-đun chú ý được nhúng vào các mô-đun không gian và thời gian trong các cấu hình khác nhau.






