Chú ýMNIST: Bộ dữ liệu theo dõi sự chú ý bằng cú nhấp chuột để nhận dạng chữ số và bảng chữ cái viết tay
Feb 22, 2024
Nhiều mô hình dựa trên sự chú ý nhận dạng đối tượng thông qua một chuỗi cái nhìn thoáng qua đã báo cáo kết quả về nhận dạng chữ số viết tay. Tuy nhiên, không có sẵn dữ liệu theo dõi sự chú ý để nhận dạng chữ số hoặc bảng chữ cái viết tay. Sự sẵn có của dữ liệu đó sẽ cho phép đánh giá các mô hình dựa trên sự chú ý so với hiệu suất của con người. Chúng tôi thu thập dữ liệu theo dõi sự chú ý khi nhấp chuột từ 382 người tham gia đang cố gắng nhận dạng các chữ số và bảng chữ cái viết tay (chữ hoa và chữ thường) từ hình ảnh thông qua lấy mẫu tuần tự. Hình ảnh từ bộ dữ liệu điểm chuẩn được trình bày dưới dạng kích thích. Tập dữ liệu được thu thập, được gọi là Chú ýMNIST, bao gồm một chuỗi các vị trí mẫu (nhấp chuột), pr(các) nhãn lớp quy định tại mỗi lần lấy mẫu và thời lượng của mỗi lần lấy mẫu. Trung bình, những người tham gia của chúng tôi chỉ quan sát được 12,8% hình ảnh để nhận dạng. Chúng tôi đề xuất một mô hình cơ sở để dự đoán vị trí và (các) lớp mà người tham gia sẽ chọn ở lần lấy mẫu tiếp theo. Khi tiếp xúc với các kích thích và điều kiện thử nghiệm giống như những người tham gia của chúng tôi, mô hình củng cố dựa trên sự chú ý được trích dẫn nhiều sẽ không đạt được hiệu quả của con người.

cistanche trung quốcthảo dược- Sản phẩm ngăn ngừa bệnh Alzheimer
Các mô hình học máy (ML) nhận dạng đối tượng thông qua một chuỗi cái nhìn thoáng qua đã thu hút được sự quan tâm trong những năm gần đây do khả năng mở rộng và hiệu quả của chúng. Nhiều mô hình trong số này, chẳng hạn như 1–7, đã báo cáo kết quả thử nghiệm trên bộ dữ liệu MNIST chuẩn để nhận dạng chữ số viết tay. Thật không may, không có dữ liệu theo dõi sự chú ý nào cho MNIST. Điều này ngăn cản việc đánh giá các mô hình dựa trên sự chú ý so với hiệu suất của con người. Chúng tôi đã lọt vào khoảng trống đó bằng cách thu thập tập dữ liệu từ những người tham gia là người lớn đang cố gắng nhận dạng các chữ số và bảng chữ cái viết tay từ hình ảnh thông qua lấy mẫu tuần tự. Không giống như theo dõi sự chú ý chuyển động của mắt (emAT), người tham gia nhấp vào vị trí trong hình ảnh mà anh ta muốn xem (một dạng theo dõi sự chú ý khi nhấp chuột (mcAT)). Ngay sau đó, anh ta chọn (các) lớp mà anh ta dự đoán đối tượng có thể thuộc về dựa trên những quan sát của anh ta cho đến nay. Do đó, ở mỗi tập lấy mẫu, dữ liệu của chúng tôi bao gồm vị trí hình ảnh được chọn, (các) nhãn lớp được dự đoán và thời gian thực hiện kể từ tập cuối cùng của người tham gia. Sau mỗi hình ảnh, người tham gia sẽ nhận được phần thưởng dựa trên thành tích của mình (độ chính xác và hiệu quả).

Lợi ích của cistanche tubulosa-Chống bệnh Alzheimer
Ưu điểm của mcAT so với emAT trong nhận dạng chữ số/bảng chữ cái viết tay.
(1) thịt chứa đựng sự thay đổi đáng kể trong nội bộ và giữa các cá nhân về vị trí cố định, đặc biệt đối với các kích thích tĩnh (hình ảnh)8,9. Vì vậy, cần có một lượng lớn dữ liệu về điểm nhìn của mắt để đưa ra kết luận có ý nghĩa thống kê. mcAT không bị ảnh hưởng bởi một số nguồn nhiễu kỹ thuật thường gặp đối với dữ liệu theo dõi bằng mắt10. (2) Chuyển động của mắt có thể là kết quả của cả cơ chế tự nguyện và không tự nguyện11. Để tạo điều kiện thuận lợi cho việc ra quyết định phụ thuộc vào nhiệm vụ, chúng tôi cung cấp cho người tham gia các tín hiệu về thời gian, bối cảnh và củng cố đầy đủ, những tín hiệu này cũng có thể được trình bày cho mô hình ML. (3) Độ chính xác và chính xác của dữ liệu emAT phụ thuộc vào thiết bị theo dõi mắt trong khi mcAT tương tự và độc lập với bất kỳ thiết bị nào. (4) Việc đồng bộ hóa chuyển động của mắt với việc lựa chọn lớp học của anh ta là một thách thức. Để khắc phục điều này, trong trường hợp của chúng tôi, vị trí lấy mẫu và (các) lớp được chọn trong cùng một tập. (5) Cuối cùng, phương pháp của chúng tôi cho phép thu thập dữ liệu bằng Amazon Mechanical Turk (MTurk), như in12,13, phương pháp này tiết kiệm chi phí và thời gian cũng như có thể tái tạo dễ dàng.
Đóng góp.
Chúng tôi thu thập tập dữ liệu mcAT, được gọi là Chú ýMNIST, sử dụng MTurk từ 382 người tham gia, được khen thưởng vì nhận dạng chính xác và hiệu quả các chữ số và bảng chữ cái viết tay (chữ hoa và chữ thường) từ hình ảnh thông qua lấy mẫu tuần tự. Hình ảnh từ bộ dữ liệu điểm chuẩn (MNIST, EMNIST) được trình bày dưới dạng kích thích. Trung bình, 169,1 câu trả lời cho mỗi lớp chữ số/bảng chữ cái được ghi lại. Sử dụng tập dữ liệu này, chúng tôi hiển thị như sau: • Trung bình, người tham gia cần 4,2, 4,7 và 4,9 mẫu để nhận dạng bảng chữ cái chữ số, chữ hoa và chữ thường, tương ứng chỉ tương ứng với 11,3%, 13,4% và 13,7% diện tích hình ảnh . Độ chính xác phân loại tăng lên với một số mẫu. • Một mô hình, được trình bày làm đường cơ sở, có thể dự đoán (các) lớp và vị trí mà người tham gia sẽ chọn ở đợt lấy mẫu tiếp theo với độ chính xác lần lượt là 74,4% và 67,7%, cả hai đều tính trung bình trên tất cả các lần lấy mẫu và tập dữ liệu. Độ chính xác của dự đoán lớp tăng lên và độ chính xác của dự đoán vị trí giảm khi số lượng mẫu tăng lên. • Khi tiếp xúc với các kích thích và điều kiện giống như những người tham gia của chúng tôi, mô hình chú ý lặp lại dựa trên sự củng cố (RAM)3 được trích dẫn nhiều yêu cầu các mẫu 3,7, 8,5 và 7,6 để nhận dạng bảng chữ cái chữ số, chữ hoa và chữ thường, tương ứng với 8,9% , 21.0%, 18,7% diện tích hình ảnh tương ứng. Các mô hình củng cố dựa trên sự chú ý khác (ví dụ: 1,2,4,5,7,14) có thể được đánh giá tương tự so với hiệu suất của con người.

Thực phẩm bổ sung Cistanche gần tôi-Cải thiện trí nhớ
Nhấp vào đây để xem các sản phẩm Cải thiện trí nhớ và ngăn ngừa bệnh Alzheimer của Cistanche
【Hỏi thêm] Email:cindy.xue@wecistanche.com / Whats App: 0086 18599088692 / Wechat: 18599088692
Công việc có liên quan
Trình tự thời gian của các lần nhấp chuột trong mcAT tương tự như đường quét chuyển động của mắt10. mcAT có thể thay thế emAT một cách hiệu quả vì chúng có mối tương quan đáng kể10,12,13,15–17. Các loại kích thích khác nhau đã được sử dụng trong nghiên cứu mcAT, chẳng hạn như hình ảnh của các vật thể sống và vô tri10, hình ảnh về cảnh thiên nhiên12,13, trang web tĩnh13, bố cục trang tìm kiếm16 và hai danh sách chuỗi chữ và số để so sánh trực quan17. Tuy nhiên, mcAT chưa được sử dụng cho các nhiệm vụ phân loại chữ số/bảng chữ cái viết tay hoặc đánh giá các mô hình phân loại dựa trên sự chú ý. Các nghiên cứu mcAT đã sử dụng các tính năng như thời gian tiếp xúc, tần suất cố định tương đối trong các lĩnh vực quan tâm (AOI), tỷ lệ tương đối của các đối tượng đã nhấp vào ít nhất một lần trong AOI10, số lần cố định trong mỗi thử nghiệm, việc cố định lại trong các thử nghiệm, thời gian dừng và đường quét17 , bản đồ cố định12,13, AOI và mô hình luồng thông tin16. Chuỗi vị trí nhấp chuột được đánh dấu thời gian và nhãn lớp được dự đoán tạo thành dữ liệu thô cần thiết để đánh giá hiệu quả và độ chính xác của các mô hình hoặc con người dựa trên sự chú ý trong các nhiệm vụ phân loại. Các tính năng khác nhau có thể được bắt nguồn từ dữ liệu này. Tập dữ liệu mcAT của chúng tôi, với nhiều lợi ích so với dữ liệu theo dõi bằng mắt, sẽ lấp đầy khoảng trống quan trọng trong nghiên cứu mô hình dựa trên sự chú ý trong AI, ML và các lĩnh vực khác. Tập dữ liệu của chúng tôi sẽ cho phép đánh giá các mô hình dựa trên sự chú ý so với hiệu suất của con người. Trong số những thứ khác, điều này sẽ tạo điều kiện thuận lợi cho việc phát triển các hệ thống nhận dạng ký tự quang học theo thời gian thực và hiệu quả được sử dụng rộng rãi trong thực tế (xem ví dụ18–20). Các nguyên tắc hướng dẫn việc gắn hình ảnh có thể được đưa ra giả thuyết và thử nghiệm bằng cách sử dụng tập dữ liệu của chúng tôi. Các nguyên tắc thành công có thể được áp dụng để phát triển hệ thống cho các nhiệm vụ nhận dạng hình ảnh trong thế giới thực trong đó hiệu quả là mối quan tâm chính, chẳng hạn như trong lái xe tự động.
Dữ liệu
Dữ liệu của chúng tôi bao gồm một chuỗi T tập cho mỗi người tham gia. Dữ liệu từ mỗi tập bao gồm (1) vị trí trong hình ảnh được người tham gia nhấp vào (một lần nhấp vào hình ảnh trên mỗi tập), (2) (các) lớp do người tham gia chọn và (3) thời gian mà người tham gia thực hiện. người tham gia đăng ký mẫu hiện tại (tức là thời gian trôi qua giữa lần nhấp cuối cùng và lần nhấp hiện tại vào hình ảnh). Phần này sẽ giải thích quy trình thu thập dữ liệu của chúng tôi bao gồm lựa chọn kích thích, người tham gia, nhiệm vụ trực quan, chấm điểm hiệu suất và lọc dữ liệu.
Lựa chọn kích thích. Kích thích được chọn từ hình ảnh trong hai bộ dữ liệu chuẩn: (1)
Tập dữ liệu MNIST21 bao gồm 7 hình ảnh được gắn nhãn0,000 (28×28 pixel) gồm 10 chữ số viết tay {0, 1, ..., 9}. (2)
Bộ dữ liệu EMNIST22 bao gồm 145.600 hình ảnh (28×28 pixel) của bảng chữ cái tiếng Anh viết tay ở dạng chữ hoa và chữ thường, tạo thành một lớp cân bằng. Tất cả các hình ảnh được gắn nhãn với một trong 26 lớp {a, b, ..., z}. Tuy nhiên, nhãn chữ hoa hoặc chữ thường không được liên kết với bất kỳ hình ảnh nào. Từ mỗi danh mục, chúng tôi chọn 15 chữ số được định dạng đúng từ MNIST và 15 bảng chữ cái được định dạng đúng từ các bộ dữ liệu chữ hoa và chữ thường EMNIST. Một chữ số hoặc bảng chữ cái được hình thành tốt tương tự như tiêu chuẩn của lớp nó. Do đó, chúng tôi trình bày các kích thích từ một tập hợp gồm 15 hình ảnh (10 + 26 + 26)=930 hình ảnh duy nhất, với 15 hình ảnh thuộc về mỗi lớp trong số 62 lớp. Hình ảnh 930 được định dạng tốt được chọn như sau:
Bước 1: Chuẩn hóa từng hình ảnh bằng cách sử dụng min-max để chia tỷ lệ cường độ giữa 0 và 1.
Bước 2: Dán nhãn hình ảnh EMNIST đúng định dạng bằng chữ hoa hoặc chữ thường. Đối với mỗi lớp bảng chữ cái, một bảng chữ cái được định dạng phù hợp từ cả hình ảnh viết hoa và viết thường sẽ được chọn và dán nhãn theo cách thủ công. Độ tương tự cosine của tất cả các ảnh thuộc lớp đó với hai ảnh được gắn nhãn sẽ được tính toán. Các hình ảnh nằm trên ngưỡng tương tự cosine (được chọn theo kinh nghiệm là 0.8) được gán nhãn chữ hoa hoặc chữ thường.
Bước 3: Tính giá trị trung bình của các ảnh thuộc mỗi lớp. Hình ảnh trung bình của một lớp tạo nên chuẩn mực của nó. Một hình ảnh đủ điều kiện trở thành tác nhân kích thích nếu độ tương tự cosine của nó với hình ảnh trung bình của lớp nó lớn hơn ngưỡng được xác định theo kinh nghiệm (0.7 đối với MNIST, 0.75 đối với EMNIST).
Bước 4: Trong số các hình ảnh đủ điều kiện, 15 hình ảnh từ mỗi lớp được chọn thủ công dựa trên mức độ hình ảnh phù hợp của chúng. Mỗi hình ảnh, ban đầu là 28×28 pixel, được giảm xuống còn 27×25 bằng cách loại bỏ các pixel gần ranh giới vì chúng không có sự thay đổi cường độ. Giá trị trung bình của 15 hình ảnh này được tính cho mỗi lớp trong số 62 lớp. Chúng tôi ký hiệu các ảnh trung bình này là I1, I2, ..., In cho n lớp trong mỗi tập dữ liệu.
Những người tham gia.
Tổng cộng có 382 người trưởng thành khác nhau đã tham gia vào nghiên cứu của chúng tôi. Không có tiêu chí lựa chọn nào được sử dụng. Một người tham gia có thể trả lời nhiều hình ảnh. Đối với mỗi lớp trong số 62 lớp, trung bình có 169,1 câu trả lời được ghi lại.

Lợi ích của cistanche tubulosa-Chống bệnh Alzheimer
Nhiệm vụ trực quan.
Giao diện MTurk cho tác vụ trực quan của chúng tôi được hiển thị trong Hình 1. Canvas có kích thước 270×250 luôn hiển thị hình nền có cường độ thấp. Hình nền và hình ảnh kích thích được tăng mẫu gấp mười lần lên 270×250. Tâm của khung vẽ được căn chỉnh với tâm của hình ảnh. Bối cảnh Ban đầu, nền là giá trị trung bình của tất cả các hình ảnh trong tập dữ liệu mà từ đó kích thích được rút ra. Sau tập đầu tiên, hình nền là giá trị trung bình của tất cả các hình ảnh từ tập hợp các lớp được người tham gia chọn ở tập cuối. Trong thế giới thực, bối cảnh về vị trí, kích thước và hướng của một chữ số hoặc bảng chữ cái được lấy từ chữ viết trong vùng lân cận của nó, điều này còn thiếu ở đây. Khi các thí nghiệm của chúng tôi được tiến hành với nền trống, những người tham gia thường lấy mẫu các vị trí của hình ảnh không chứa bất kỳ phần nào của vật thể. Hành vi này được ngăn chặn bằng cách hiển thị hình ảnh trung bình của (các) lớp đã chọn trong nền cường độ thấp và giảm kích thước của tất cả hình ảnh MNIST và EMNIST từ 28×28 pixel xuống 27×25. Mỗi khi người tham gia chọn một vị trí trong khung vẽ bằng cách nhấp vào vị trí đó, một bản vá 50×50 pixel tập trung vào vị trí đó từ hình ảnh kích thích sẽ hiển thị. Một bản vá từng được tiết lộ sẽ tiếp tục được hiển thị cho đến tập cuối cùng. Nhiệm vụ của người tham gia bao gồm ba bước ở mỗi tập t (t=1, ..., T):
Bước 1: Nhấp vào bất kỳ đâu trong khung vẽ 270×250 để hiển thị bản vá mà anh ấy muốn lấy mẫu. Chỉ nhấp chuột đầu tiên được chấp nhận.
Bước 2: Nhận biết chữ số/bảng chữ cái từ tất cả các mẫu được quan sát cho đến nay. Người tham gia có thể chọn nhiều lớp và sẽ phải chọn ít nhất một lớp từ danh sách các lớp hiển thị bên dưới khung vẽ.
Bước 3: Nhấp vào "Tiếp theo" ở cuối màn hình để tiếp tục. Để suy luận lớp học một cách chính xác và nhanh chóng, người tham gia sẽ phải chọn các địa điểm một cách thận trọng dựa trên những quan sát của mình cho đến tập hiện tại. Không có giới hạn thời gian cho một tập phim. Tuy nhiên, chúng tôi giới hạn tổng thời gian cho T tập của một hình ảnh là sáu phút. Chúng tôi chọn T=12 vì các công trình được trích dẫn nhiều về nhận dạng hoặc tạo chữ viết tay dựa trên sự chú ý đã sử dụng ít hơn 12 lần nhìn thoáng qua (ví dụ: RAM3 có thể nhận dạng các chữ số MNIST trong vòng 7 lần nhìn thoáng qua, DRAW23 có thể tạo ra các chữ số MNIST trong vòng 11 lần nhìn thoáng qua) và con người có thể nhận ra các chữ số và bảng chữ cái viết tay chỉ trong chưa đầy 12 lần nhìn thoáng qua.
Chấm điểm hiệu suất. Điểm được ấn định cho người tham gia dựa trên độ chính xác và hiệu quả của anh ta về số lượng mẫu được quan sát. Gọi đó là tập hợp các lớp anh ta đã chọn ở tập t bất kỳ. Mười, số điểm của anh ta ở t là:

Hình 1. Giao diện MTurk của chúng tôi được người tham gia nhìn thấy. Mẫu thứ hai cho bảng chữ cái viết hoa EMNIST được hiển thị.

ở đâu |.| biểu thị số lượng của một tập hợp. Tổng số điểm được trao trong T tập là h {{0}} T t=1 Pt. Vì vậy, điểm tối đa mà một người có thể đạt được trong T tập là T nếu anh ta luôn chỉ chọn đúng lớp. Điểm tối thiểu mà một người có thể đạt được trong T tập là bằng 0 nếu anh ta luôn chọn một tập hợp các lớp không bao gồm lớp chính xác. Vì vậy, 0 Nhỏ hơn hoặc bằng h Nhỏ hơn hoặc bằng T. Người tham gia chọn đúng lớp càng sớm thì điểm của người đó sẽ càng cao. Do đó, cơ chế tính điểm này tính đến độ chính xác nhận dạng và hiệu quả lấy mẫu. Cố gắng tối đa hóa điểm bằng cách chỉ chọn một lớp ngay từ tập đầu tiên sẽ có rủi ro vì điểm 0 sẽ được trao nếu đó không phải là lớp chính xác, trong khi điểm lớn hơn 0 sẽ được trao nếu người tham gia chọn nhiều lớp ( thậm chí tất cả các lớp) bao gồm lớp chính xác. Điều này sẽ thúc đẩy người tham gia phản hồi dựa trên các lớp học có thể xảy ra trong đầu họ ở bất kỳ tập phim nào. Điểm được trao ở mỗi tập chỉ được tiết lộ khi hoàn thành T tập để không cung cấp bất kỳ gợi ý nào cho người tham gia. Trong MTurk, tiền thù lao mà người tham gia nhận được cho một hình ảnh tỷ lệ thuận với tổng số điểm của anh ta, h.
Lọc dữ liệu.
Nếu điểm của người tham gia ở tập cuối cùng (tức là tập T-th) cho một hình ảnh kích thích bằng 0 thì dữ liệu của anh ta được ghi cho hình ảnh đó sẽ bị loại bỏ. Dữ liệu cũng bị loại bỏ nếu người tham gia không hoàn thành nhiệm vụ. Với tiêu chí lựa chọn này, chúng tôi đã thu được phản hồi về 1736 kích thích từ chữ MNIST, 4431 kích thích từ chữ hoa EMNIST và 4315 kích thích từ chữ thường EMNIST; tức là trung bình có 169,1 câu trả lời mỗi lớp.
Mô hình và phương pháp sử dụng dữ liệu
Trong phần này, chúng tôi minh họa tiện ích của dữ liệu được thu thập bằng cách (4.1) cung cấp mô hình cơ sở để dự đoán hành vi của người tham gia và (4.2) cho thấy cách so sánh mô hình củng cố dựa trên sự chú ý hiện tại với nhận dạng chữ số/bảng chữ cái của con người hiệu suất. Cơ sở để dự đoán hành vi. Hành vi ở bất kỳ tập t nào bao gồm việc lựa chọn địa điểm và lựa chọn lớp học. Vì một mẫu chứa lượng thông tin khác nhau đối với những người quan sát khác nhau, hoặc thậm chí đối với cùng một người quan sát ở những thời điểm khác nhau9, nên việc dự đoán hành vi của mỗi người tham gia là một vấn đề khó khăn. Gọi n là số lớp trong một tập dữ liệu, ηt là tập đơn chứa lớp thực cho hình ảnh kích thích tại t, ct là tập hợp các lớp và lt là vị trí được người tham gia chọn tại t, làm quan sát của anh ta tại t và 1:t biểu thị dãy 1, 2, ..., t. Cho đến bất kỳ thời điểm t nào, các quan sát của người tham gia là o1:t và vị trí anh ta đã chọn là l1:t. Chúng tôi xây dựng bài toán dự đoán hành vi của người tham gia như sau: Dự đoán lớp Ước tính xác suất của i∈ct (i=1, 2, ..., n) cho o1:t và l1:t của anh ta, tức là P( i ∈ ct|o1:t, l1:t). Dự đoán vị trí Ước tính xác suất của lt+1 với o1:t, l1:t và ct của mình, tức là P(lt+1|o1:t, l1:t,ct). Dự đoán lớp Để dự đoán lớp mà người tham gia sẽ chọn ở tập t, chúng tôi tính xác suất kích thích hình ảnh ở t thuộc về lớp I cho các vị trí đã chọn của người tham gia l1:t và các quan sát tương ứng o1:t, như sau:

trong đó Ii là giá trị trung bình của các ảnh kích thích (27×25) thuộc lớp i, I′ là ảnh 27×25 chứa o1:t tại l1:t, · biểu thị tích vô hướng, và .biểu thị chuẩn Euclide. Tất cả cường độ pixel đều không âm. Tại bất kỳ tập t nào, k lớp có khả năng xảy ra cao nhất từ phân bố niềm tin P(i|o1:t, l1:t) tạo thành tập hợp các lớp, ˆct, được dự đoán bởi mô hình của chúng tôi, trong đó k=|ct|. Độ chính xác phân loại được đo bằng chỉ số Jaccard (JI). JI đo lường mức độ tương tự giữa hai tập hợp X và Y như sau: J(X, Y) {{1{11}}}} |X ∩ Y|/|X ∪ Y|. JI được giới hạn giữa 0 và 1; nếu X=Y, J(X, Y)=1. Tại bất kỳ tập t nào, độ chính xác phân loại của người tham gia là J(ηt,ct) trong khi mô hình của chúng tôi là J(ηt, ˆct). Do mẫu số của nó, JI bị phạt nhiều hơn khi số phần tử trong tập hợp được dự đoán (ct hoặc ˆct) không nằm trong ηt tăng lên, đây là một thuộc tính mong muốn cho trường hợp của chúng ta. Sự giống nhau giữa phân loại của người tham gia và mô hình của chúng tôi được đo bằng J(ct, ˆct). Mô hình của chúng tôi cũng được đánh giá về độ chính xác trong việc lựa chọn lớp và từ chối đối với từng người tham gia. Đặt st=ct − ct−1 là tập hợp các lớp mới được chọn và rt=ct−1 − ct là tập hợp các lớp bị người tham gia từ chối tại t. Tương tự, ˆst=ˆct − ct−1 là tập hợp các lớp mới được chọn và ˆrt=ct−1 − ˆct là tập hợp các lớp bị từ chối bởi mô hình của chúng ta tại thời điểm t. Sau đó, việc lựa chọn và loại bỏ lớp của mô hình có thể được so sánh với lớp của người tham gia bằng J(st, ˆst) khi |st| > 0 và J(rt, ˆrt) khi |rt| > 0, tương ứng. Dự đoán vị trí. Giả thuyết Lý tưởng nhất là sự phân bổ niềm tin trên tất cả các lớp phải là không đồng nhất (nghĩa là chỉ một đỉnh) và có hình dạng Gaussian mỏng (tức là độ lệch chuẩn nhỏ) cho thấy người tham gia tự tin về lớp (trạng thái) của kích thích (môi trường). Tuy nhiên, rõ ràng từ dữ liệu của chúng tôi (tham khảo Hình 2), người tham gia thường bị nhầm lẫn giữa nhiều lớp, đặc biệt là trong một vài tập đầu tiên. Trong những trường hợp này, sự phân bổ niềm tin của anh ta có nhiều đỉnh hoặc là một Gaussian béo. Chúng tôi đưa ra giả thuyết rằng mục tiêu của người tham gia là hội tụ về một Gaussian đơn phương và mỏng, để đạt được mục tiêu đó anh ta lấy mẫu có chọn lọc các vị trí làm giảm xác suất của tất cả các lớp ngoại trừ một lớp. Giả thuyết này dẫn đến việc giảm thiểu sự không chắc chắn đối với các lớp (trạng thái môi trường), đây là một nguyên tắc hướng dẫn hành động nổi tiếng24, bao gồm cả chuyển động của mắt25.

Hình 2. Thời lượng và phân bổ lớp đối với tất cả người tham gia và tác nhân kích thích thuộc danh mục '0', 'a' và 'A'.
Te observations at certain locations in a stimulus image can discriminate between certain classes. Te observation at a location l might indicate that the numeral/alphabet belongs to class I and not to class j. Such locations are more salient than others in achieving a participant's goal. To sample such locations, a saliency map, Dij, is computed such that if l is salient, the observation at l is evidence to increase the probability of class I and decrease that of j. Mathematically, Dij = N (., σ ) ∗ g(.), where ∗ is the convolution operator, g(.) is a saliency scoring function, and N (., σ ) is a 5×5 Gaussian kernel with standard deviation σ = 6 to smooth the saliency scores. We denote the set of all saliency maps as D = {Dij: i, j ∈ {1, 2, ..., n}, i �= j}. A location l in a stimulus image is salient for class i with respect to class j if Dij(l)>θ, trong đó ngưỡng θ=0,5 × max(D) là đại lượng vô hướng được xác định theo kinh nghiệm.
Chúng tôi coi hai số liệu bất đối xứng, độ phân kỳ và sai phân Kullback-Leibler (KL), là ứng cử viên cho hàm g. Phân kỳ KL Cho hai ảnh trung bình chuẩn hóa, Ii và Ij, phân kỳ KL KL(Ii, Ij) đo lường sự mất thông tin khi Ij được sử dụng để xấp xỉ Ii. Giá trị này được tính cho mỗi pixel k as26: KL(Ii,k, Ij,k)=Ii,k log δ + Ii,k Ij,k+δ, trong đó Ij,k là cường độ của pixel thứ k của Ij và δ là hằng số chính quy. Khi Ii,k=Ij,k, KL(Ii,k,Ij,k) → 0. Sự khác biệt Cho hai ảnh trung bình được chuẩn hóa, Ii và Ij, sự khác biệt của mỗi pixel k là Diff (Ii,k, Ij,k)=Ii,k − Ij,k. Khi Ii,k=Ij,k, Diff (Ii,k, Ij,k)=0. Một người tham gia không chắc chắn về tập hợp các lớp, ct, anh ta đã chọn ở tập hiện tại. Do đó, để dự đoán vị trí, chúng tôi chỉ xem xét các bản đồ nổi bật trong D có liên quan đến các lớp trong ct. Một vị trí được dự đoán nếu nó nổi bật dựa trên các bản đồ nổi bật này và chưa bao giờ được người tham gia chọn. Tus, với o1:t, l1:t và ct, vị trí lt+1 được dự đoán như sau:

trong đó Ŵ là tập hợp các 3-bộ dữ liệu chứa vị trí được dự đoán ˆl, lớp mà nó nổi bật đối với (i) và đối với lớp nào (j). Vị trí của Te được dự đoán chính xác nếu tồn tại một �ˆl, i, j� ∈ Ŵ sao cho �ˆl − lt+1� < ǫ, I ∈ ct+1 và j /∈ ct{{3} }, trong đó ǫ là khoảng cách Euclide tối đa giữa pixel trung tâm và bất kỳ pixel nào trong vùng quan sát. Mã giả để dự đoán vị trí được hiển thị trong Thuật toán 1. Giải thích chi tiết về mã giả được đưa vào Phần S1 của tài liệu bổ sung. (Phân bố xác suất Te, P(lt+1|o1:t, l1:t,ct), có thể được tính bằng cách giả sử điểm nổi bật của các vị trí không nằm trong Ŵ bằng 0 và sau đó chuẩn hóa điểm nổi bật của tất cả vị trí để tính tổng thành một. Tuy nhiên, xác suất này chưa được sử dụng vì phương trình (3) là đủ cho mục đích của bài viết này.)

Đánh giá các mô hình dựa trên sự chú ý.
Với tư cách là đại diện của các mô hình dựa trên sự chú ý, chúng tôi xem xét mô hình chú ý định kỳ (RAM)3 được trích dẫn nhiều để báo cáo kết quả thử nghiệm trên tập dữ liệu MNIST. Mô hình tăng cường này lấy mẫu hình ảnh một cách tuần tự và quyết định vị trí lấy mẫu tiếp theo tại mỗi thời điểm lấy mẫu, giúp việc đánh giá bằng cách sử dụng dữ liệu được thu thập trở nên phù hợp.
ĐẬP
phân loại hình ảnh bằng cách sử dụng một chuỗi các cái nhìn thoáng qua. Vị trí tiếp theo được chọn ngẫu nhiên từ phân phối được tham số hóa bởi mạng vị trí. Mô hình được đào tạo từ đầu đến cuối bằng cách tối đa hóa mục tiêu sau3 :

Trong đó M là số tập, T là số lượng quan sát, xi 1:t là chuỗi tương tác thu được bằng cách chạy tác nhân hiện tại cho đến khi có I tập, ui t là hành động hiện tại, θ là tập hợp các tham số có thể huấn luyện, Ri t là phần thưởng tích lũy, bt là đường cơ sở và π(ui t|xi 1:t; θ ) là chính sách. Hành vi của RAM có thể được so sánh với hành vi của người tham gia bằng cách so sánh các bản đồ cố định thu được từ chuỗi vị trí được RAM dự đoán và vị trí do người tham gia chọn. Bản đồ fxation được tính toán bằng cách gán cho mỗi vị trí một giá trị bằng tần suất lựa chọn của nó, sau đó chuẩn hóa các giá trị đó để tạo phân phối trên tất cả các vị trí.
Số liệu để so sánh bản đồ cố định. Đối với các số liệu so sánh hai bản đồ cố định P và Q, chúng tôi theo sát 26. Chúng tôi sử dụng ba số liệu dựa trên phân phối: Phân kỳ KL (KL), hệ số tương quan Pearson (CC) và Độ tương tự (SIM), để so sánh sự phân bố của các vị trí lấy mẫu từ một mô hình với mô hình đó từ những người tham gia được ghi lại trong dữ liệu được thu thập.
KL (được xác định trước đó) rất nhạy cảm với giá trị 0.
CC có thể đánh giá mối quan hệ tuyến tính giữa hai bản đồ như26: CC(P, Q)=σ (P, Q) σ (P)σ (Q), trong đó σ là phương sai hoặc hiệp phương sai. Vì CC có tính đối xứng nên không thể suy ra liệu sự khác biệt giữa các bản đồ cố định là do dương tính giả hay âm tính giả.
SIM được đo bằng 26: SIM(P, Q)=k min(Pk, Qk), trong đó k Pk=k Qk=1. Giống như CC, SIM có tính đối xứng và thừa hưởng nhược điểm tương tự. Ngoài ra, SIM rất nhạy cảm với các giá trị bị thiếu và xử phạt các dự đoán không tính đến mật độ thực tế cơ bản.
Nghiên cứu về con người và động vật.
Hội đồng Đánh giá Thể chế tại Đại học Memphis đã xác định rằng nghiên cứu này không đáp ứng định nghĩa của Văn phòng Bảo vệ Nghiên cứu Đối tượng Con người về nghiên cứu đối tượng con người và 45 CFR phần 46 không áp dụng. Do đó, nghiên cứu này không yêu cầu IRB phê duyệt hoặc xem xét.
Kết quả thí nghiệm Phân tích dữ liệu.
Dữ liệu được thu thập có thể được hiển thị dưới dạng trình tự phân bổ của các vị trí đã chọn (Hình 3), các lớp đã chọn (Hình 2) và thời lượng giữa các tập liên tiếp (Hình 2). Những phân phối này rất giống nhau đối với ba bộ dữ liệu. Đối với bất kỳ chữ số hoặc bảng chữ cái nào, việc phân bổ các vị trí được chọn sau phần cuối cùng giống với phân bổ cường độ điểm ảnh của lớp của nó từ tập dữ liệu. Tuy nhiên, trình tự các vị trí được chọn có tính chất ngẫu nhiên. Sự phân bổ lớp cho thấy sự nhầm lẫn giữa các danh mục có cấu trúc tương tự nhau trong một số tập đầu tiên khi người tham gia chọn nhiều lớp. Sự nhầm lẫn này được giảm bớt khi lấy mẫu nhiều hơn. Có mối tương quan thuận đáng kể giữa mức độ nhầm lẫn (# lớp được chọn/tổng số lớp) và thời gian lấy mẫu (xem Hình 4). Nếu số lượng lớp được chọn cao (thấp) thì thời lượng giữa các tập liên tiếp cao (thấp). CC của chuỗi các vị trí được người tham gia chọn cho một lớp là không đáng kể (Bảng 1). Điều này được mong đợi do sự khác biệt giữa các chủ thể trong việc lấy mẫu hình ảnh tĩnh. Số lượng mẫu trung bình mà người tham gia yêu cầu để dự đoán chính xác một lớp là khá thấp. Trung bình phải mất 4,2, 4,7 và 4,9 mẫu tương ứng với 36, 44,1 và 48,1 giây để phân loại chính xác lần lượt các ảnh MNIST, chữ hoa và chữ thường. Trung bình, những người tham gia chỉ xem 11,3%, 13,4% và 13,7% diện tích hình ảnh để phân loại chính xác hình ảnh bảng chữ cái chữ số, chữ hoa và chữ thường (xem Hình S2 trong tài liệu bổ sung). Những kết quả này nêu bật tính hiệu quả của hệ thống suy luận thị giác của con người, mặc dù ở độ phân giải thấp hơn dữ liệu theo dõi bằng mắt nhưng ít nhiễu và biến thiên hơn. Những kết quả thực nghiệm này có thể hữu ích cho việc thiết kế các mô hình dựa trên sự chú ý cho các ứng dụng trong thế giới thực. Dự đoán hành vi. Trong phần này, hiệu suất của mô hình cơ sở của chúng tôi được đánh giá dựa trên mức độ chính xác mà nó có thể dự đoán vị trí và lựa chọn lớp học của từng người tham gia. Do kết quả thử nghiệm của chúng tôi sử dụng hai hàm tính điểm độ mặn, độ phân kỳ KL và độ chênh lệch khá giống nhau nên kết quả chỉ được báo cáo bằng cách sử dụng độ chênh lệch, trừ khi có quy định khác. Dự đoán lớp Dự đoán lớp và các phương pháp đánh giá độ chính xác của nó được mô tả trong phần "Dự đoán lớp". Độ chính xác dự đoán của lớp, được hiển thị trong Hình 5, được tính toán trên tất cả các lớp cho tất cả các lần lấy mẫu. Độ chính xác dự đoán lớp trung bình trên tất cả các mẫu và bộ dữ liệu là 74,4% (std. dev. 26,5). Hình 5a và b cho thấy tập hợp các lớp được người tham gia lựa chọn và theo mô hình cơ sở của chúng tôi (Phương trình 2) khá không chính xác ở các tập đầu tiên và được cải thiện khi tăng số lượng mẫu. Hình 5c cho thấy rằng, trong những tập đầu tiên, hai tập hợp ct và ˆct này khá khác nhau; độ tương tự tăng lên khi số lượng mẫu tăng lên. Điều tương tự cũng áp dụng cho các lựa chọn lớp mới (tham khảo Hình 5f). Tuy nhiên, việc từ chối lớp học cũng tương tự ở những tập đầu; độ tương tự tăng hơn nữa với nhiều mẫu hơn (tham khảo Hình 5e). Vì J(st, ˆst)=|(ct ∩ ˆct) − ct−1| |(ct ∪ ˆct) − ct−1| và J(rt, ˆrt)=|ct−1 − (ct ∪ ˆct)| |ct−1 − (ct ∩ ˆct)|, có thể suy ra từ Hình 5e, f rằng tại các tập đầu tiên, giao điểm giữa ct−1 và ct ∪ ˆct là nhỏ, cho thấy rằng ban đầu những người tham gia và mô hình cơ sở của chúng tôi thực hiện nhiều thay đổi trong việc lựa chọn lớp học giữa các tập phim liên tiếp. Vì vậy, ban đầu, quá trình lựa chọn lớp có tính ngẫu nhiên cao. Mặc dù có một số điểm khác biệt giữa dự đoán về lớp học của người tham gia và mô hình của chúng tôi trong những tập đầu tiên, nhưng các hành vi ngày càng trở nên giống nhau với nhiều mẫu hơn. Trong vài tập đầu tiên (thường là 4 đến 7), những phần nổi bật nhất của kích thích sẽ được bộc lộ. Điều này giúp chỉ chọn đúng lớp trong các lần lấy mẫu sau, giúp tăng độ chính xác của dự đoán. Vì có nhiều lớp có mẫu trung bình khớp với các phần kích thích được quan sát trong một vài tập đầu tiên, nên quá trình lựa chọn lớp mang tính ngẫu nhiên hơn đáng kể, dẫn đến độ chính xác phân loại thấp đối với những người tham gia cũng như mô hình của chúng tôi.

Hình 3. Phân bổ các vị trí lấy mẫu trên tất cả những người tham gia cho từng lớp chữ số/bảng chữ cái và từng đợt lấy mẫu. Mỗi hàng tương ứng với một lớp, mỗi cột tương ứng với một đợt lấy mẫu tăng dần từ trái sang phải.
Dự đoán vị trí. Độ chính xác dự đoán vị trí của mô hình cơ sở (Phương trình 3) của chúng tôi, tính trung bình trên tất cả các mẫu và bộ dữ liệu, là 67,7% (std. dev. 14.1) (tham khảo Hình 5d). Xu hướng độ chính xác dự đoán này ngược lại với độ chính xác dự đoán của lớp. Tuy nhiên, lời giải thích vẫn như cũ. Độ chính xác dự đoán vị trí cao trong các lần lấy mẫu ban đầu vì trong các giai đoạn này, các vị trí có độ nổi bật cao sẽ được chọn, còn các vị trí ít nổi bật hơn sẽ được chọn trong các giai đoạn sau. Vì có nhiều vị trí có độ mặn thấp nên quá trình lựa chọn của chúng có tính ngẫu nhiên cao và do đó khó dự đoán, dẫn đến giảm độ chính xác của dự đoán khi tăng số lượng mẫu. Xu hướng giảm là duy nhất cho mỗi tập dữ liệu (tham khảo Hình 5d) vì số lượng lớp và số lượng vị trí nổi bật hữu ích cho việc phân biệt đối xử khác nhau giữa các tập dữ liệu. Số lượng lớp và vị trí phân biệt đối xử càng thấp thì độ chính xác của dự đoán vị trí sẽ càng giảm nhanh hơn khi tăng số lượng lấy mẫu.

Hình 4. (Trái) Biểu đồ chênh lệch thời gian (giây) giữa các mẫu liên tiếp được tính trung bình trên tất cả các lớp. Tat là giá trị hiển thị ở tập lấy mẫu t là thời gian trôi qua giữa lần nhấp chuột của người tham gia vào hình ảnh tại thời điểm t − 1 và t. (Phải) Biểu đồ gây nhầm lẫn có thanh lỗi tính trung bình cho tất cả các lớp ở mỗi tập. Thanh lỗi cho biết std. dev.

Hình 5. Đánh giá mô hình cơ sở của chúng tôi (tham khảo Phần "Đường cơ sở để dự đoán hành vi"). (a) Độ chính xác phân loại (acc.) của những người tham gia và (b) độ chính xác của mô hình cơ sở của chúng tôi với các nhãn thực tế là sự thật cơ bản. (c) Độ tương tự phân loại (J(ct, ˆct)), (d) độ chính xác dự đoán vị trí, (e) độ chính xác loại bỏ lớp và (f) độ chính xác lựa chọn lớp của mô hình cơ sở của chúng tôi với dữ liệu của người tham gia là sự thật cơ bản. Xem phần "Dự đoán hành vi" để biết chi tiết.

Bảng 1. Hệ số tương quan Pearson trung bình (hiệu chỉnh) cho các chuỗi fxation trong cùng một lớp. Đối với bất kỳ sự cố định nào, khoảng cách là Euclide và hướng được đo bằng góc cực đối với tâm của kích thích làm gốc. tiêu chuẩn. dev. được bao gồm trong dấu ngoặc đơn.
Đánh giá RAM.
Đối với mỗi lớp và lấy mẫu, các bản đồ cố định từ RAM (chúng tôi đã sử dụng triển khai RAM từ github.com/hehefan/Recurrent-Attention-Model) và dữ liệu thu thập được cho cùng một kích thích được trình bày trong MTurk được so sánh. Để so sánh công bằng với những người tham gia, trong RAM, chúng tôi đã cố định độ dài chuỗi ở T=12, vị trí lấy mẫu đầu tiên ở trung tâm hình ảnh, quan sát đầu vào thành bản vá 5×5 với vị trí được chọn làm trung tâm và đã sửa đổi chức năng phần thưởng bằng phương trình. (1). Phần thưởng tích lũy Te, Rt trong phương trình. (4,) được thay thế bằng điểm tích lũy t τ=1 Pτ thu được từ biểu thức. (1). Vì người tham gia có thể chọn nhiều lớp ở bất kỳ tập nào, đối với mô hình RAM, thay vì dự đoán một lớp duy nhất dựa trên xác suất cao nhất, chúng tôi coi xác suất trung bình trên tất cả các lớp là một ngưỡng và dự đoán tập hợp các lớp ct có xác suất lớn hơn ngưỡng. ct này được sử dụng để tính điểm bằng phương trình. (1). Trong những điều kiện này, RAM yêu cầu các mẫu 3,7, 8,5 và 7,6 để nhận dạng các chữ số MNIST, chữ hoa và chữ thường EMNIST, tương ứng với 8,9%, 21.{19}}%, 18,7% diện tích hình ảnh. Do đó, so với những người tham gia của chúng tôi (tham khảo phần "Phân tích dữ liệu"), RAM kém hiệu quả hơn. Xem Bảng 2. Kết quả từ việc so sánh các bản đồ cố định từ RAM và dữ liệu thu thập được hiển thị trong Bảng 3. KL cao hơn do độ nhạy của nó với các giá trị 0. Điều này ngụ ý rằng một số vị trí được lấy mẫu bởi những người tham gia chứ không phải bằng RAM. Những thử nghiệm này có thể được sử dụng làm cơ sở để đánh giá các vị trí được lấy mẫu bằng mô hình chú ý.

lợi ích cistanche - Cải thiện trí nhớ
Thảo luận
Mô hình mcAT, như được sử dụng trong bài viết này, có một số điểm khác biệt nhất định so với những mô hình chủ yếu dựa vào chuyển động của mắt và ánh nhìn để nghiên cứu cơ chế nhận dạng đối tượng. Ở phần sau, các phần nổi bật của khung cảnh thu hút sự chú ý trước tiên, tiếp theo là chuyển động chớp nhoáng của mắt hướng ánh nhìn vào các vị trí nổi bật27. Ánh nhìn được điều khiển bởi các tín hiệu từ dưới lên và từ trên xuống, cùng với thông tin về độ nổi bật, tạo thành các bản đồ ưu tiên hướng dẫn chuyển động của mắt để nhận dạng đối tượng. Vì những người tham gia nghiên cứu hiện tại xem các hình ảnh tĩnh trong điều kiện xem tự do và có nhiều thời gian (sáu phút để lấy mẫu T=12), nên họ có thể tham gia vào một loạt chuyển động mắt bất thường hoặc lý luận thị giác28 để khám phá hình ảnh trước khi nhấp vào AOI. Những chuyển động của mắt này có thể được ghi lại trong emAT (sử dụng thiết bị theo dõi mắt) nhưng không được ghi lại trong mcAT. Tuy nhiên, những chuyển động của mắt này bị ảnh hưởng bởi tâm trí lang thang. Mặc dù mcAT cũng bị ảnh hưởng bởi tâm trí lang thang29, nhưng hiệu ứng có thể giảm đi bất cứ khi nào người tham gia phản ứng sau khi suy luận bằng hình ảnh. Do chuyển động của mắt để đáp ứng với kích thích bị ảnh hưởng bởi nhiệm vụ trước mắt30, nên kiểu chuyển động mắt của người tham gia có thể bị ảnh hưởng bởi nhiệm vụ ba bước được giao ở mỗi lần lấy mẫu (tham khảo phần "Nhiệm vụ trực quan"). Nếu sử dụng thiết bị theo dõi mắt, chuyển động mắt của người tham gia để khám phá mẫu sẽ được trộn lẫn với chuyển động mắt để nhấp vào các lớp đã chọn của họ, điều này sẽ làm phức tạp việc diễn giải khám phá trực quan của mẫu. Nhấp vào (các) lớp là một bước cần thiết vì nó tiết lộ (các) lớp được dự đoán trong tâm trí người tham gia, mặc dù về mặt nội tâm. Có khả năng là ánh nhìn ngay trước và sau khi lựa chọn AOI-có lẽ cũng được hỗ trợ bởi chuyển động cố định của mắt{10}}đóng góp nhiều nhất vào khả năng nhận dạng chữ số/bảng chữ cái. Thật vậy, chúng tôi phỏng đoán rằng những người tham gia đã chọn các vùng chẩn đoán của hình ảnh để phân biệt giữa các lớp và những vùng đó có thể chứa hỗn hợp thông tin chẩn đoán từ dưới lên (ví dụ: độ tương phản hình ảnh) và từ trên xuống (mẫu chữ số/bảng chữ cái). Điều này phù hợp với phát hiện của chúng tôi rằng những người tham gia nhanh chóng (trung bình trong vòng 5 mẫu) có thể phân biệt rõ ràng giữa các nhóm kích thích bằng cách chọn các bản vá chẩn đoán.

Bảng 2. So sánh hiệu quả giữa những người tham gia của chúng tôi và mô hình RAM về số lượng mẫu trung bình cần thiết để nhận dạng một chữ số/bảng chữ cái. Tỷ lệ phần trăm diện tích hình ảnh được quan sát được bao gồm trong ngoặc đơn.

Bảng 3. Đánh giá các bản đồ cố định từ RAM đối với các kích thích được trình bày trong các thí nghiệm MTurk tính trung bình trên tất cả các lớp và mẫu. tiêu chuẩn. dev. được bao gồm trong dấu ngoặc đơn.
Kết luận
Chúng tôi đã giới thiệu bộ dữ liệu mcAT để nhận dạng các chữ số và bảng chữ cái viết tay thông qua lấy mẫu tuần tự. Dữ liệu được thu thập từ 382 người tham gia trình bày các hình ảnh được chọn từ bộ dữ liệu chuẩn (MNIST, EMNIST). Trung bình, 169,1 câu trả lời cho mỗi lớp chữ số/bảng chữ cái được ghi lại. Dữ liệu được phân tích chặt chẽ để tiết lộ hiệu quả nhận dạng hình ảnh của con người. Những người tham gia chỉ quan sát được 12,8% hình ảnh để nhận dạng. Chúng tôi đã đề xuất một mô hình cơ sở để dự đoán vị trí và (các) lớp mà người tham gia sẽ chọn ở lần lấy mẫu tiếp theo. Chúng tôi đã chỉ ra cách sử dụng các điều kiện và dữ liệu thử nghiệm của chúng tôi để đánh giá mô hình tăng cường dựa trên sự chú ý so với hiệu suất của con người. Bộ dữ liệu mcAT này, với nhiều lợi ích so với dữ liệu theo dõi bằng mắt, sẽ lấp đầy khoảng trống quan trọng trong nghiên cứu mô hình dựa trên sự chú ý trong AI, ML và các lĩnh vực khác.
Người giới thiệu
1. Ranzato, MA Về việc học tìm ở đâu. arXiv:1405.5488, (2014).
2. Ba, J., Salakhutdinov, RR, Grosse, RB, & Frey, BJ Học các mô hình chú ý lặp lại khi thức và ngủ. Trong NIPS, 2593–2601 (2015).
3. Mnih, V. và cộng sự. Các mô hình tái diễn của sự chú ý trực quan. Trong NIPS, 2204–2212 (2014).
4. Ba, J., Mnih, V., & Kavukcuoglu, K. Nhận dạng nhiều đối tượng bằng sự chú ý trực quan. arXiv:1412.7755 (2014).
5. Dutta, JK & Banerjee, B. Sự khác biệt về độ chính xác phân loại với số lần nhìn thoáng qua. Trong IJCNN, 447–453 (IEEE, 2017).
6. Larochelle, H. & Hinton, GE Học cách kết hợp những cái nhìn thoáng qua về phân với máy Boltzmann bậc ba. Trong NIPS, 1243–1251 (2010).
7. Elsayed, G., Kornblith, S. & Le, QV Saccader: Cải thiện độ chính xác của các mô hình chú ý chăm chỉ về thị giác. Trong NIPS, 702–714 (2019).
8. van Beers, RJ Te là nguồn gốc của sự biến đổi trong chuyển động giật của mắt. J. Khoa học thần kinh. 27(33), 8757–8770 (2007).
9. Itti, L. & Baldi, P. Bayesian gây bất ngờ thu hút sự chú ý của con người. Vis. Res. 49(10), 1295–1306 (2009).
10. Egner, S. và cộng sự. Sự chú ý và thu thập thông tin: So sánh thao tác nhấp chuột với theo dõi sự chú ý chuyển động của mắt. J. Mắt Mov. Res. 11(6), (2018).
11. Peterson, MS, Kramer, AF & Irwin, DE Bí mật chuyển sự chú ý trước các chuyển động mắt không chủ ý. Nhận thức. Tâm lý học. 66(3), 398–405 (2004).
12. Jiang, M. và cộng sự. Silicon: Tính nổi bật trong bối cảnh. Trong CVPR, 1072–1080 (2015).
13. Kim, Tây Bắc và cộng sự. BubbleView: Một giao diện dành cho cộng đồng cung cấp bản đồ tầm quan trọng của hình ảnh và theo dõi sự chú ý trực quan. ACM Trans. Máy tính. Ừm. Tương tác. 24(5), 1–40 (2017).
14. Sermanet, P., Frome, A. & Real, E. Chú ý đến việc phân loại chi tiết. arXiv:1412.7054 (2014).
15. Egner, S., Itti, L. & Scheier, C. So sánh các mô hình chú ý với các loại dữ liệu hành vi khác nhau. Điều tra. Thuốc nhỏ mắt. Vis. Khoa học. 41(4), S39 (2000).
16. Navalpakkam, V. và cộng sự. Đo lường và mô hình hóa hành vi của mắt chuột khi có bố cục trang phi tuyến tính. Trong Proc. Int. Conf. WWW, 953–964 (2013).
17. Matzen, LE, Stites, MC & Gastelum, ZN Nghiên cứu tìm kiếm trực quan mà không cần thiết bị theo dõi mắt: Đánh giá về sự hình thành hố nhân tạo. Nhận thức. Res. Hoàng tử. Ngụ ý. 6(1), 1–22 (2021).
18. Tafi, AP và cộng sự. OCR dưới dạng dịch vụ: Đánh giá thử nghiệm OCR, Tesseract, ABBYY FineReader và Transy của Google Docs. Trong Int. Triệu chứng. Vis. Máy tính., 735–746 (Springer, 2016).
19. Memon, J., Sami, M., Khan, RA & Uddin, M. Nhận dạng ký tự quang học viết tay (OCR): Đánh giá tài liệu có hệ thống toàn diện (SLR). Truy cập IEEE 8, 142642–142668 (2020).
20. Chaudhuri, A., Mandaviya, K., Badelia, P. & Ghosh, SK Hệ thống nhận dạng ký tự quang học. Trong Hệ thống nhận dạng ký tự quang học cho các ngôn ngữ khác nhau bằng máy tính Sof, 9–41 (Springer, 2017).
21. LeCun, Y. và cộng sự. Học tập dựa trên gradient được áp dụng để nhận dạng tài liệu. Proc. IEEE 86(11), 2278–2324 (1998).
22. Cohen, G., Afshar, S., Tapson, J. & van Schaik, A. EMNIST: Một phần mở rộng của MNIST cho các chữ viết tay. arXiv:1702.05373, (2017).
23. Gregor, K., Danihelka, I., Graves, A., Rezende, D. & Wierstra, D. DRAW: Mạng thần kinh tái phát để tạo hình ảnh. Trong ICML, 1462–1471 (2015).
24. Nguyên tắc năng lượng tự do của Friston, K. Te: Hướng dẫn sơ bộ về bộ não?. Xu hướng Nhận thức. Khoa học. 13(7), 293–301 (2009).
25. Mirza, MB, Adams, RA, Friston, K. & Parr, T. Giới thiệu mô hình Bayes về sự chú ý có chọn lọc dựa trên suy luận tích cực. Khoa học. Dân biểu 9(1), 1–22 (2019).
26. Bylinskii, Z., Judd, T., Oliva, A., Torralba, A. & Durand, F. Các số liệu đánh giá khác nhau cho chúng ta biết điều gì về các mô hình nổi bật? IEEE Trans. Mẫu Hậu Môn. Mach. Trí tuệ. 41(3), 740–757 (2018).
27. Itti, L. & Koch, C. Mô hình tính toán sự chú ý của thị giác. Nat. Mục sư Neurosci. 2(3), 194–203 (2001).
28. Lamme, VAF Chức năng thị giác tạo ra cái nhìn có ý thức. Đằng trước. Tâm lý học., 11, (2020).
29. da Silva, MRD & Postma, M. Tâm trí lang thang, chuột lang thang: Theo dõi chuột máy tính như một phương pháp phát hiện tâm trí lang thang. Máy tính. Ừm. Cư xử. 112, 106453 (2020).
30. Schütz, AC, Braun, DI & Gegenfurtner, KR Chuyển động và nhận thức của mắt: Đánh giá có chọn lọc. J.Vis. 11(5), 9–9 (2011).
31. Intoy, J. & Rucci, M. Chuyển động của mắt được tinh chỉnh sẽ nâng cao thị lực. Nat. Cộng đồng. 11(1), 1–11 (2020).






