{keywords}

Trí tuệ nhân tạo hơn hẳn con người trong nhận dạng ngôn ngữ từ tín hiệu môi. Ảnh: MIT Technology Review.

Hiểu từ ngữ từ cách ra hiệu môi là một bài toán khó, phụ thuộc hoàn cảnh và khả năng thông hiểu ngôn ngữ thông qua tín hiệu thị giác. Tuy nhiên, các nhà nghiên cứu đã chứng minh rằng máy móc có thể nhận dạng ngôn ngữ từ một đoạn video câm tốt hơn cả những người hiểu cách ra hiệu môi chuyên nghiệp.

Nhóm nghiên cứu thuộc ngành Khoa học máy tính của đại học Oxford đã phát triển hệ thống trí tuệ nhân tạo mang tên LipNet. Hệ thống được xây dựng trên cơ sở dữ liệu GRID, tạo nên từ một loạt clip trực tiếp về những người đang đọc các mẫu câu đơn giản.

Nhóm đã sử dụng dữ liệu này để phát triển một hệ thống nơ-ron công nghệ nhận diện ngôn ngữ. Dù hệ thống nhận diện sai lệch từ ngữ nhiều lần, quá trình học nhằm liên kết thông tin đến giải thích những gì đang được nói đã diễn ra, bởi lẽ tín hiệu môi luôn ít hơn số âm thanh mà chúng thể hiện.

Từ đây, máy móc bắt đầu xem xét toàn bộ đoạn video, phát triển khả năng hiểu đoạn văn từ các câu được phân tích.

Khi thử nghiệm, hệ thống có thể nhận diện chính xác đến 93,4%. Trong khi đó, những tình nguyện viên được yêu cầu đọc tín hiệu môi trong bài tập này đoán đúng chỉ 52,3% số từ.

Bên cạnh đó, theo tờ New Scientist, một nhóm khác thuộc ngành Khoa học kĩ thuật của đại học Oxford, làm việc với Google DeepMind, đã nghiên cứu vấn đề với một bài tập khó hơn về ngôn ngữ. Thay vì dùng cơ sở dữ liệu đơn giản và nhất quán như GRID, nhóm này dùng đến 100.000 video ở cấp độ từ ngữ rộng và phát âm phức tạp từ đài BBC.

Với phương pháp tương tự, nhóm từ Oxford và DeepMind đã xây dựng một cỗ máy với khả năng nhận diện đúng 46,8% tất cả từ ngữ. Kết quả này cho thấy chúng hoạt động tốt hơn cả con người với chỉ 12,4% từ đúng.

Gác lại những khác biệt, cả hai thí nghiệm chứng tỏ trí tuệ nhân tạo hơn hẳn con người trong nhận dạng ngôn ngữ từ tín hiệu môi, và không lâu nữa, chúng ta rồi sẽ chứng kiến những ứng dụng đầy tiềm năng cho lĩnh vực này.

Trong tương lai, biết đâu Skype cũng sẽ áp dụng chúng bằng cách ghi lại lời thoại, khi người gọi đang ở một chốn ồn ào, hoặc người nghe gặp khó khăn để giữ smartphone và lắng nghe trọn vẹn đầu dây bên kia?

Theo Zing/New Scientist

" />

Máy móc hiểu con người mà không cần nghe giọng nói

Công nghệ 2025-04-21 22:22:29 631

Hai nghiên cứu đã chứng minh máy móc có thể hiểu những gì con người nói mà không cần nghe giọng nói của họ.

{ keywords}

Trí tuệ nhân tạo hơn hẳn con người trong nhận dạng ngôn ngữ từ tín hiệu môi. Ảnh: MIT Technology Review.

Hiểu từ ngữ từ cách ra hiệu môi là một bài toán khó,áymóchiểuconngườimàkhôngcầnnghegiọngnólịch thi đấu v league phụ thuộc hoàn cảnh và khả năng thông hiểu ngôn ngữ thông qua tín hiệu thị giác. Tuy nhiên, các nhà nghiên cứu đã chứng minh rằng máy móc có thể nhận dạng ngôn ngữ từ một đoạn video câm tốt hơn cả những người hiểu cách ra hiệu môi chuyên nghiệp.

Nhóm nghiên cứu thuộc ngành Khoa học máy tính của đại học Oxford đã phát triển hệ thống trí tuệ nhân tạo mang tên LipNet. Hệ thống được xây dựng trên cơ sở dữ liệu GRID, tạo nên từ một loạt clip trực tiếp về những người đang đọc các mẫu câu đơn giản.

Nhóm đã sử dụng dữ liệu này để phát triển một hệ thống nơ-ron công nghệ nhận diện ngôn ngữ. Dù hệ thống nhận diện sai lệch từ ngữ nhiều lần, quá trình học nhằm liên kết thông tin đến giải thích những gì đang được nói đã diễn ra, bởi lẽ tín hiệu môi luôn ít hơn số âm thanh mà chúng thể hiện.

Từ đây, máy móc bắt đầu xem xét toàn bộ đoạn video, phát triển khả năng hiểu đoạn văn từ các câu được phân tích.

Khi thử nghiệm, hệ thống có thể nhận diện chính xác đến 93,4%. Trong khi đó, những tình nguyện viên được yêu cầu đọc tín hiệu môi trong bài tập này đoán đúng chỉ 52,3% số từ.

Bên cạnh đó, theo tờ New Scientist, một nhóm khác thuộc ngành Khoa học kĩ thuật của đại học Oxford, làm việc với Google DeepMind, đã nghiên cứu vấn đề với một bài tập khó hơn về ngôn ngữ. Thay vì dùng cơ sở dữ liệu đơn giản và nhất quán như GRID, nhóm này dùng đến 100.000 video ở cấp độ từ ngữ rộng và phát âm phức tạp từ đài BBC.

Với phương pháp tương tự, nhóm từ Oxford và DeepMind đã xây dựng một cỗ máy với khả năng nhận diện đúng 46,8% tất cả từ ngữ. Kết quả này cho thấy chúng hoạt động tốt hơn cả con người với chỉ 12,4% từ đúng.

Gác lại những khác biệt, cả hai thí nghiệm chứng tỏ trí tuệ nhân tạo hơn hẳn con người trong nhận dạng ngôn ngữ từ tín hiệu môi, và không lâu nữa, chúng ta rồi sẽ chứng kiến những ứng dụng đầy tiềm năng cho lĩnh vực này.

Trong tương lai, biết đâu Skype cũng sẽ áp dụng chúng bằng cách ghi lại lời thoại, khi người gọi đang ở một chốn ồn ào, hoặc người nghe gặp khó khăn để giữ smartphone và lắng nghe trọn vẹn đầu dây bên kia?

Theo Zing/New Scientist

本文地址:http://app.tour-time.com/html/8f199909.html
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

全站热门

Nhận định, soi kèo Bangkok United vs BG Pathum United, 19h00 ngày 19/4: Hy vọng mong manh

1.jpg.jpg
iPhone 4G bị lộ được xem là vụ rò rỉ lớn nhất của Apple. Ảnh: Gizmodo.

Việc giữ bí mật thông tin đến phút chót không chỉ làm bất ngờ, mà còn giúp Apple tiết kiệm hàng triệu USD để PR sản phẩm mới bởi tâm lý háo hức của khách hàng. Ngoài ra, việc này còn là bí mật thương mại, nhằm tránh sự sao chép của các hãng làm "nhái".

Tuy nhiên, trong thập niên vừa qua, không hiếm thiết bị của Apple xuất hiện trên mặt báo trước ngày ra mắt. Dưới đây là tổng kết của Tuaw - trang tin chuyên về các thiết bị của hãng này.

10. iPod thế hệ thứ năm

Vài giờ trước khi sự kiện "One more thing..." của Apple khai mạc, giới thiệu chiếc iPad Nano thế hệ 5, thì những hình ảnh của model này đã có mặt trên các trang báo mạng. Dù thiệt hại không lớn, nhưng nhiều người đã sớm biết chức năng quay video thông qua một camera phía sau, trước khi "Quả táo" công bố chính thức.

9. iPod Nano thế hệ ba và bốn

1.jpg.jpg
Trước ngày ra mắt 17 ngày, iPod thế hệ 4 đã xuất hiện.

Chiếc iPod Nano thế hệ ba xuất hiện trên website 9to5mac trước hai tuần Apple giới thiệu. Tuy nhiên, hình ảnh thực tế gần như không có, mà chỉ thông qua vỏ bảo vệ, nhưng kích thước và thông tin gần như chính xác so với model màn hình rộng Apple ra mắt sau đó.

Còn iPod Nano thế hệ bốn xuất hiện trước tới 17 ngày so với thời điểm công bố. Theo nhiều nguồn tin, hình ảnh chiếc máy nghe nhạc này đã nhanh chóng bị rút dưới áp lực của bộ phận tư pháp của Apple.

8. Power Mac G5

Vi xử lý G5 Xserves và System X của Virginia Tech năm 2003 đang được xem là siêu máy tính nhanh nhất thế giới. Nền tảng này có mặt trên các model desktop của Apple như iMac, Power Mac. 10 ngày trước thời điểm ra mắt tại WWDC 2003, gần như tất cả cấu hình của Power Mac G5 đã xuất hiện ở khắp nơi

7. Bàn phím Aluminum

iMac - biểu tượng của Apple đã có một sự thay đổi từ màn hình CRT sang dạng hình đèn điện đến thiết kế ngày nay. Kiểu dáng mới được Apple làm lại vào tháng 8/2007 với bàn phím Aluminum. Tháng 6/2007, thiết kế mới của iMac lại bị lộ trên các diễn đàn Trung Quốc.

">

10 vụ rò rỉ sản phẩm đình đám của Apple

1.jpg.jpg
Nokia N8 ">

Nokia N8 chụp ảnh 12 'chấm' bị rò rỉ trên Internet

Nhận định, soi kèo Reims vs Toulouse, 22h15 ngày 20/4: Phong độ trái ngược

">

Transcend trình làng thẻ nhớ CF siêu tốc

友情链接