AI Kini Boleh Memahami Video Anda Dengan Menontonnya

Isi kandungan:

AI Kini Boleh Memahami Video Anda Dengan Menontonnya
AI Kini Boleh Memahami Video Anda Dengan Menontonnya
Anonim

Key Takeaway

  • Penyelidik mengatakan mereka boleh mengajar AI untuk melabelkan video dengan menonton dan mendengar.
  • Sistem AI belajar untuk mewakili data untuk menangkap konsep yang dikongsi antara data visual dan audio.
  • Ia adalah sebahagian daripada usaha untuk mengajar AI memahami konsep yang manusia tidak menghadapi masalah untuk belajar tetapi komputer sukar untuk difahami.

Image
Image

Sistem kecerdasan buatan (AI) baharu boleh menonton dan mendengar video anda serta melabel perkara yang sedang berlaku.

MIT penyelidik telah membangunkan teknik yang mengajar AI untuk menangkap tindakan yang dikongsi antara video dan audio. Sebagai contoh, kaedah mereka boleh memahami bahawa perbuatan bayi menangis dalam video adalah berkaitan dengan perkataan yang disebut "menangis" dalam klip bunyi. Ini adalah sebahagian daripada usaha untuk mengajar AI cara memahami konsep yang manusia tidak menghadapi masalah untuk belajar, tetapi komputer sukar untuk difahami.

"Paradigma pembelajaran yang lazim, pembelajaran yang diselia, berfungsi dengan baik apabila anda mempunyai set data yang diterangkan dengan baik dan lengkap," kata pakar AI Phil Winder kepada Lifewire dalam temu bual e-mel. "Malangnya, set data jarang lengkap kerana dunia sebenar mempunyai tabiat buruk untuk menyampaikan situasi baharu."

AI Lebih Pintar

Komputer mengalami kesukaran untuk memikirkan senario harian kerana mereka perlu memecah data dan bukannya bunyi dan imej seperti manusia. Apabila mesin "melihat" foto, ia mesti mengekod foto itu ke dalam data yang boleh digunakan untuk melaksanakan tugas seperti pengelasan imej. AI boleh terganggu apabila input datang dalam pelbagai format, seperti video, klip audio dan imej.

"Cabaran utama di sini ialah, bagaimanakah mesin boleh menyelaraskan modaliti yang berbeza itu? Sebagai manusia, ini mudah untuk kita, " Alexander Liu, seorang penyelidik MIT dan pengarang pertama kertas kerja mengenai subjek itu, berkata dalam baru dilancarkan. "Kami melihat sebuah kereta dan kemudian mendengar bunyi kereta yang memandu, dan kami tahu ini adalah perkara yang sama. Tetapi untuk pembelajaran mesin, ia tidak semudah itu."

Pasukan Liu membangunkan teknik AI yang mereka katakan belajar untuk mewakili data untuk menangkap konsep yang dikongsi antara data visual dan audio. Menggunakan pengetahuan ini, model pembelajaran mesin mereka boleh mengenal pasti tempat tindakan tertentu berlaku dalam video dan melabelkannya.

Model baharu mengambil data mentah, seperti video dan kapsyen teks yang sepadan dan mengekodnya dengan mengekstrak ciri atau pemerhatian tentang objek dan tindakan dalam video. Ia kemudian memetakan titik data tersebut dalam grid, yang dikenali sebagai ruang benam. Model mengelompokkan data yang serupa bersama-sama sebagai titik tunggal dalam grid; setiap titik data, atau vektor, diwakili oleh perkataan individu.

Sebagai contoh, klip video seseorang yang berjoging mungkin dipetakan kepada vektor berlabel "juggling."

Para penyelidik mereka bentuk model supaya ia hanya boleh menggunakan 1, 000 perkataan untuk melabelkan vektor. Model boleh menentukan tindakan atau konsep yang ingin dikodkan ke dalam satu vektor, tetapi ia hanya boleh menggunakan 1, 000 vektor. Model memilih perkataan yang difikirkannya paling sesuai mewakili data.

"Jika terdapat video tentang babi, model mungkin menetapkan perkataan 'babi' kepada salah satu daripada 1, 000 vektor. Kemudian, jika model mendengar seseorang menyebut perkataan 'babi' dalam klip audio, ia masih harus menggunakan vektor yang sama untuk mengekod itu," jelas Liu.

Video Anda, Dinyahkod

Sistem pelabelan yang lebih baik seperti yang dibangunkan oleh MIT boleh membantu mengurangkan berat sebelah dalam AI, Marian Beszedes, ketua penyelidikan dan pembangunan di firma biometrik Innovatrics, memberitahu Lifewire dalam temu bual e-mel. Beszedes mencadangkan industri data boleh melihat sistem AI dari perspektif proses pembuatan.

"Sistem menerima data mentah sebagai input (bahan mentah), memprosesnya terlebih dahulu, menelannya, membuat keputusan atau ramalan dan analisis output (barangan siap), " kata Beszedes. "Kami memanggil aliran proses ini sebagai "kilang data," dan seperti proses pembuatan lain, ia harus tertakluk kepada kawalan kualiti. Industri data perlu menganggap berat sebelah AI sebagai masalah kualiti.

"Dari perspektif pengguna, data tersalah label menjadikan mis. carian dalam talian untuk imej/video tertentu lebih sukar," tambah Beszedes. "Dengan AI yang dibangunkan dengan betul, anda boleh melakukan pelabelan secara automatik, lebih cepat dan lebih neutral berbanding dengan pelabelan manual."

Image
Image

Tetapi model MIT masih mempunyai beberapa had. Pertama, penyelidikan mereka tertumpu pada data daripada dua sumber pada satu masa, tetapi dalam dunia nyata, manusia menemui pelbagai jenis maklumat secara serentak, kata Liu

"Dan kami tahu 1, 000 perkataan berfungsi pada set data jenis ini, tetapi kami tidak tahu sama ada ia boleh digeneralisasikan kepada masalah dunia sebenar," tambah Liu.

Para penyelidik MIT mengatakan teknik baharu mereka mengatasi banyak model yang serupa. Jika AI boleh dilatih untuk memahami video, akhirnya anda mungkin boleh melangkau menonton video percutian rakan anda dan sebaliknya mendapatkan laporan yang dijana komputer.

Disyorkan: