هر چند دهه یکبار، فناوری نحوه درک بشر از خود را تغییر می‌دهد. انقلاب هوش مصنوعی، که به سرعت در سه سال گذشته در حال پیشرفت است، یکی از آن لحظات حیاتی است. حالا دیگر تنها کلمات نیستند که فناوری در حال کشف و درک آن‌هاست، بلکه گفتار و لحن پشت آن‌ها نیز مورد توجه قرار گرفته‌اند.

ظهور مدل‌های زبان بزرگ و توانمندی در تقلید ارتباطات انسانی

با افزایش اهمیت مدل‌های زبانی مانند ChatGPT، این موضوع آشکار شده است که ماشین‌ها قادرند به‌طور قابل‌توجهی ارتباطات انسانی را تقلید کنند. با این حال، یک لایه عمیق‌تر از تعامل باقی مانده است که تنها در کلمات یافت نمی‌شود.

تحقیق جدید در موسسه وایزمن و کشف لحن گفتار به عنوان یک زبان مستقل

تحقیقی که اخیراً توسط آزمایشگاه پروفسور الیشا موسی در موسسه وایزمن انجام شده، این بعد گمشده را آشکار کرده است.
این تحقیق نشان می‌دهد که لحن گفتار – که به آن «پروزودی» گفته می‌شود – یک زبان ساختاری و مستقل است که واژگان، معنای‌شناسی و دستور زبان خود را دارد و منتظر رمزگشایی است.

گفتار بیش از کلمات است

در زندگی روزمره، کلمات تنها بخشی از تعاملات انسانی را تشکیل می‌دهند. پروزودی یا موسیقی گفتار شامل تغییرات در تن صدا، تغییرات در بلندی، تغییرات در سرعت و کیفیت صوتی است.
این ابزارهای بیانی عمق احساسی و عملکردی را به ارتباطات می‌افزایند و معنای آن‌ها را حتی زمانی که کلمات همانند باقی می‌مانند، تحت تأثیر قرار می‌دهند.

این موضوع یک توسعه جدید نیست. مطالعات نشان می‌دهند که هم شامپانزه‌ها و هم نهنگ‌ها از ساختارهای پروزودیک در ارتباطات خود استفاده می‌کنند، که نشان می‌دهد پروزودی پیش از زبان وجود داشته است. در انسان‌ها، یک مکث می‌تواند معنای یک جمله را به‌طور چشمگیری تغییر دهد.

بررسی لحن گفتار به‌عنوان یک زبان پنهان

دکتر نداو ماتالون و دکتر ایال وینراب، که تحقیق را از آزمایشگاه موسی رهبری می‌کنند، تصمیم گرفتند که پروزودی را مانند یک زبان ناشناخته مطالعه کنند.
آن‌ها به پایگاه‌های داده گسترده‌ای از مکالمات خودجوش انگلیسی مراجعه کردند: CallHome Corpus و Santa Barbara Corpus. آن‌ها به‌جای استفاده از گفتار نوشته‌شده یا تمرین‌شده، زیبایی بی‌نظم مکالمات واقعی را جستجو کردند.

الگوهای ابتدایی لحن گفتار

از این خوشه‌بندی، محققان حدود ۲۰۰ الگوی پروزودیک متمایز کشف کردند. این عدد به‌وضوح با هزاران کلمه در واژگان اصلی زبانی انگلیسی متفاوت است. هر الگوی پروزودی، که حدود یک ثانیه طول می‌کشد، به‌عنوان یک «کلمه» در زبان پنهان لحن عمل می‌کند.

عملکرد زبانشناختی الگوهای لحن گفتار

با وجود تفاوت در صداهای فردی، این اشکال ملودیک به‌طور پیوسته در مکالمات خودجوش ظاهر می‌شوند. هر شکل می‌تواند چندین عملکرد زبانی داشته باشد بسته به زمینه، اما معمولاً یک نگرش عاطفی غالب مانند اشتیاق، بدبینی یا کنجکاوی را بیان می‌کند.

لحن گفتار بر اساس قوانین ساده

محققان فراتر از شناسایی «کلمات» پروزودیک ابتدایی، قوانینی برای نحوه ترکیب این واحدهای ملودیک کشف کردند. آن‌ها دریافتند که برخی از الگوهای پروزودی تمایل دارند در جفت‌ها ظاهر شوند، به‌طوری که یک واحد پیش‌بینی می‌کند واحد بعدی را بر اساس قوانینی ساده و به یادماندنی شبیه به فرایند مارکوف.

گفتار خودجوش در مقابل گفتار نوشته‌شده

یکی از یافته‌های چشمگیر این تحقیق، تفاوت بین گفتار خودجوش و گفتار نوشته‌شده است. زمانی که محققان کتاب‌های صوتی حرفه‌ای را تجزیه و تحلیل کردند، متوجه شدند که گفتار نوشته‌شده فاقد جفت‌های طبیعی پروزودیکی است که در مکالمات رایج وجود دارد.

آینده هوش مصنوعی و درک احساسات

آموزش هوش مصنوعی برای درک پروزودی می‌تواند به‌شدت نحوه تعامل ماشین‌ها با انسان‌ها را تغییر دهد. محققان پیش‌بینی می‌کنند که سیستم‌های آینده قادر خواهند بود نه‌تنها کلمات را پردازش کنند، بلکه سیگنال‌های عاطفی را نیز از لحن‌های گفتار دریافت کنند.

چالش‌ها و جهت‌گیری‌های آینده

این تحقیق اذعان می‌کند که گفتار انسانی دارای نویز درونی است. مکالمات روزمره پر از وقفه‌ها، اصلاحات و صداهای همپوشانی است. خوشه‌بندی الگوهای پروزودیک باید این آشوب را مدیریت کند و جداسازی کامل «کلمات» پروزودیک همچنان دشوار است.

کشف اسرار گفتار

این کار با همکاری تیمی متشکل از دکتر دومینیک فرچه، دکتر اریز فولک از NeuraLight Inc.، دکتر تیرزا بیرون و پروفسور دیوید بیرون از دانشگاه شیکاگو ممکن شده است.
تلاش جمعی آن‌ها اکنون به آینده‌ای اشاره دارد که در آن ماشین‌ها نه‌تنها کلمات را درک می‌کنند بلکه قادر به شنیدن انسان‌ها – احساس، قصد و همه چیز – هستند.

این مطالعه در نشریه Proceedings of the National Academy of Sciences منتشر شده است.

source

توسط elmikhabari