کد خبر: ۳۷۰۴۹
|
۳۰ مرداد ۱۴۰۲ | ۱۰:۳۰

استفاده از هوش مصنوعی برای استخراج داده‌ها و داده کاوی هوشمند

استخراج اطلاعات مهم از بین انبوهی از داده‌ها و رسیدن به بینشی درست یکی از تخصص‌های بسیار مهم است که برای بقای کسب و کارهایی که با کلان داده‌ها سر و کار دارند اهمیت بسیاری دارد و می‌توان با توسعه دادن هوش مصنوعی از آن برای استخراج داده‌ها و داده کاوی هوشمند استفاده کرد.

به گزارش خبرنگار «نبض فناوری» «دادگان» با کمک هوش مصنوعی و ابزار‌های مرتبط به این فناوری جدید و به روز، اقدام به جمع‌آوری داده‌ها و کلان داده‌ها کرده و در نهایت به ارتقاء سطح کمی و کیفی کسب و کار‌ها کمک شایانی می‌کند.

در دنیای دیجیتالی اهمیت داده‌ها و اطلاعات بسیار بیش از گذشته برای کسب‌وکار‌ها مشخص و نمایان شده، به طوری که بسیاری از کارشناسان و فعالان حوزه کلان داده‌ها و داده‌ها از آن‌ها به عنوان یک منبع درآمدزایی بزرگ در سطح منابع انرژی یاد می‌کنند. در جهان کسب‌وکار امروز، این، داده‌ها هستند که کسب‌وکار‌ها را جهت‌دهی می‌کنند و به عنوان نقشه راهی برای آینده آن‌ها عمل می‌کنند.

به طور مثال، داده‌های رفتار خریداران و مصرف‌کنندگان یک سامانه فروشگاهی می‌تواند به صاحبان کسب‌وکار نشان دهد که خریداران و مصرف‌کنندگان دقیقاً به چه چیز‌هایی نیاز دارند و نسبت به همین داده‌ها و اطلاعات اقدام به تأمین نیاز‌های مشتریان خود کند. مثال‌هایی که تعداد آن‌ها بسیار زیاد و متنوع هستند

از این روی، استخراج اطلاعات مهم از بین انبوهی از داده‌ها و رسیدن به بینشی درست یکی از تخصص‌های بسیار مهم است که برای بقای کسب و کار‌هایی که با کلان داده‌ها سر و کار دارند اهمیت بسیاری دارد و می‌توان با توسعه دادن هوش مصنوعی از آن برای استخراج داده‌ها و داده کاوی هوشمند استفاده کرد.

ستاد اقتصاد دانش‌بنیان دیجیتال نیز برنامه ویژه‌ای را در جهت استخراج، دسته‌بندی و استفاده از این داده‌ها برای کسب‌وکار‌ها و نهاد‌های مختلف در دستور کار خود قرار داد که نتیجه این تلاش‌ها به طراحی و بهره‌برداری از سایتی به نام دادگان انجامیده است.

در ادامه این گزارش به بررسی و معرفی بخش‌های مختلف سایت دادگان می‌پردازیم.

پیکواد، پیکره‌ای برای کمک به پژوهش بر روی درک مطلب ماشینی و توسعه سیستم‌های پرسش و پاسخ به زبان فارسی

پیکواد یک مجموعه داده برای درک مطلب ماشینی به زبان فارسی است. این مجموعه شامل ۸۰ هزار سوال به همراه پاسخ آن‌ها است. سوالات پیکواد از مقالات ویکی‌پدیای فارسی استخراج شده‌اند. جمع کل پاراگراف‌ها ۱۱هزارتا است که به هزار و ۱۲۵ مقاله تعلق دارد و طیف وسیعی از موضوع‌ها را پوشش می‌دهند.

پیکواد به عنوان یک مجموعه داده درک مطلب ماشینی نیاز به یک سیستم پرسش و پاسخ دارد تا یک متن را بخواند و سپس سوالات مطرح شده از آن متن را پاسخ بدهد. هدف از انتشار این مجموعه داده کمک به پژوهش بر روی درک مطلب ماشینی و توسعه سیستم‌های پرسش و پاسخ به زبان فارسی است. از لحاظ ساختاری می‌توان گفت پیکواد شباهت‌هایی به برخی قابلیت‌های نرم‌افزار هوش مصنوعی چت جی‌پی‌تی (GPT) دارد.

پیکره و ماژول مشابهت‌یابی معنایی جملات با استفاده از فناوری هوش مصنوعی

یکی دیگر از بخش‌های سامانه دادگان پیکره و ماژول مشابهت‌یابی معنای جملات است. هدف این پروژه ایجاد یک پیکره شباهت معنایی برای زبان فارسی است. در اینجا، منظور از شباهت معنایی فاصله معنایی بین دو جمله است، یعنی این که دو جمله از نظر محتوای واژگانی و موضوع کلی تا چه اندازه به هم شبیه یا از هم متفاوت هستند.

پیکره و فناوری گفتگوی روزمره زبان فارسی

بخش سوم سامانه دادگان، پیکره و فناوری گفتگوی روزمره زبان فارسی است. این پیکره، اولین پیکره زبان فارسی دیالوگ‌های فیلم و سریال‌های ایرانی به زبان فارسی و مناسب برای فناوری گفتگوی روزمره فارسی است که در ربات‌های مجازی هوشمند ایرانی مورد استفاده قرار می‌گیرد
به گفته مسئولین این سامانه، پیکره فیلم وسریال دارای ۱۰۰ هزار و ۳۴ گفته است که به این عدد باید تعداد یک میلیون و ۲۸۹ هزار و ۲۸۳ گفته پیکره شبکه‌های مجازی را نیز اضافه کرد که در میان سرویس‌های فارسی آمار خوبی محسوب می‌شود.

شایان ذکر است، دادگان برای راستی‌آزمایی داده‌های جمع‌آوری شده، علاوه بر ارزیابی‌های مبتنی بر هوش مصنوعی ارزیابی مرحله قبلی توسط هر برچسب زن انجام شده و به صورت تصادفی نمونه‌هایی از هر مرحله مورد ارزیابی قرار گرفته است.

پیکره محاوره به رسمی

بخش چهارم و پایانی این سامانه نیز پیکره محاوره به رسمی است که کاربرد‌های بسیار زیادی خواهد داشت. در این پروژه حدود ۵۰ هزار جمله محاوره به معادل رسمی آن‌ها تبدیل شده اند. پیکره حاصله شامل ۵۰ هزار زوج جمله محاوره ای- رسمی و همترازی کلمات آنهاست. به عبارت دیگر علاوه بر زوج جملات معادل، برای هر جمله محاوره‌ای مشخص شده کدام کلمه یا عبارت آن، معادل با کدام کلمه یا عبارت در جمله رسمی است.

جملات محاوره‌ای از منابعی، چون شبکه‌های اجتماعی مانند اینستاگرام و توئیتر، پیام رسان‌هایی مانند تلگرام و واتس‌اپ، صفحات وب، وبلاگ ها، کتاب‌ها و فیلم هاجمع آوری شده یا توسط خود داده آمار‌ها تولید شده‌اند.

در این پیکره تقریبا نیمی از جملات محاوره‌ای از ساختار نحوی رسمی برخوردار نبوده و برای تبدیل آن‌ها به شکل رسمی علاوه بر تغییر واژه‌های محاوره‌ای نیاز به اصلاح ساختار دستوری نیز بوده است.

پیاده سازی هوش مصنوعی بدون دادگان مناسب امکان پذیر است؟

هوش مصنوعی در واقع همان علمی است که به ماشین‌ها کمک می‌کند تا همانند یک انسان هوشمند رفتار کنند و بتوانند وظایف مختلفی را اجرا کنند. هوشمند شدن هوش مصنوعی نیز به وسیله داده اتفاق می‌افتد. به این صورت که برای اینکه هوش مصنوعی بتواند یک مشکل در حوزه‌ای خاص را حل کند، داده‌ها و اطلاعات مربوط به آن را جمع آوری می‌کند تا از آن‌ها برای آموزش سیستم استفاده کند.

به گفته مسئولان این سامانه، در این برهه از زمان که کاربست فناوری‌های دیجیتال، در تمامی ساعات زندگی بشر جلوه‌گر شده، ضرورت توجه متمرکز به آنان با وضوح بیشتری نسبت به گذشته بر همگان عیان شده است؛ بنابراین مرکز توسعه فناوری‌های نو ظهور دیجیتال در نظر دارد با حمایت وکمک به توسعه زیر ساخت‌های این فناوری‌های جدید عرصه را برای حضور و توسعه زیست بوم دانش بنیان فراهم نماید.

علاقه‌مندان می‌توانند برای کسب اطلاعات و آگاهی از قابلیت‌های این سایت به نشانی https://data-edt.ir/ مراجعه کنند.

ارسال نظرات
آخرین وضعیت بازار رمزارزهای جهان در 30 اردیبهشت 1403 بیت‌کوین بعد از ۳ هفته رکوردی دیگر ثبت کرد
با کنترل از راه دور؛ سگ رباتیک نیروی نظامی چین شد
آخرین وضعیت بازار رمزارزهای جهان در 29 اردیبهشت 1403 صعود رمزارزهای پیشروی جهان
به دلیل عدم پیروی از مقررات؛ ترکیه گوگل را جریمه کرد
وبگردی