کد خبر: ۴۵۱۹۹
|
۱۰ فروردين ۱۴۰۴ | ۰۷:۰۱

قابلیت تولید تصاویر با متن خوانا به «چت‌جی‌پی‌تی» اضافه شد

اگر تجربه تولید تصویر با هوش مصنوعی داشته باشید، احتمالا به این اشکال مهم پی برده‌اید که این ابزار قدرتمند در یک زمینه به شدت ناتوان و ناقص است؛ افزودن متن به تصویر!

به گزارش «نبض فناوری»، این اشکالی است که اوپن ای آی، در بروزرسانی اخیر چت بات معروفش یعنی چت‌جی‌پی‌تی نسخه 4 او (GPT-4o) موفق به رفعش شده است و با توجه به سرعت بالای رشد ابزارها در این حوزه، احتمالا به زودی در تمامی نسخه های هوش مصنوعی برای تولید تصاویر، فراگیر خواهد شد.

GPT-4o می‌تواند تصاویری با متن‌های دقیق و خوانا تولید کند. این ویژگی جدید به کاربران اجازه می‌دهد تا تصاویر با کیفیت بالا و جزئیات دقیق ایجاد کنند و در حین فرآیند، متن مورد نظر خود را بدون مشکل در تصویر بازتولید کنند.

مدل‌های قبلی هوش مصنوعی معمولاً در تولید متون خوانا در تصاویر ضعف داشتند و اغلب نشانه‌ها و نوشته‌ها را به‌صورت حروف ناقص یا نامفهوم نمایش می‌دادند، اما GPT-4o این مشکل را تا حد زیادی برطرف کرده و اکنون می‌تواند نوشته‌هایی واضح و دقیق روی تابلوها، برچسب‌ها و اشیاء مختلف تولید کند. 

پیشرفت در ترکیب عناصر مختلف در یک تصویر

یکی از ویژگی‌های قابل توجه این نسخه، تعامل پویا با کاربر در فرآیند تولید تصویر است. برخلاف روش‌های سنتی که نیاز به اصلاح مداوم یک پرسش اولیه داشت، در این مدل کاربران می‌توانند ابتدا یک دستور کلی مانند "یک گربه" بدهند و سپس در حین گفت‌وگو با مدل، جزئیات بیشتری مانند "یک گربه با کلاه کارآگاهی و یک مونکل" را به تصویر اضافه کنند. این شیوه باعث دقت و انعطاف‌پذیری بیشتر در خروجی نهایی می‌شود.

قابلیت تولید تصاویر با متن خوانا به «چت‌جی‌پی‌تی» اضافه شد

مونکل (Monocle) همان عینک یک‌چشمی است که معمولاً در قرن‌های ۱۸ و ۱۹ میلادی توسط نجیب‌زادگان و افراد متمول استفاده می‌شد. این وسیله یک عدسی تکی بود که بدون دسته، درون چشم قرار می‌گرفت و اغلب با زنجیر به لباس متصل می‌شد. در ادبیات و فرهنگ عامه، مونکل معمولاً نماد ظرافت، هوش و اشرافیت است و شخصیت‌های معروفی مانند کارآگاه پوآرو یا برخی شخصیت‌های کارتونی مثل آقای پنی‌بگز (شخصیت نمادین بازی مونوپولی) از آن استفاده می‌کردند.

چت‌جی‌پی‌تی-4 او همچنین امکان ترکیب چندین عنصر از تصاویر مختلف را فراهم کرده است. به‌عنوان مثال، کاربران می‌توانند چند تصویر را با هم ترکیب کرده و صحنه‌های پیچیده‌تری بسازند. 

در مقایسه با مدل‌های قبلی که در مدیریت تعداد بالای اشیا در یک تصویر دچار مشکل می‌شدند، این مدل می‌تواند ۱۰ تا ۲۰ شیء مختلف را در یک صحنه پردازش کند، در حالی که بسیاری از مدل‌های قبلی به ۵ تا ۸ شیء محدود بودند.

محدودیت‌ها و چالش‌ها

البته، این مدل همچنان چالش‌هایی دارد. برای مثال:

  • در برخی موارد، تصویر ممکن است از پایین به‌درستی برش داده نشود.
  • متن‌های غیرلاتین (مانند چینی، عربی یا فارسی) همچنان ممکن است به درستی نمایش داده نشوند.
  • هنگامی که تعداد اشیاء موجود در تصویر از ۲۰ مورد بیشتر شود، دقت مدل کاهش می‌یابد.

با این حال، پیشرفت در کیفیت متن‌های تولیدی و افزایش انعطاف‌پذیری در تعامل با تصویر این مدل را به ابزاری قدرتمند برای طراحان، هنرمندان دیجیتال و خالقان محتوا تبدیل کرده است.

یک قدم به سوی آینده‌ای پیشرفته‌تر

با این پیشرفت، اوپن ای آی یک گام دیگر به سوی تکامل هوش مصنوعی در تولید تصاویر برداشته است. اکنون کاربران می‌توانند با دقت بیشتری تصاویر را طراحی کرده و متون موردنظر خود را به‌صورت خوانا و بدون اشکال در آن‌ها قرار دهند. 

این قابلیت می‌تواند انقلابی در طراحی گرافیک، تولید محتوای بصری و تبلیغات دیجیتال ایجاد کند و راه را برای توسعه ابزارهای پیشرفته‌تر در آینده هموار سازد.

ارسال نظرات