قابلیت تولید تصاویر با متن خوانا به «چتجیپیتی» اضافه شد

به گزارش «نبض فناوری»، این اشکالی است که اوپن ای آی، در بروزرسانی اخیر چت بات معروفش یعنی چتجیپیتی نسخه 4 او (GPT-4o) موفق به رفعش شده است و با توجه به سرعت بالای رشد ابزارها در این حوزه، احتمالا به زودی در تمامی نسخه های هوش مصنوعی برای تولید تصاویر، فراگیر خواهد شد.
GPT-4o میتواند تصاویری با متنهای دقیق و خوانا تولید کند. این ویژگی جدید به کاربران اجازه میدهد تا تصاویر با کیفیت بالا و جزئیات دقیق ایجاد کنند و در حین فرآیند، متن مورد نظر خود را بدون مشکل در تصویر بازتولید کنند.
مدلهای قبلی هوش مصنوعی معمولاً در تولید متون خوانا در تصاویر ضعف داشتند و اغلب نشانهها و نوشتهها را بهصورت حروف ناقص یا نامفهوم نمایش میدادند، اما GPT-4o این مشکل را تا حد زیادی برطرف کرده و اکنون میتواند نوشتههایی واضح و دقیق روی تابلوها، برچسبها و اشیاء مختلف تولید کند.
پیشرفت در ترکیب عناصر مختلف در یک تصویر
یکی از ویژگیهای قابل توجه این نسخه، تعامل پویا با کاربر در فرآیند تولید تصویر است. برخلاف روشهای سنتی که نیاز به اصلاح مداوم یک پرسش اولیه داشت، در این مدل کاربران میتوانند ابتدا یک دستور کلی مانند "یک گربه" بدهند و سپس در حین گفتوگو با مدل، جزئیات بیشتری مانند "یک گربه با کلاه کارآگاهی و یک مونکل" را به تصویر اضافه کنند. این شیوه باعث دقت و انعطافپذیری بیشتر در خروجی نهایی میشود.
مونکل (Monocle) همان عینک یکچشمی است که معمولاً در قرنهای ۱۸ و ۱۹ میلادی توسط نجیبزادگان و افراد متمول استفاده میشد. این وسیله یک عدسی تکی بود که بدون دسته، درون چشم قرار میگرفت و اغلب با زنجیر به لباس متصل میشد. در ادبیات و فرهنگ عامه، مونکل معمولاً نماد ظرافت، هوش و اشرافیت است و شخصیتهای معروفی مانند کارآگاه پوآرو یا برخی شخصیتهای کارتونی مثل آقای پنیبگز (شخصیت نمادین بازی مونوپولی) از آن استفاده میکردند.
چتجیپیتی-4 او همچنین امکان ترکیب چندین عنصر از تصاویر مختلف را فراهم کرده است. بهعنوان مثال، کاربران میتوانند چند تصویر را با هم ترکیب کرده و صحنههای پیچیدهتری بسازند.
در مقایسه با مدلهای قبلی که در مدیریت تعداد بالای اشیا در یک تصویر دچار مشکل میشدند، این مدل میتواند ۱۰ تا ۲۰ شیء مختلف را در یک صحنه پردازش کند، در حالی که بسیاری از مدلهای قبلی به ۵ تا ۸ شیء محدود بودند.
محدودیتها و چالشها
البته، این مدل همچنان چالشهایی دارد. برای مثال:
- در برخی موارد، تصویر ممکن است از پایین بهدرستی برش داده نشود.
- متنهای غیرلاتین (مانند چینی، عربی یا فارسی) همچنان ممکن است به درستی نمایش داده نشوند.
- هنگامی که تعداد اشیاء موجود در تصویر از ۲۰ مورد بیشتر شود، دقت مدل کاهش مییابد.
با این حال، پیشرفت در کیفیت متنهای تولیدی و افزایش انعطافپذیری در تعامل با تصویر این مدل را به ابزاری قدرتمند برای طراحان، هنرمندان دیجیتال و خالقان محتوا تبدیل کرده است.
یک قدم به سوی آیندهای پیشرفتهتر
با این پیشرفت، اوپن ای آی یک گام دیگر به سوی تکامل هوش مصنوعی در تولید تصاویر برداشته است. اکنون کاربران میتوانند با دقت بیشتری تصاویر را طراحی کرده و متون موردنظر خود را بهصورت خوانا و بدون اشکال در آنها قرار دهند.
این قابلیت میتواند انقلابی در طراحی گرافیک، تولید محتوای بصری و تبلیغات دیجیتال ایجاد کند و راه را برای توسعه ابزارهای پیشرفتهتر در آینده هموار سازد.