Што азначае новы Text-To-3D ад Nvidia для распрацоўкі і дызайну прадуктаў

ТЛ; інш: Generative AI развіваецца захапляльнай хуткасцю. Найноўшы алгарытм ад Nvidia пераўтварае тэкст у 3D-сетку ўдвая хутчэй, чым праекты, апублікаваныя ўсяго 2 месяцы таму. Гэта значыць, што тэхнічныя магчымасці цяпер ужо пераўзыходзяць нашы магчымасці з імі працаваць.

На мінулым тыдні папера навукоўцы Nvidia прадэманстравалі экспанентную хуткасць, з якой развіваецца генератыўная прастора штучнага інтэлекту. Гэты выбух актыўнасці - асабліва прыкметны за апошнія 9 месяцаў - будзе мець уплыў на кожную частку жыцця, не ў апошнюю чаргу на дызайн прадукту, праектаванне і вытворчасць. Гэтыя змены пазбавяць галіну ад структурных абмежаванняў у спосабах перадачы ідэй, паскараюць цыклы інавацый і ў канчатковым выніку дазволяць ёй выканаць свае абяцанні ўстойлівага развіцця.

Прыклады сетак з алгарытмаў Magic 3D ад Nvidia Research з падказкамі, якія выкарыстоўваюцца для іх стварэння.

Nvidia Deep Imagination Research

На працягу многіх гадоў казалі, што штучны інтэлект карэнным чынам рэвалюцыянізуе спосаб нашай працы, мала хто чакаў, што крэатыўны сектар стане адной з першых яго ахвяр. З'яўленне ў 3 годзе чалавечага тэкставага генератара GPT-2020 зрабіла больш выразным фокусам гэтыя магчымасці. З тых часоў гэта была дзікая паездка: DALL-E (ператварэнне тэксту ў відарыс), Whisper (распазнаванне маўлення) і зусім нядаўна Stable Diffusion (пераўтварэнне тэксту ў відарыс) не толькі павялічылі магчымасці маўленчых і візуальных інструментаў штучнага інтэлекту, але і скарацілі рэсурсы, неабходныя для іх выкарыстання (з 175 млрд параметраў для GPT-3 да 900 млн для стабільнай дыфузіі).

Памер Stable Diffusion азначае менш за 5 Гб дыскавай прасторы - магчымасць запуску на любым ноўтбуку. Не толькі гэта; У адрозненне ад OpenAI (які ў асноўным фінансуецца Microsoft і публікуе GPT-3, DALL-E і Whisper), Stable Diffusion з'яўляецца адкрытым зыходным кодам, што азначае, што іншыя могуць абапірацца на яго даследаванні значна лягчэй. Гэта азначае, што мы бачым толькі пачатак інавацыйнага цыклу - наперадзе яшчэ шмат чаго, як паказвае артыкул Nvidia.

Заступнікі Stable Diffusion (stability.ai) яшчэ больш падштурхоўваюць гэтую тэндэнцыю, прадастаўляючы тэхналагічныя і фінансавыя гранты іншым камандам, якія вядуць даследаванні ў новых напрамках. Акрамя таго, мноства праектаў робіць інструменты даступнымі для ўсё больш шырокага кола карыстальнікаў. Сярод іх убудовы для Blender, інструмента дызайну з адкрытым зыходным кодам, і запатэнтаваны эквівалент Adobe Photoshop. Поўны API-доступ да інструментаў фінансуецца з вялікіх долараў венчурнага капіталу, гэта значыць, што сотні мільёнаў распрацоўшчыкаў праграмнага забеспячэння, а не толькі некалькі сотняў тысяч інжынераў па апрацоўцы дадзеных, цяпер будуць ствараць свае ўласныя інструменты на гэтых алгарытмах.

Гаворка, малюнкі і тэкст з'яўляюцца аднымі з першых вертыкаляў, якія парушаюцца гэтымі тэхналогіямі. Але 3D не адстае. Акрамя нішавага генератыўнага мастацтва, мультфільмы з'яўляюцца відавочнай першай кропкай прымянення. Ужо існуе генератар Pokémon на аснове Stable Diffusion. На чарзе візуальныя эфекты і фільмы. Але многія іншыя сектары, верагодна, будуць парушаныя - сярод іх дызайн інтэр'еру з Interiorai.com, які лідзіруе.

Ва ўсім гэтым ажыятажы прымяненне інавацый у галіне дызайну і распрацоўкі выглядае як запозненая думка. Тым не менш, верагодна, гэта вобласць, якая ў канчатковым выніку пацерпіць найбольшы ўплыў. Вядома, ёсць першапачатковыя праблемы: з аднаго боку, Stable Diffusion і яго суайчыннікі яшчэ не вельмі дакладныя. Гэта не праблема для мультфільмаў, але гэта сур'ёзная праблема для любой спробы пераўтварыць тэкст у поўную 3D-геаметрыю, якая выкарыстоўваецца ў прамысловых умовах. Гэта сфера, якая толькі зараджалася (праект пад назвай Bits101 быў запушчаны ў Ізраілі ў 2015 годзе). Гэта можа быць святым Граалем індустрыі, але ёсць шмат прамежкавых праблем, якія можа быць нашмат лягчэй вырашыць. Яны ўключаюць у сябе палепшанае распазнаванне аб'ектаў (алгарытм Yolo ужо выкарыстоўваецца з вялікім эфектам), што прывядзе да паляпшэння цытавання і анатавання - павышэння якасці і зніжэння памылак. Убудовы таксама павінны палегчыць выкарыстанне Generative AI для распрацоўкі базавых канструкцый (прымітываў), якія потым можна будзе дадаткова рэдагаваць у інструментах дызайну для паляпшэння талерантнасці ў адпаведнасці з патрабаваннямі. Гэта падыход, які ўжо выкарыстоўваўся ў Altair's Inspire, дзе для таго ж выкарыстоўваўся аналіз канечных элементаў. Гэтыя прымітывы таксама могуць служыць сінтэтычнай базай дадзеных анатаваных мадэляў, якіх у індустрыі 3D САПР адчуваецца недахоп. Генеральны дырэктар і заснавальнік Physna адзначае гэта ў артыкуле дэталёва апісваючы свае ўласныя спробы выкарыстаць гэтыя новыя метады для стварэння падрабязных 3D-дызайнаў, што таксама падкрэслівае шэраг падводных камянёў у выкарыстанні сінтэтычных даных для кіравання гэтымі алгарытмамі. Стварэнне 3D-дызайнаў з 2D-малюнкаў з'яўляецца яшчэ адной патэнцыйнай сферай прымянення, як і інтэлектуальная CAM - падсілкоўванне бібліятэка зносу інструментаў для вызначэння найлепшых стратэгій апрацоўкі.

Гэтыя праблемы важныя і прыбытковыя для вырашэння самі па сабе. Тым не менш, іх галоўным уздзеяннем будзе дапамога ў развіцці шляху ад ідэі да дызайну шляхам канчатковага зніжэння залежнасці ад 3D-дызайну для перадачы намераў. Дызайн, 2D або 3D, служыў асноўным сродкам пераўтварэння патрэб кліентаў у канчатковы прадукт. Гэта стрымлівае індустрыю, таму што гэтыя канструкцыі служаць чорнай скрыняй, у якой захоўваюцца ўсе тыя каштоўныя звесткі пра кліентаў, вытворчыя абмежаванні і мэты кампаніі, якія немагчыма разблытаць, але ідэнтыфікаваць. Гэта азначае, што калі нешта мяняецца, проста адкарэктаваць дызайн практычна немагчыма. Гэта прычына таго, што вытворчыя інавацыі, такія як 3D-друк, прымаюцца так доўга, што пастаянна расчароўвае кароткатэрміновых інвестараў. Кампаненты, з якіх складаецца самалёт, "настроены" з моманту іх распрацоўкі, нягледзячы на больш чым 20-гадовы тэрмін службы. Аб'ёму інавацый амаль няма - яны павінны чакаць запуску наступнага пакалення.

Магчымасць змяніць адно абмежаванне і дазволіць такім алгарытмам, як Stable Diffusion, аднавіць канструктыўныя і вытворчыя параметры, значна паскорыць прыняцце новых інавацый і дазволіць нам хутчэй ствараць больш лёгкія прадукты з лепшымі характарыстыкамі. Як і ў Формуле-1 або ў сістэмным дызайне, будучыя інжынеры будуць дзейнічаць як кіраўнікі абмежаваннямі, здольныя выказаць словамі і са спасылкай на крыніцы даных, якія мэты і абмежаванні прадукту.

Без паскарэння працэсу распрацоўкі новых і існуючых прадуктаў такім чынам у нас амаль няма сродкаў для дасягнення амбіцыйных мэтаў устойлівага развіцця, якія мы павінны паставіць перад сабой. Каб зрабіць гэта, мы павінны спачатку ўзгадніць мову, якую мы можам выкарыстоўваць для зносін па-за межамі задуманага. Гэтая новая семантычная мадэль - відавочны прабел у інавацыях, акрэсленых вышэй. Шэраг кампаній ужо пачалі эксперыментаваць з гэтым, напрыклад nТапалогія з яе канцэпцыямі палёў. І ўсё ж, тэмпы змяненняў павольныя, у адрозненне ад алгарытмаў, якія будзе падсілкоўваць семантычная мадэль. Паведамляецца, што новы алгарытм Nvidia больш чым удвая хутчэйшы, чым DreamFusion, апублікаваны менш за 2 месяцы таму. Прадуктавыя і інжынірынгавыя кампаніі павінны зараз працаваць над рэалізацыяй сваіх ідэй новымі спосабамі, арыентаванымі на будучыню, каб максімальна выкарыстоўваць магчымасці, якія дае гэты выбух генератыўнага штучнага інтэлекту. Хуткасць змены алгарытмаў яшчэ раз паказала, што закон Морзэ прымяняецца ўсюды, дзе інструменты алічбоўваюцца. Праблемай застаецца наша чалавечая няздольнасць прыняць гэтыя змены і разгарнуць новыя метады камунікацыі, здольныя раскрыць іх патэнцыял, нягледзячы на тэрміновасць задачы.

Крыніца: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/