اخبار سایت


13

قالب


987

مشتری راضی


650

دنبال کننده


9

سال تجربه


اطلاعات بگیرید

آخرین اخبار ما

آبان ۲۵, ۱۳۹۶

کاربرد های خلاصه سازی متن

به ايجاد يک نمايش مختصرتر از يک دسته اطلاعات توسط يک برنامه کامپيوتری، خلاصه سازی خودکارگفته ميشود. کاربرد های خلاصه سازی خودکار عبارتند از:  نمايش خلاصهای […]
اردیبهشت ۲۳, ۱۳۹۳

سازنده محتوا برای پست

Vitae adipiscing turpis. Aenean ligula nibh, molestie id viverra a, dapibus at dolor. In iaculis viverra neque, ac ele molestie id viverra aifend ante lobortis id. In viverra ipsum stie id viverra a.
اردیبهشت ۲۳, ۱۳۹۳

پست به همراه عکس عمودی

Lorem ipsum dolor sit amet, consectetur adipiscing elit. Vivamus magna. Cras in mi at felis aliquet cong ue. Ut a est eget ligula molestie gravida. Curabitur massa. Donec eleifend.
اردیبهشت ۲۳, ۱۳۹۳
شناسایی الگو
اردیبهشت ۲۳, ۱۳۹۳

پست به همراه اسلایدر

Integer gravida eros ut ante. Proin vulputate in, odio. Donec eleifend velit. Suspendisse eget metus. Proin non mattis vel, ornare quam. Aliquam vitae mauris. Nam eu nunc ut urna. Pellentesque fringilla gravida.
اردیبهشت ۲۳, ۱۳۹۳

پست به همراه ویدئو html5

Vitae adipiscing turpis. Aenean ligula nibh, molestie id viverra a, dapibus at dolor. In iaculis viverra neque, ac ele molestie id viverra aifend ante lobortis id. In viverra ipsum stie id viverra a.
در ارتباط باشید

خبرنگاران ما

خانم مهندس لعیا کشفی

عضو تیم فرادانش


کارشناس ارشد نرم افزار ،استاد راهنما پروفسور اکبرزاده و مدیر سایت خرید آنلاین مشهد ومن

آقای مهندس حاتمی

عضو تیم فرادانش


کارشناس ارشد هوش مصنوعی و موضوع پایاننامه سیستم های توصیه گر و متخصص برنامه نویسی سی شارپ و پایتون

ابزارهای پردازش زبان طبیعی

براي انجام بسياري از عمليات خودکار بر روي زبان‌ها مانند ترجمه، خلاصه‌سازي، تصحيح املا و غيره، نيازمند يکسري ابزارهايي جهت پيش‌پردازش و آماده‌سازي متون هستيم. تهيه اين ابزارها به دو صورت انجام مي‌شود. دسته اول روش‌هاي وابسته به زبان هستند که براساس برخي قوانين نحوي و ساختاري زبان انجام مي‌شوند. روش‌هاي ديگر مستقل از زبان هستند و بيشتر براساس پيکره‌هاي زباني و با استفاده روش‌هاي يادگيري ماشين صورت مي‌گيرد. البته در برخي موارد ترکيبي از هر دو روش مورد استفاده قرار مي‌گيرد. از اينرو طراحي و پياده سازي اين ابزارها براي زبان‌هاي مختلف به طرق مختلف و مخصوص زبان مربوطه صورت مي‌گيرد.
مهمترین ابزارهای پردازش زبان طبیعی در متون عبارتند از:

تشخيص دهنده ي جمله (sentence splitter): اين ابزار بايد با توجه به کاراکترهاي جداکننده ي جمله در زبان فارسي، توانايي تشخيص جملات را در متن ورودي داشته باشد. براي ايجاد اين ابزار بايد ابتدا تمامي کاراکترها، نماد ها و احياناً قواعد دستوري که باعث شکسته شدن جملات مي شوند، شناسايي گردند. با توجه به پايه بودن جمله در بسياري از پردازش هاي زباني، خروجي دقيق اين ابزار از درجه ي اهميت بالايي برخوردار است. از نمونه هاي انگليسي آن مي توان به OpenNLP، Stanford NLP، NLTK و Freeling اشاره کرد.

Tokenizer: ابزاري براي شکستن يک متن بر اساس واحدهاي با معني مانند کلمه، پاراگراف، نمادهاي معنادار مانند space و tab و … . لازمه ي ايجاد اين ابزار جمع آوري واحد هايي است که در زبان فارسي به عنوان واحد هاي مستقل معنايي شناخته مي شوند. سپس بر اساس انتخاب هر کدام از اين واحدها متن بر اساس آن شکسته خواهد شد. از نمونه هاي انگليسي آن مي توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

Stemmer: ابزاري براي ريشه يابي لغات و تشخيص نوع کلمه ساخته شده از آن ريشه (اسم مکان، اسم زمان، حالت فاعلي، مفعولي و …). معمولاً ريشه يابي لغات بر اساس قواعد ساخت واژه اي و سپس حذف پسوندها مي باشد. تاکنون روش مؤثري براي حذف پيشوندها ارائه نشده است. در تلاشي که در آزمايشگاه فناوري وب انجام شده است، سعي شده تا بر اساس آناليزهاي آماري و داده کاوي پسوندها حذف گردند، که اين روش هم مي تواند راهي براي تشخيص ريشه باشد. معروفترين الگوريتم ريشه يابي در انگليسي porter مي باشد.

POS tagger: ابزاري براي مشخص کردن نوع کلمات از قبيل اسم، صفت، قيد، فعل و … . يکي از روش هاي کاري براي ايجاد اين ابزار، ايجاد يک rule base که معمولاً به صورت دستي تشکليل مي شود، براي تشخيص نوع کلمه است. از نونه هاي فارسي آن مي توان به ابزار آزمايشگاه آقاي دکتر بيجن خان، و ابزار آزمايشگاه فناوري وب دانشگاه فردوسي مشهد اشاره کرد. از نمونه هاي انگليسي آن مي توان به Illinois Part Of Speech Tagger و Stanford POS Tagger اشاره کرد.

Named Entity Recognition: ابزاري براي تشخيص اسامي و نوع آنها اعم از اسامي افراد، اماکن، مقادير عددي و … . براي تشخيص اينکه يک کلمه اسم است، راه هاي مختلفي وجود دارد که از جمله ي آنها مراجعه به لغتنامه، مراجعه به word-net، در نظر گرفتن ريشه ي کلمه، استفاده از قواعد نحوي ساخت واژه و … مي باشد. در اين ابزار پس از تشخيص اسم ها با استفاده يک لغتنامه از اسامي افراد، مکان ها، مقادير عددي و … نوع اسم تشخيص داده مي شود. به نظر مي رسد که اين لغتنامه در فارسي موجود نمي باشد.
از جمله نمونه هاي انگليسي اين ابزار مي توان به Stanford NER و Illinois NER اشاره کرد.

Word-net: مجموعه اي از لغات و ارتباط ميان آنها به لحاظ معنايي. ارتباطات معنايي در داخل اين مجموعه شامل ۱۶ رابطه مي باشد. اين مجموعه به عنوان يک مرجع در بسياري از پردازش هاي زباني مورد استفاده قرار مي گيرد. ار نمونه هاي انگليسي آن مي توان به Princeton Wordnet و EuroWordnet اشاره کرد. آزمايشگاه فناوري وب دانشگاه فردوسي مشهد نيز يک نمونه از اين مجموعه با نام فردوس نت را توليد کرده است.

Similarity recognition: ابزاري براي تشخيص ميزان شباهت ميان دو عبارت بر اساس پارامترهاي مختلف مانند نوع اسامي مشابه به کار رفته، استفاده از word-net و… . در اين ابزار پس از تشخيص نوع کلمات به کار رفته در يک جمله و سپس بر اساس جايگاه آن کلمات در جمله، کلماتي که در جايگاه هاي يکسان قرار دارند، مورد مقايسه قرار مي گيرند. از نمونه هاي انگليسي آن مي توان به Illinois NESim و Illinois WNSim اشاره نمود.

Parser: به موازات پیشرفت و تحولات نظری در زبان‌شناسی جدید، روش‌های تحلیل متون و دستورات زبان بوسیله‌ی رایانه نیز تحول یافته است. منظور از گرامر هر زبان، در دست داشتن یک سری دستورات زبانی قابل فهم برای رایانه است که به کمک آنها بتوان اجزای نحوی یک جمله را به طور صحیح تفکیک نمود. تجزیه و تحلیل جمله و شکستن آن به اجزای تشکیل دهنده‌ مانند گروه‌های اسمی، فعلی، قیدی و غیره توسط ابزاری به نام پارسر صورت می‌گیرد که نقش اساسی در طراحی و یا افزایش دقت سایر ابزارهای پردازش متن دارد.

Chunker: ابزاري براي تشخيص گروه هاي اسمي، فعلي و …. در يک جمله. جهت تقويت الگوريتم هاي وابسته به SRL لازم است نه تنها نقش هاي کلمات مشخص گردند، بلکه بايد وابستگي هاي کلمات به لحاظ نقشي در جمله مشخص گردند. از جمله نمونه هاي انگليسي آن مي توان به Illinois Chunker اشاره کرد.

Semantic Role Labeler: ابزاري براي تشخيص نقش گرامري کلمه در جمله. اين ابزار يکي از مهمترين نقش ها را در پردازش هاي زباني بر عهده دارد. دقت در اين ابزار بسيار حائز اهميت است. اين ابزار بايد نقش هاي گرامري کلمات در جمله ها مانند فعل، فاعل، مفعول مستقيم، مفعول غير مستقيم و …. را تشخيص دهد. از جمله نمونه هاي انگليسي آن مي توان به OpenNlP، Illinois SRL، Swirl و LTHSRL اشاره کرد. اين ابزارها از الگوريتم پارسينگ charniak استفاده مي کنند.

Annotator: ابزاري براي ايجاد يک نمونه از يک آنتولوژي در يک سند داده شده. از ابزارهاي موجود در انگليسي مي توان به Illinois Curator و Stanford Annotator اشاره کرد.

Coreference resolution: ابزاري براي تعيين مرجع اسمي يک اسم يا يک ضمير در جملات. اين ابزار در زبان انگليسي معادل ابزاري است که مرجع ضمير را که به صورت اسم در جمله هاي قبلي آمده است، مشخص مي کند. استفاده از ضماير به جاي اسامي در زبان انگليسي بسير رايج مي باشد. اما در زبان فارسي اين امر چندان رايج نيست. اما در زبان فارسي عنوان يک مفهوم اسمي با اصطلاحات مختلف بسيار رايج مي باشد. عملاً ما به دنبال ابزاري هستيم که مرجع خاص يک سري از عنوان ها ي مختلف اسمي را مشخص کند. از نمونه هاي انگليسي اين ابزار مي توان به Illinois Coreference package اشاره کرد.

آموزش طراحی سایت به کودکان 9تا12سال رد کردن