طراحی تم ها و روسی سازی انجمن SMF و همچنین نصب کامپوننت JFusion در جوملا. درس سه. ما خودمان بهترین پایگاه های داده را جمع آوری می کنیم
بیایید بلافاصله با کد اسکریپت اصلی شروع کنیم:
#!/usr/bin/perl
اسکریپت # which-forum.pl
# (c) 2010 Alexandr A Alexeev, http://site/
سخت استفاده کنید
# خط نظر - برای دقت
# اگر وظیفه جمع آوری آمار موتور است، آن را همانطور که هست رها کنید
# اگر فهرستی از انجمنها تهیه میکنید - نظر خود را لغو کنید
$داده من ;
$data .= $_while (<>
)
;
# بررسی کنید که چه مقدار توسط phpBB بدون پیوند در پاورقی ارائه شده است این و سایر اسکریپت های ذکر شده در پست را در این آرشیو خواهید یافت. اسکریپت which-forum.plکد صفحه HTML را بررسی می کند تا ببیند آیا دارای امضاهای موتور انجمن است یا خیر. ما هنگام تعریف وردپرس و جوملا از تکنیک مشابهی استفاده کردیم، اما چند تفاوت وجود دارد. اولاً، خود اسکریپت کد صفحه را بارگذاری نمی کند، بلکه آن را از stdin یا فایلی که به عنوان آرگومان ارسال می شود، می خواند. این به شما این امکان را می دهد که یک بار مثلاً با استفاده از wget صفحه را دانلود کنید و اگر بیش از یک آنالایزر داریم آن را از طریق چندین تحلیلگر اجرا کنید. ثانیاً در این اسکریپت وجود امضا 100% نشانه موتور است. دفعه قبل، وجود یک امضا فقط به موتور مربوطه وزن اضافه کرد و موتور با بیشترین وزن "برنده" شد. من تصمیم گرفتم که در این مورد، چنین رویکردی فقط کد را به طور غیر ضروری پیچیده می کند. برای تست فیلمنامه، کمی تحقیق کردم. من فهرستی از چندین هزار فروم را گردآوری کردم و هر یک از آنها را از طریق اسکریپت خود اجرا کردم و بدین ترتیب درصد پاسخ های برنامه و محبوبیت موتورهای مختلف را تعیین کردم. برای دریافت لیست انجمن ها، از تجزیه کننده گوگل خود استفاده کردم. سوالاتی مانند این به موتور جستجو ارسال شد سایت:forum.*.ru و غیره کد کامل ایجاد کننده پرس و جو را در فایل خواهید یافت gen-forumsearch-urls.pl. علاوه بر zone.ru، .su .ua .kz و .by نیز استفاده شد. دفعه قبل، انجام چنین مطالعه ای دشوار بود، زیرا سایت های وردپرس و جوملا چنین امضایی در URL ندارند. کاتالوگ هایی مانند cmsmagazine.ru/catalogue/ حجم نمونه کافی را ارائه نمی دهند. 600 سایت دروپال چیست؟ باید اعتراف کنم، نتایج آزمایش من را ناامید کرد. از 12590 سایت مورد مطالعه، موتور تنها در 7083 با موفقیت شناسایی شد، یعنی فقط در 56٪ موارد. شاید من مقداری موتور را در نظر نگرفتم؟ آیا واقعاً درست بود که نیمی از انجمن ها Bitrix را نصب کرده بودند؟ یا باید زمان بیشتری را صرف جستجوی امضا می کردم؟ به طور کلی، در اینجا به تحقیقات بیشتری نیاز است. در بین 56 درصد موتورهایی که با موفقیت شناسایی شدند، همانطور که انتظار می رفت، محبوب ترین ها IPB (31٪)، phpBB (26.6٪) و vBulletin (26.5٪) بودند. SMF (5.8٪) و DLEForum (5.3٪) با تاخیر زیادی دنبال می شوند. punBB مورد علاقه من فقط در مکان ششم (1.64٪) بود. توصیه نمیکنم زیاد به این اعداد اعتماد کنید (آنها میگویند که هر سومین انجمن در RuNet روی IPB اجرا میشود)، اما البته میتوان نتیجهگیریهای خاصی کرد. به عنوان مثال، اگر قصد دارید یک سایت در موتور فروم ایجاد کنید و قصد دارید تالار را تغییر دهید، مثلاً برای هر پیام 0.01 دلار با برداشت خودکار وجه در هفته یک بار به کاربران بپردازید، باید یکی از سه موتور محبوب را انتخاب کنید. هرچه انجمن محبوب تر باشد، شانس پیدا کردن برنامه نویسی که به خوبی در آن مسلط باشد بیشتر می شود. اگر هیچ تغییر قابل توجهی در موتور انتظار نمی رود، ممکن است انتخاب یک موتور کمتر محبوب، به عنوان مثال SMF یا punBB منطقی باشد. این باعث می شود تعداد حملات هکرها به انجمن شما و مقدار هرزنامه هایی که به طور خودکار بر روی آن ارسال می شود کاهش یابد. اسکریپت های جستجو/شناسایی انجمن ها نیز می توانند کاربردهای عملی زیادی پیدا کنند. اولین چیزی که به ذهن من رسید این بود که انجمن های شناسایی شده را بر اساس TIC مرتب کنم و در صد پست اول با پیوند به یکی از سایت های خود پست کنم. با این حال، صدها لینک dofollow انجمن به هیچ وجه بر TCI تأثیری نداشته است (2 به روز رسانی گذشته است)، بنابراین بهتر است زمان را در اینجا تلف نکنید، مگر اینکه علاقه ای به انتقال نداشته باشید. واضح است که استفاده ذکر شده از اسکریپت ها به دور از آن است. من فکر می کنم شما به راحتی می توانید بفهمید که چگونه می توانید از آنها استفاده کنید. سازماندهی شده توسط Botmaster Labs، برنامه ریزی نشده است. من وقت ندارم، ویدیو برای مسابقه لازم است، به عنوان یک روند جدید، اگرچه همه چیز را می توان راحت تر با اسکرین شات های خوب توضیح داد (IMHO من)، و من واقعاً نمی خواهم چیزی فیلمبرداری کنم. موضوعات سودآور بسیار کمی باقی مانده است، هرزنامه های احمقانه دیگر به هیچ وجه حکمرانی نمی کند، باید اینجا فکر کنید و هیچ کس موضوعاتی را شلیک نمی کند، مگر اینکه سعی کنید موضوعات قدیمی را در یک لفاف زیبا قرار دهید و کمی آنها را پودر کنید. :) اما این مربوط به ما نیست. به طور کلی، من فکر می کنم این 3 "نباید" اساساً برای اکثر شرکت کنندگان بالقوه مانعی برای شرکت در مسابقه شد. این مانند تعمیر یک ماشین از سه مورد است: ارزان، با کیفیت بالا، سریع - سرویس تنها می تواند 2 شرط را به طور همزمان انجام دهد. بنشین و آنچه را که به تو نزدیکتر است انتخاب کن :) در مورد رقابت هم همینطور: من وقت دارم، بلدم ویدیو بسازم، اما موضوعی وجود ندارد، یا بلد هستم ویدیو بسازم، موضوعی وجود دارد، اما زمان آن را ندارم همه، یا وقت آزاد دارم و یک موضوع کوچک وجود دارد، اما ویدیو ترسناک است. اما اگر 2 شرط همزمان رعایت شود خوب است. خوب، بیایید متن ترانه را کنار بگذاریم. به خودم ادامه میدم من برنامه ریزی نکردم، یعنی در مسابقه شرکت کردم، حتی انتخاب کردم که به کدام مقاله رای بدهم. هر چه شما بگویید، Doz نرم افزار را به خوبی می شناسد و می داند چگونه از آن بسیار هوشمندانه استفاده کند. اما امروز فهمیدم که دسیسه در مسابقه ظاهر شده است. معلوم می شود که من نمی توانم رای بدهم و فقط تازه واردانی که نرم افزار را در سال 2011 خریداری کرده اند می توانند این کار را انجام دهند و رقابت برای آنها طراحی شده است. من کمی تعجب کردم، اما صاحب آن یک آقا است. این رقابت یک کمپین تبلیغاتی است و الکساندر بهتر می داند که چگونه آن را اجرا کند. به طور کلی، پس از آن تصمیم گرفتم مقاله ای ارسال کنم؛ زمانی که مشخص است که برای چه کسی، برای کل مزرعه جمعی، در واقع انجام این کار غیرممکن است، نوشتن تا حدودی آسان تر است. پشتیبانی شده توسط php-fusion در نسخه Khroomer 7.07، این برنامه بر روی چندین موتور جدید آموزش داده شده است: forumi.biz، forumb.biz، 1forum.biz، 7forum.biz، و غیره. phpBB-fr.com، موضوع سولاریس phpBB و روند یادگیری چیزهای جدید مستمر است. "طراحی شده توسط SMF 1.1.2" "طراحی شده توسط SMF 1.1.3" "طراحی شده توسط SMF 1.1 RC2" "طراحی شده توسط SMF 1.1.4" "طراحی شده توسط SMF 1.1.8" "طراحی شده توسط SMF 1.1.7" "2006-2008، Simple Machines LLC" و این تمام نیست. هنگام جمعآوری نسخههای موتور، در برخی از انجمنهای SMF، عنوان «2001-2006, Lewis Media» را در پاورقی پیدا میکنیم. ما در حال بررسی این درخواست هستیم، همچنین ما را به طور کامل برآورده می کند. ما یک درخواست مشابه پیدا می کنیم: "2001-2005، لوئیس مدیا". با نگاهی بیشتر به پاورقی ها، درخواست زیر را پیدا می کنیم: "طراحی SMFone توسط A.M.A، پورت شده به SMF 1.1". ما بررسی می کنیم - عالی است. و غیره. نیم ساعت کار و شما یک پایگاه داده فوق العاده از پرس و جوها برای موتور دارید، و گوگل شما را برای این پرس و جوها خیلی کمتر از زمانی که از اپراتورها در آنها استفاده کنید ممنوع می کند. و در عین حال، پایگاه داده شما بسیار تمیزتر از استفاده از پرس و جوهایی مانند "index.php?topic=" خواهد بود، زیرا در اینجا Google نه تنها انجمن های مورد نیاز ما، بلکه بسیاری از منابع چپ را نیز در جایی که ممکن است ارائه می دهد. یک لینک به موضوع انجمن بگذارید ممکن است مخالفت کنید، چه اشکالی دارد؟ دیگران لینک گذاشتند، پس ما هم می توانیم. ولی! پیوندها نه تنها توسط Khrumer، بلکه توسط برنامه های دیگر نیز قابل ترک است. علاوه بر این، آنها را می توان به طور ویژه برای گذاشتن نظرات در یک منبع خاص، به اصطلاح نرم افزار بسیار تخصصی، طراحی کرد، به علاوه چنین پیوندهایی را می توان با دست گذاشت. باز هم تکرار می کنم، برای ما کمیت زباله مهم نیست، بلکه کیفیت آن مهم است؛ ما با درخواست های درست بانک اطلاعاتی را جمع آوری خواهیم کرد. مزیت این روش این است که عملا نیازی به پیکربندی نخواهید داشت غربال - فیلتر
伟哥 - ویاگرا 吉他 - گیتار 其他 - استراحت 保险公司 - بیمه این کدهای جایگزین را در فایل Words قرار دهید: %E4%BC%9F%E5%93%A5 %E5%90%89%E4%BB%96 %E5%85%B6%E4%BB%96 %E4%BF%9D%E9%99%A9%E5%85%AC%E5%8F%B8 اگر یک وبسایت بیمه را تبلیغ میکنید، با قرار دادن پیوندی در نمایه خود در یک انجمن موضوعی (!) حتی چینی که بر اساس درخواست پیدا شده است. انجمن SMF" 保险公司بسیار خوب خواهد بود
چاپ "phpbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?phpbb\.com\/?"[^>]*>phpBB/iیا
# $data =~ /viewforum\.php\?[^""]*f=\d+/i یا
$data =~ /phpBB\-SEO/i یا
$data =~ /)
;
چاپ "ipb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?invision(?:board|power)\.com\/?[^"]*"[^>]*> [^<]*IP\.Board/i
یا
$data =~ /]+href="[^"]*http:\/\/(?:www\.)?invisionboard\.com\/?"[^>]*>Invision Power Board/iیا
$data =~ /
$data =~ /index\.php\?[^""]*showforum=\d+/i)
;
چاپ "vbulletin \n"
اگر ($data =~ /طراحی شده توسط:؟[^<]+vBulletin[^<]+(?:Version)?/i
یا
$data =~ /)
;
چاپ "smf \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?simplemachines\.org\/?"[^>]*>طراحی شده توسط SMF/iیا
$data =~ /index\.php\?[^""]*board=\d+\.0/i)
;
چاپ "punbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:(?:www\.)?punbb\.org|punbb\.informer\.com)\/"[^>]*> PunBB/i) ؛ #یا
# $data =~ /viewforum\.php\?[^""]*id=\d+/i);
چاپ "fluxbb \n"
# if($data =~ /viewtopic\.php\?id=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)fluxbb\.org\/?"[^>]*>FluxBB/i)
;
چاپ "exbb \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?exbb\.org\/?"[^>]*>ExBB/i) ؛ # یا
# $data =~ /forums\.php\?[^""]*forum=\d+/i);
چاپ "یاب \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?yabbforum\.com\/?"[^>]*>YaBB/iیا
$data =~ /YaBB\.pl\?[^""]*num=\d+/i ) ;
چاپ "dleforum \n"
اگر ($data =~ /\(طراحی شده توسط انجمن DLE\)<\/title>/منیا
$data =~ /]+href="[^"]+(?:http:\/\/(?:www\.)?dle\-files\.ru|act=copyright)[^"]*"> انجمن DLE<\/a>/من)
;
چاپ "ikonboard \n"
اگر ($data =~ /]+href="[^"]*http:\/\/(?:www\.)?ikonboard\.com\/?[^"]*"[^>]*>Ikonboard/iیا
$data =~ /\n"
اگر ($data =~ /\n"
# if($data =~ /forums\.php\?fid=\d+/i یا
# $data =~ /topic\.php\?fid=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?flashbb\.net\/?"[^>]*>FlashBB/i)
;
چاپ "stokesit \n"
# if($data =~ /forum\.php\?f=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?stokesit\.com\.au\/?"[^>]*>[^\/]*Stokes IT/i)
;
چاپ "تریبون \n"
# if($data =~ /topic\.php\?t=\d+/i یا
اگر ($data =~ /]+href=[""]?http:\/\/(?:www\.)?sopebox\.com\/?[""]?[^>]*>Podium/i)
;
چاپ "usebb \n"
# if($data =~ /forum\.php\?id=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?usebb\.net\/?"[^>]*>UseBB/i)
;
چاپ "wrforum \n"
# if($data =~ /index\.php\?fid=\d+/i یا
اگر ($data =~ /]+href="http:\/\/(?:www\.)?wr\-script\.ru\/?"[^>]*>WR\-Forum/i)
;
چاپ "yetanotherforumnet \n"
اگر ($data =~ /Yet Another Forum\.net/i یا
$data =~ /default\.aspx\?g=posts&t=\d+/i)
;
سایت:talk.*.ru
سایت:board.*.ru
سایت: smf.*.ru
سایت: phpbb.*.ru
....
مقدمه طولانی به پایان رسید، اکنون به اصل مطلب می پردازیم.
هنگامی که یک مبتدی چنین ترکیب فوق العاده ای را که مجتمع Xrumer + Hrefer است خریداری کرده است، به چه چیزی نیاز دارد؟ درست است، یاد بگیرید که چگونه روی آن کار کنید و این توهم را کنار بگذارید که می توانید با شروع به ارسال هرزنامه ها درآمد کسب کنید. اگر اینطور فکر می کنید، بهتر است فورا پول خود را به امور خیریه اهدا کنید. شما باید یاد بگیرید که چگونه از ابزارهای مجموعه استفاده کنید، ترجیحاً آن را برای خود تیز کنید. زمان "بیشتر بگیر - بیشتر پرتاب کن" گذشته است. کمیت جای خود را به کیفیت می دهد. این بدان معناست که ما یک پایگاه برای خودمان جمع می کنیم؛ اگر یاد نگیرید چگونه این کار را انجام دهید، پشت قطار خواهید افتاد. طبیعتا خفر در این امر به ما کمک خواهد کرد. اگر قصد دارید منابع خود را در Google تبلیغ کنید، باید از طریق Google نیز سایت های اهداکننده را جستجو کنیم. به نظر من این قابل درک و منطقی است. اما گوگل مانند معشوقه کوه مس، ثروت خود را به همه نمی بخشد. شما به یک رویکرد برای آن نیاز دارید. من می خواهم بلافاصله بگویم که امیدوار نباشید بر اساس علائمی که در عموم پیدا می کنید بتوانید چیزی را جمع آوری کنید. دلیل در دسترس بودن آنها در عموم بی ارزش بودن آنهاست. من موضوع را بیشتر توسعه نمی دهم. بهتر است به شما بگویم که چگونه آن را به درستی مونتاژ کنید تا بتوانید نتیجه را ببینید ، بقیه را خودتان بتوانید کار کنید ، نکته اصلی درک اصل است. ما باید بر اساس ویژگی های موتورهای خاص مورد نیاز خود، و نه بر اساس ویژگی های انجمن ها، موارد مناسب را جمع آوری کنیم. این اشتباه اصلی مبتدیان است - تمرکز نکردن روی یک چیز خاص، بلکه تلاش برای پوشش همه چیز به طور کامل. و همچنین، اگر می خواهید یک پایگاه داده کم و بیش عادی را تجزیه کنید، استفاده از عملگرها را در کوئری ها متوقف کنید. بدون "inurl:"، "site:"، "عنوان"، و غیره. گوگل فورا جستجوگرانی مانند شما را ممنوع خواهد کرد. بنابراین، ما موتورهایی را که Khrumer در حال حاضر با آنها کار می کند به دقت مطالعه می کنیم:
به طور کلی باید کوئری های صحیح را برای تجزیه توسط Hrefer آماده کنیم. بیایید انجمن dizhok را به عنوان مثال در نظر بگیریم. انجمن های SMF. و بیایید شروع به جدا کردن آن به قطعات یدکی برای تجزیه کنیم. گوگل محبوب ما در این امر به ما کمک خواهد کرد. یک پرس و جو را در گوگل وارد کنید انجمن های SMF- در نتایج جستجو زباله های زیادی وجود دارد، ما به صفحه سیزدهم عقب می رویم و هر پیوندی را انتخاب می کنیم. من با این یکی برخورد کردم: http://www.volcanohost.com/forum/index.php?topic=11.0. بیایید آن را باز کنیم و مطالعه کنیم. ما باید ویژگی خاصی را در صفحه پیدا کنیم که بتوان آن را برای جستجوی صفحات دیگر در این موتور اعمال کرد. در پاورقی متوجه کتیبه زیر می شویم پشتیبانی شده توسط SMF 1.1.14، آن را نقل کرده و وارد گوگل کنید، به ما نشان می دهد که برای این پرس و جو حدود 59 میلیون گزینه می داند. ما به سرعت از طریق پیوندها نگاه می کنیم، چند گزینه دیگر را به این کلمه کلیدی اضافه می کنیم، به عنوان مثال، صنوبر "طراحی شده توسط SMF 1.1.14".یا "پاورده شده توسط SMF 1.1.14" ویاگرا. ما مطمئن می شویم که درخواست عالی است، نتایج فقط انجمن هستند و تقریباً هیچ زباله ای وجود ندارد.
علاوه بر این، همانطور که در بالا گفتم ما به کمیت علاقه نداریم، بلکه به کیفیت علاقه داریم. برو جلو. از همان انجمن عبارت دیگری را از فوتر می گیریم: ، ما نیز آن را نقل می کنیم و به گوگل می دهیم. در پاسخ، او فاش می کند که بیش از 13 میلیون نتیجه را می داند. دوباره، ما به سرعت نتایج را بررسی می کنیم، کلمات اضافی را اضافه می کنیم و نتایج را با آنها بررسی می کنیم. ما مطمئن می شویم که درخواست عالی است و همچنین تقریباً هیچ زباله ای وجود ندارد. به طور کلی، در حال حاضر 2 درخواست آهن وجود دارد. پیشنهاد میکنم فعلاً اولین انجمن را به حال خود رها کنید و به جمعآوری درخواستها از سایر انجمنها ادامه دهید. خوشبختانه، ما گوگل را در صورت درخواست باز داریم. 2006-2008، Simple Machines LLC. ما از نتایج جستجو، به عنوان مثال، این انجمن ها را می گیریم: http://www.snowlinks.ru/forum/index.php?topic=1062.0 و http://litputnik.ru/forum/index.php?action=printpage ;topic=380.0 در فوترها، عبارتهای زیر را از آنها میگیریم: "Powered by SMF 1.1.7" و "Powered by SMF 1.1.10". همه). من فکر می کنم واضح است که ما چه کار می کنیم، در پایان ما یک پایگاه داده مشخص از پرس و جوها برای جستجوی انجمن ها در موتور SMF خواهیم داشت (به عنوان نمونه انتخاب شد، همان موتورهای دیگر).
چیزی شبیه به این خواهد بود:
من فکر میکنم که یادگیری نحوه استفاده صحیح از Hrumer در مرحله اولیه بسیار مهم است، زیرا وقتی این را یاد گرفتید، بدون توجه به اینکه شرایط چگونه تغییر میکند، همیشه میتوانید از Hrumer استفاده کنید. حفاظتها پیچیدهتر میشوند و اگر در برخی از انواع موتورها حفاظت تقویت شده است و Khrumer نمیتواند در حال حاضر با آن کنار بیاید، پس هزینه کردن منابع برای جمعآوری این پیوندها و سپس کار روی آنها با Khroomer، فایدهای ندارد. بهتر است نیروها را روی آنچه نتیجه می دهد متمرکز کنید. و در عین حال، اگر تیم Botmaster Labs چیز جدیدی را به Khroomer آموزش داد، می توانید به سرعت یک بیمار جدید را تشریح کنید و در حالی که بیمار هنوز گرم است، پایه را برای Khroomer آماده کنید. زمان پول است؛ وقتی پایه را میخرید، ممکن است منبع دیگر مرتبط نباشد. توسط کسی جمع آوری شده است علاوه بر این، مجموعه صحیح پایه ها برای خود به طور قابل توجهی استفاده "سفید" از Khrumer را گسترش می دهد. و این دقیقاً همان جایی است که همه چیز در حال حرکت است، چه بخواهیم و چه نخواهیم، و روند سفید شدن یا خاکستری شدن ادامه دارد. ملحفه های سیاه از هر نظر به گذشته تبدیل می شوند.
تمام جنبه های فنی دیگر کار با Hrefer را می توان در راهنما مشاهده کرد و هیچ دلیلی برای پرداختن به آنها وجود ندارد؛ همه اهداف، امتیازها، ثانیه ها به صورت آزمایشی برای هر خودرو به صورت جداگانه تنظیم می شوند.
به عنوان یک امتیاز، من در اینجا یک الگو برای تجزیه موتور جستجوی چینی Baidu پست میکنم، روز پیش از من در مورد آن سؤال کردند، بنابراین من این کار را به طور معمول انجام دادم. :)
نام میزبان=http://www.baidu.com
Query=s?wd=
LinksMask=
مجموع صفحات=100
صفحه بعدی=
NextPage2=
CaptchaURL=
CaptchaImage=
CaptchaField=
من سعی کردم آن ها را تجزیه کنم، ممنوعیتی وجود نداشت، خریفر منابع را به سرعت جمع آوری کرد، تمام کوئری های تجزیه مشابه گوگل بود، اما منابع چینی زیادی وجود داشت، با روابط عمومی بالا و علاوه بر این، بسیاری از جاها بودند که هیچ اروپایی تا به حال پا گذاشته بود. بهتر است پرس و جوهای چینی را تجزیه کنید. ترجمه گوگل در این مورد کمک می کند، لیستی از کلمات کلیدی را به زبان روسی تایپ کرده و آن را به چینی ترجمه کنید. حقیقت در " کلمات«کلمات Hrefer را نمی توان به زبان چینی اضافه کرد، آنها باید دوباره رمزگذاری شوند.
به جای چینی:
در خاتمه میخواهم بگویم که هیچوقت افرادی را که از بد یا بد پختن خرفها شکایت میکردند، درک نکردم؛ در پاسخ به این موضوع، همیشه میخواستم بگویم، شما فقط بلد نیستید آنها را بپزید. هیچ تجزیهکنندهای نمیتواند نتایج را بهتر از ارجاع جمعآوری کند؛ درخواستها فقط باید درست باشند. Hrefer یک ماشین است: خوب، جامد، ساخت آلمانی، اما توسط یک شخص رانندگی می شود و همه چیز به نحوه رانندگی آن بستگی دارد؛ شما نمی توانید ماشین را مجبور کنید که همزمان به راست و چپ رانندگی کند.
یک موضوع جداگانه تمیز کردن پایگاه های داده است، من یک بار این کار را 3 سال پیش برای یک مسابقه قبلی انجام دادم. در بیشتر موارد ، همه چیز هنوز در آنجا مرتبط است ، اما اکنون می توانید از بررسی 200 OK خودداری کنید ، من واقعاً این روند را دوست نداشتم ، خطاهای بسیار بزرگی وجود داشت ، بسیاری از موارد غیر ضروری فیلتر شدند. اکنون این می تواند تقریباً به طور خودکار در طول عملیات Khrumer انجام شود، اگرچه این فرآیند یک آنالوگ کامل برای بررسی "200 OK" نیست. به هر حال، نکته: چندی پیش یک فرصت فوق العاده در Khrumer ظاهر شد - برای سرقت اطلاعات از منابع در زمان اجرای یک پروژه. به نظر می رسد این است. شما یک الگو را وارد می کنید که در حین کار پردازش می شود و اطلاعات جمع آوری شده از الگو در فایل xgrabbed.txt در پوشه Logs وارد می شود. شما می توانید از این عملکرد برای هر چیزی استفاده کنید، پرواز تخیل بسیار بزرگ است. من از این تابع یک بار در هفته برای حذف پیوندها از پایگاه داده "منقضی" خود استفاده می کنم. بر کسی پوشیده نیست که انجمن ها هر روز در حال نابودی هستند تا پایگاه داده ما را از چنین منابعی پاک کنند و ابزار "Autogabbing" در این مورد به ما کمک می کند.
از این گذشته، باید اعتراف کنید که وقتی اغلب مثلاً http://www.laptopace.com/index.php تایپ می کنیم، می بینیم که این دامنه قبلاً مثلاً یک پسر خوب پول فروش است، اما وجود ندارد. انجمن وجود دارد. پس برای اینکه این سرباره را از پایه بیرون بیاندازیم دستبرد میزنیم. :) کد منبع صفحه را باز کنید و این ورودی را در آنجا ببینید:
اکنون همه "مردان مرده" گودادی به نام برای ما شناخته می شوند.
در اینجا یک انتخاب کوچک برای ابزار Autograbbing وجود دارد، اگر می خواهید پایگاه داده را از دامنه های مختلف "منقضی شده" پاک کنید: