SharePoint u FAST — Cups butir tal-karawett l Reese ta Apps Intrapriża?

Stajt lest sa jum 2 ta 'taħriġ FAST fil xemxija Needham, MA, u jien fqigħ ma 'ideat (fiha l-klassijiet ta 'taħriġ tajba tagħmel biex lili). One particular aspect of FAST has me thinking and I wanted to write it down while it was still fresh and normal day-to-day "stuff" mbuttati barra tar-ras tiegħi.

Aħna SharePoint WSS 3.0 / Implimentaturi MOSS spiss jiffaċċjaw problema iebsa ma 'kull proġett SharePoint raġonevolment ta' daqs: Kif nistgħu tikseb l-informazzjoni untagged kollha mgħobbija SharePoint tali li dan kollu toqgħod tajjeb fi ħdan arkitettura ta 'informazzjoni tagħna perfettament mfassla?

Spiss biżżejjed, din mhix tali problema diffiċli għaliex aħna lilna nfusna ambitu barra ta 'nkwiet: "We don’t care about anything more than 3 months old." "We’ll handle all that old stuff with keyword search and going-forward we’ll do it the RIGHT way…" Etc.

Iżda, what happens if we can’t scope ourselves out of trouble and we’re looking at 10’s of thousands or 100’s of thousands (jew saħansitra miljuni) ta 'docs — it-tagħbija u immarkar li hija x-xewqa devout tagħna?

FAST jista 'jkun ir-risposta.

Proċess ta 'tfittxija FAST tinkludi lott ta' partijiet li jiċċaqalqu, iżda ħsieb simplifikata wieħed huwa dan:

  • A proċess crawler jistenna għall-kontenut.
  • Hija tikkonstata kontenut u idejn off għal proċess sensar li tmexxi grupp ta 'proċessuri dokument.
  • Proċess Broker idejn off għal waħda mill-proċessuri dokument.
  • Il-proċessur dokument janalizza l-att u permezz ta 'proċess pipeline, tanalizza l-bejeezus barra tad-dokument u idejn off għal proċess indiċi tip bennej.

Fuq il-FAST Starship, we have a lot of control over the document processing pipeline. We can mix and match about 100 komponenti pipeline u, aktar interessanti, we can write our own components. Like I say, FAST is analyzing documents every which way but Sunday and it compiles a lot of useful information about those documents. Those crazy FAST people are clearly insane and obsessive about document analysis because they have tools and/or strategies to REALLY categorize documents.

Allura … użu FAST flimkien ma komponent tagħna stess pipeline custom, we can grab all that context information from FAST and feed it back to MOSS. It might go something like this:

  • Dokument, jiddaħħal fis FAST minn MOSS.
  • Normali crazy-ossessjoni dokument parsing FAST u l-kategorizzazzjoni jiġri.
  • Komponent tagħna stess pipeline custom qtar xi wħud il-kuntest informazzjoni off għal database.
  • A proċess ta 'disinn tagħna stess jaqra l-informazzjoni kuntest, jagħmel xi deċiżjonijiet dwar kif tajbin li dokument MOSS fi ħdan IA tagħna u jimmarka it up jużaw servizz web u l-mudell oġġett.

Of course, ebda proċess awtomatiku bħal dan jista 'jkun perfett imma grazzi għall-Obsesja (u n-nies FAST possibilment insane imma-in-a-tajba naħat), aħna jista 'jkollhom nar reali maqtul bi proċess verament effettiv tagħbija massa li tagħmel aktar milli sempliċement imla l-database SQL bil-mazz ta' dokumenti bilkemm jitfittex.

</aħħar>

Abbona għall-blog tiegħi.

Ħalli Irrispondi

Your email address mhux se jkun ippubblikat. Meħtieġa oqsma huma mmarkati *