s'erschtä riliis vom archimob korpus

mee als zää joor nochdä konzepzion isch s archimob korpus vo gschprochnäm schwiizerdüütsch berait zum tailt wärdä. das isch s resultat vomnä langä disainprozäss, intensiiver manuäller arbet und compiuterverarbaitig.

s korpus beschtoot us transkripzionä vo interviuu mit schwiizer bürger, wo dä zwaiti wältchriäg mitärläbt hend und tekt themä wiä politischi schtriiteraiä, alltagsläbä und sogar verbotteni liäbäsaffärä wääränd chriägsziitä ab. d'interviu, wo maischtens ais bis zwai schtund lang sind, sind vom archimob verain imnä mündlichä historischä projäkt xammlät wordä. d'informantä chömäd vo allnä linguistischä regioonä vodä schwiiz und repräsentiäräd baidi gschlächter, verschidäni soziali hindergründ und verschidäni politischi aasichtä.

d zämäschtellig vom korpus hät als tail vo de doktorarbete vom matthias friedli und de janine richner-steiner, wo vodä elvira glaser betroit wordä sind, aagfangä, wo d videosammlig vom archimob verain bezogä wordä isch. d videos sind sit doo i chliine tailziit ongaschmoos vonäs paar mitarbaiter transkribiert worde. d arbet am korpus isch intensiwiärt wordä mit dä underschtüzig vom zürcher kompetänzzentrum linguistik (ZüKL) und vorallem mitem schtart vom "UFSP Language and Space".

s korpuslab vom ufsp hät vor churzem d rollä vom hauptkoordinator vode arbet am archimob korpus übernoo. i zämäarbät mitäm züri-basiertä start-ap "Spitch" hemmer elf noii dokumänt transkribiert, zum uf 34 transkribierti dokumänt choo (was ca. 500'000 tokens entschpricht). üsi mitarbaiter noëmi aepli, fatima stadler und phillip ströbel hend sich um d datekonsolidierig, formatierig, anotazion und dokumentation kümmeret.

s korpus isch gaignät zum regionali linguistischi wariazion schtudiärä under dä beachtig vom gebruuch vo wörter i kontext und süntaktischä fänomeen. sotigi schtudiä sind jetzt aifacher wägä dä zwai schichtä vo wort-basierter anotazion, wo i dem riliis zur verfüägig schtönd: normalisazion vo schriibwariante, wo flexiibli suächi ärlaubt und wortartätäging wo d suächi noch formalä muschter zuäloot. d anotazion isch i ungefäär aim drittel vodä dokumänt manuäll durägfüärt wordä und im räscht automatisch.

im prozäss vodä automatischä anotazion hemmer thuuls entwiklät wo jez chönd pruucht wärdä zum au anderi schwiizertütschi täxt värarbaitä. dä wortartätäger und s normalisierigssyschtem (wo in zämäarbät mitäm yves scherrer vodä uni genf entschtandä isch) basiäräd uf generellä maschiin lörning algorütmä wo uf üsnä manuäll anotiärtä dokumänt basiäräd. diä chömäd im momänt ufä gnauikait vo äs bizli über 90%.

ä schpeziells märkmool vom korpus isch d täxt-zu-toon aliniärig ufm lävel vo segmänt vo 4-8 sekundä. diä aliniärig isch nöd numä guät für detailliärti forschig vo fenomena vo gschprochner schprooch sondern au fürs träning vo schprooch-zu-täxt konwärtierigsprogramm.

s korpus isch i zwai formä verfüägbar: für onlain korpus abfroogä via ä korpus suächmaschinä und als äs XML archiv zum abäladä. d onlainsuächi isch im momänt möglich mitäm süschteem "SketchEngine". d entwikler vo dem süschtem hend uf üsi aafroog hii äs schpeziells wärkzüüg implementiärt, wo flexiibli wortsuächi ermöglichät. zuäsäzlich zu "SketchEngine" schaffemer amnä korpus für anderi, frai wäälbari süschteem wiä zum bischpiil "ANNIS" oder "IMS Corpus Work Bench".